文生视频模型 Pika 创始人郭文景(Demi Guo ),“Mobile Aloha”全能家务机器人研发团队成员符梓鹏 (Zipeng Fu)、赵子豪 (Tony Zhao)以及史潇洋 (Lucy Shi)……斯坦福大学人工智能实验室里年轻的华人研究者身影频频引发关注。
史潇洋三人同属于斯坦福 IRIS (Intelligence through Robotic Interaction at Scale) Lab,导师为 Chelsea Finn。史潇洋最新的研究成果是名为“Yell At Your Robot”(简称 YAY Robot)的系统。有了这个系统,可以通过“喊话”来训练机器人。澎湃科技(www.thepaper.cn)近日专访了她。
史潇洋
23 岁的史潇洋,2019 年毕业于中国人民大学附属中学后进入南加州大学就读计算机专业。期间,她曾在英伟达研究多模态大模型,并曾与知名 AI 学者 Chelsea Finn, Sergey Levine, Jim Fan 博士合作,也曾受谷歌 DeepMind 邀请发表过演讲。
以学生研究员身份加入斯坦福大学人工智能实验室的史潇洋,最大的感受是斯坦福自由的学术氛围。在这里,可以得到更多人工智能、 计算机领域的人脉以及研究资源的支持。同时,她也能她感受到硅谷 AI 创业氛围的热烈,可谓机遇与风险并存。身边会有人工智能创业团队,甚至还没有正式的企业名字和商业计划,就吸引了 7000 万美元的投资资金。
作为年轻的技术理想主义者,史潇洋的研究目标是,创造聪明的机器人,流畅地执行人类日常的复杂、长期的任务,“从家庭到工厂,帮助人处理乏味和危险的事情。”她坚信人类的聪明才智和人工智能的潜力。
以下是澎湃科技与史潇洋对话实录:
“家务场景让机器人可以更深度学习”
澎湃科技:之前出圈的 Mobile Aloha 是一款家务机器人,这次的 Yell at Robot 系统。实验很多场景也是建立在家务场景中。为什么会瞄准家务场景?
史潇洋:传统的机器人方法通过程序规定了一系列机械的动作。但我们更偏向于通过深度学习(Deep Learning)的方法来训练机器人,让机器具备泛化的能力,希望能够在无限的场景里,机器人都能知道该如何应对。
家务场景可能每天甚至每个小时都会出现各种各样的变化。在家务场景中,可以让机器在从来没有见过的场景中探索、学习。这是算法和数据的问题。我们希望给机器一些简单的自然语言的指令,它就可以完成一些没有做过、不太会的事情。
工厂学习的场景比较固定,特定情况下传统的机器也可以做到。家务场景则比较复杂,传统机器人很难做到,但机器学习是有可能的。当我们给相当量级的模型和数据,机器就有可能通过深度学习达到像人一样泛化的能力。
YAY Robot 实验场景
澎湃新闻:为什么会给这个系统取名为 Yell At Your Robot?
史潇洋:我们原本还有一个相对学术的名字,考虑到可能大家都不知道在说什么,最后决定反其道而行之,取了一个比较通俗易懂的名字。
做机器人的都知道,让机器人去学习是非常痛苦的事情。有时候,机器人就像一个小孩子,譬如在训练机器人做饭这类复杂任务过程中,可能就差“手往左挪半厘米”就完成了,这时我们想到的最简单、最直接的方法就是说话,“往左挪一点”,或者“用勺子把袋子撑得再开一点”这类非常日常的语言都是我们的指令。在模型的一个输入层,我们用了大语言模型,使得机器对于日常语言有比较好的理解。这就像是有大模型去把我们说的话翻译成机器人听得懂的语言。
澎湃科技:你们花了多久时间研发?
史潇洋:这个项目本身做了将近半年时间。我们在这个项目上比较拼,做挺快的。
项目团队一共有 8 个人,以博士生和研究员为主,此外有两个教授和两个博士后。
我们基本每周都会开组会。因为我们做的是一个系统,从更底层的软件硬件到整个数据收集系统、数据质量评估,所有的工作都是我们自己来完成,系统搭建好后,还需要不断迭代算法和模型,让机器人在真实世界中做训练和评估。
澎湃科技: 对于这个系统,你们后续还会有哪些计划?
史潇洋:后面还会有更多工作。包括让 YAY Robot 系统能处理更复杂的问题,比如我们可以用很简单的自然语言指令,加上一些简单的教导,让机器人完成一个从未做过的家务活,让机器人可以根据用户的意愿服务。这里可能会涉及更多技术问题,比如我们在收集数据过程中,如何通过一套算法来分辨数据的优劣,将无用的数据变成有用的数据,如何利用大语言和多模态视频模型,以及让机器人学习该如何更好地学习等,这可能是后面几个月我们要继续探索的事情。
我们会和一些院校和企业合作,校内项目的所有代码都会开源。跟企业合作的好处是可以获得更多的计算资源,但是能不能把所有的技术细节都开放,双方还需要再谈。
无论高校还是公司,“训练数据成本高”都是难题
澎湃科技:这款系统发布后,收到了哪些反馈?
史潇洋:其实我们发布之后,除了社交平台上的评论和学术圈的反馈外,还收到了很多企业和风险投资公司的邮件。人工智能企业主要是询问我们能否帮他们训练模型,比如训练机器人订机票,或者用在人形机器人上,还有想了解算法细节的,风险投资公司则很直接,就问我们想不想创业。
这些反馈让我对人工智能有了更多希望。很多科技的进步和发展都需要资本力量的推动,也需要人才。在这个过程中我见到了很多非常有才华的人,如果有了资本和市场的加持,人工智能在后面几个月或几年时间里,会出现更多突破性成果,会有更多有影响力的产品,这很重要。
澎湃科技:所以真的可以训练机器人帮忙订机票吗?
史潇洋:在理论上是可以的,但在实操上最难的一个问题是数据从哪里来?需要知道人们订机票的时有哪些步骤。现在大语言模型的优势是互联网给它提供了相当多的语料作为训练数据,但包括订机票、做家务这类需要做决策的事情,是没有数据的。现在很多公司项目科研和大学的科研都面临同样的情况,即训练数据成本很大。
斯坦福的科研环境整体是蛮好的,当然这也取决于研究领域和具体的实验室。我个人非常喜欢这里自由的学术氛围,导师鼓励大家去探索从来没有探索过的话题。
这里也有很多计算机领域的人脉资源,很多人工智能公司都在硅谷,斯坦福也有相当不错的校企合作的氛围。在人工智能的发展上,资本很重要。深度学习为什么能腾飞?是因为有显卡、有计算资源。显卡的发展在某种程度上得益于游戏界。世界上太多人打游戏,造就了这些游戏公司,然后有了越来越好的硬件和显卡,有了更好的显卡,就能训练更大的模型。这些大模型越来越好,就有了今天的人工智能。
资本热度非常高,机器人将会高速发展
澎湃科技:你刚刚说斯坦福的学生和硅谷 AI 公司联系非常紧密。现在硅谷创业的氛围是怎样的?
史潇洋:硅谷现在最受关注的创业方向主要有两类,一是 AI,还有一个是 Web3。也有很多以往做电商平台的,重心开始往 AI 方向上转。
硅谷 AI 创业,只能说资本非常热。比如我知道的一家人工智能创业公司,在都没有名字和任何商业计划时,就拿到了 7000 万美元的投资。现在创业公司像雨后春笋一样出来了,但竞争也相当激烈。
澎湃科技:你会考虑去创业吗?
史潇洋:会考虑,但也会考虑风险以及技术有没有到一个正确的时间点。我觉得商业上的成功是非常需要天时、地利、人和的,哪一点没有满足都很难。我觉得我还是蛮学术的一个人,当前还是想要深入探索一些学术问题,比如机器人或者人工智能体有没有办法实现自主提升和高效利用数据等。
澎湃科技:你对机器人的兴趣是什么时候开始有的?
史潇洋:对机器人的兴趣可能来自于对航天的兴趣。读高三时,我对航天产生了兴趣,因为航天领域有很多不太安全的工作,需要通过机器人来解决。但是整个世界上还没有多少聪明的机器人,所以我想造聪明的机器人。
我现在做人工智能科研,相信人工智能对社会的进步非常重要,不管是对于科技还是对于社会。但我同时也很确定世界上有很多也同样重要,比如新闻媒体,我也曾做过学生记者,大学时也学过哲学、社会学,后来跨界到航天工程,也在商学院待过。我一直都是不太安分的类型,不停地提出问题,也在寻找答案,现在我很坚定地在做人工智能。
我觉得科技需要快速发展,但同时也要确保其中的安全性,而且要确保科技最大化地覆盖最大的群体,而不是只针对一些精英阶层。尤其是在人工智能领域,还有很多社会问题,比如法律规范问题、公众教育问题,和社会公平,这些都需要更多的思考。
澎湃科技:你理想中,未来人工智能发展理想的情况是什么样?
史潇洋:用一个词来概括的话,就是 IA(Intelligence Augmentation),智能增强,现在人工智能是 AI(Artificial Intelligence)。未来的人工智能不仅可以解决我们物理上的需要,比如回家后机器人已经做好饭、打扫了卫生,给我们更多自由的时间和空间,另外也可以推动创新和科学发展。我希望智能系统可以帮助我们解决很多这样的问题。
澎湃科技:具身智能概念在 2024 年讨论度非常高。在你看来,2024 年机器人的发展趋势会是怎样的?
史潇洋:整体应该会往更功能、适用的方向发展,比如家务场景的机器人今后可能会更多。也会有一些机器人公司会往更细分的领域走。
机器人将会受到更多的关注。之前人们关注的人工智能子领域近些年有突破性发展,几乎快被解决了。机器人可以算是最难解决的一个硬骨头。现在越来越多的人试着去参与,啃这块硬骨头,所以会有大量的人才、资金涌入,机器人将会进入一个高速发展的阶段。这也许会引发第四次工业革命。