文产业象限,作者丨钱江,编辑丨山茶
3 月 13 日,一则 2 分 34 秒的人形机器人视频引爆了网络,让人惊呼具身智能的时代提前到来了。
视频内容是美国人形机器人公司 Figure 的产品演示实景拍摄,视频中,工作人员向机器人询问“我能吃点东西吗”,机器人迟疑了几秒,然后熟练地将苹果递给了工作人员。
▲图源 Figure
相信许多人看到这个画面,都会有一种不真实的感受,似乎置身科幻之中。
为了将大家拉回现实,Figure 创始人 Brett Adcock 还在X上特意强调,视频是以 1.0 倍速连续拍摄的,机器人没有远程操作,所有动作和反馈都是完全基于深度学习自主完成的。
显然,随着 Figure 这则视频的发布,人形机器人又完成一个关键突破。
但问题也随之而来,为什么会是 Figure?
要知道,Figure 成立于 2022 年,发展时间距今不过 2 年。作为对比,世界上其他鼎鼎大名的人形机器人公司,特斯拉投入人形机器人已近 3 年,最近上市的优必选做了 12 年,波士顿动力更是做了 21 年。
那么,为何拿起“苹果”的第一台人形机器人是 Figure?Figure 是如何做到仅用两年的时间,就引领具身智能的前沿发展的?它为何会成功,又面临怎样的挑战?
惊艳的只是“智能”
虽然 Figure 展现了人形机器人无与伦比的交互能力,但我们仍然需要意识到的是,这并不代表真正的具身智能已经实现了,或者如 Demo 视频中展现的人形机器人就即将进入千家万户。
原因很简单,首先 Demo 视频演示的只是一个固定场景,而机器人真正进入人类生活和工作,还需要学会成千上万个类似的场景,这是一个从 0 到1,和从 1 到 100 的过程。
做一个简单的举例,就像自动驾驶第一辆车能够在测试道路上实现直线、转弯、超车变道等场景的自动驾驶,但并不等于自动驾驶车辆就有了上路行驶的能力。
就自动驾驶而言,早在 20 世纪 60 年,卡内基梅隆大学的研究人员依靠计算机视觉和人工智能开发的自动驾驶汽车,就已经可以在高速公路上以每小时 20 英里的速度行驶了。但直到 60 年后的今天,L5 级别的自动驾驶仍然遥遥无期。
其次在 Demo 视频中,Figure 01 并没有移动,它只是站在桌子面前,整个交互过程考验的只是它的意图识别、人机交互,以及上肢的操作能力。
简单来说,这个视频展示的真正厉害的点在于 Figure01 的软件能力,即其内部融合的 OpenAI 大模型大脑的部分,以及 Figure01 自己的,可以将 OpenAI 大模型能力与机器人本体(指机器人机械部分)进行翻译和交互智能系统。
Brett Adcock 将这套系统称为“端到端”的神经网络,其工作流程大致为,OpenAI 的大模型作为大脑,提供视觉推理和语言理解(其中可能包括 Sora 和 GPT-4 的能力);Figure01 神经网络作为小脑,根据 OpenAI 的大模型的判断做出一系列快速、低级、灵巧的机器人动作。
而对于人形机器人的考验,软件交互能力只是其中一部分,另一部分在于其本体的机械能力,比如如何在行走中保持平衡,各个机械部件的传动能力,如何让动作变得自然平稳,如何控制力度和精度等等。
而这些,需要考验人形机器人公司软件和硬件的协同开发能力,需要考验整个人形机器人供应链上下游的共同开发能力。而供应链也是目前人形机器人面临的最大挑战之一,其复杂程度不亚于当前的汽车产业链,但与汽车产业链发展距今 130 多年相比,人形机器人的产业链还处于“一张白纸”的状态。
Brett Adcock 也同样认为,目前人形机器人最大的难题在供应链,这一点我们后面会详细展开。
当然,Figure 在机器人本体上也并非全无成绩。事实上,它正在以飞快的速度前进。
这几年,人形机器人公司赛道上的选手有很多,Figure01 的速度格外扎眼,它只用了 1 年时间就打破了机器人行走纪录,而特斯拉花了 15 个月、波士顿花了 21 年。
▲图:X@Brett Adcock
除此之外,资本市场的青睐也给了它更多的推力。
今年 2 月,Brett Adcock 公布 Figure 获得 6.75 亿美金融资,其投资团队震动了半个硅谷,亚马逊创始人贝索斯,以及微软、英伟达、OpenAI 都来捧场。
随后,Brett Adcock 也公布了一张公司职位申请数量增长图,来显示 Figure 的受欢迎程度,从 2023 年 7 月到 2024 年 2 月,8 个月期间想入职 Figure 的应聘者数量增长了 218%。
▲图源:X@Brett Adcock
总而言之,Figure 正在以前所未有的速度,向着“具身智能”的时代前进。
借上 OpenAI 的东风
正如我们前面提到的,Figure01 的关键是软件,而软件中让人惊艳的能力又主要来源于 OpenAI。
所以严格意义上说,Figure 在人形机器人上做出的创新其实有限。
但这并不妨碍 Figure01 带来的惊艳。Figure01 能听懂人类的指令、识别出哪一个物体可以食用,并顺畅地转化为行动能力。
这项能力之所以令人惊艳,除了丝滑无障碍的沟通之外,还在于它解决了机器人行业的一个固有悖论——“莫拉维克悖论”。
它由人工智能和机器人学领域的先驱汉斯·莫拉维克提出,在计算机和机器人系统中一个有趣且非直观的现象:对于人类来说简单的感知和运动任务,对计算机和机器人而言却异常困难;而人类认为复杂的逻辑和抽象思维任务,对计算机来说却相对容易。
所以 Figure01 展现的递苹果、摆盘子行为看上去简单,实现起来有一定的技术难度,需要拥有识别、计划和执行任务的能力。
而这项能力也来源于“端到端的神经网络闭环”,即 Figure01 可以直接将看到的、听到的信息转化为语言和行为结果,中间不需要经过其它程序处理。
Brett Adcock 解释 Figure01 的技术路线,称 Figure01 连接了 Open AI 的能力,所有行为均由神经网络视觉运动变压器策略驱动,可以将像素直接映射到动作。
▲图源:X@Corey Lynch
出门问问创始人李志飞在他的账号“飞哥说”中详细剖析 Figure1 的技术原理,在整个过程里,Figure01 至少灵活拥有两项能力:大语言模型的思维链 COT 能力,以及顺畅的底层操控能力。
拆开来说,Figure01 的这一套操作,需要机器理解自然语言,并把自然语言转换成机器的抽象计划,再将这项抽象计划转化成底层操控。
最近的一次引发轰动的机器人成果,是斯坦福大学华人团队研究的 Mobile ALOHA,它能够炒虾仁、按电梯,这个能力还是通过人工远程操控叠加静态 ALOHA 数据才实现。
▲Mobile ALOHA 样机
在机器人领域,目前为了解决这个问题最盛行的是三种模型:
第一个是 RT-1 模型,输入文本指令和对应图像,通过预训练模型将其转化为 token,再经过压缩,最后输出机器人听得懂的三个维度操作指令 Mode、Arm、Base,分别用于控制机器人的模式转化、控制机器人手臂动作,以及控制机器人移动。
第二个是 PaLM-E 模型,通过输入多模态模型知识,对任务信息进行处理,分解成特定的机器人指令。
这两种模型可以进行融合,机器人经过 PaLM-E 模型接收特定指令,再由 RT-1 将特定指令转化为对应的机器人控制指令。
第三种是 RT-2 模型,即视觉-语言-动作(VLA)模型,可以直接将机器人输入的信息转化为动作,单从表现来看,这似乎更符合 Corey Lynch 对外宣称的“端到端”实现方式。
根据李志飞团队的分析,Figure01 更符合 RT-1+PaLM-E 的模型融合。Figure01 从接收指令到行动,虽然这个这个过程有延缓,但整体非常顺滑,RT-2 决策频率是 1 到 5hz,很难做到 Figure1 的 200Hz 程度。
Brett Adcock 搭载了 Open AI 的顺风,在具身智能的道路上迈出了一大步。
单位时间内跑的最快的公司
当然,如果要回答 Figure 为什么跑得这么快,也不得不提到它的创始人 Brett Adcock 了。
和马斯克一样,Brett Adcock 在社交媒体上异常活跃。但 Brett Adcock 又与马斯克的口无遮拦,嬉笑怒骂不同,他在社交媒体上更新的主要是他的工作进度和思考。
这是一个实打实的工作狂。2003 年 4 月,随着 Figure 完成 7000 万美元A轮融资,Brett Adcock 在X上发布帖子的速度变得更加勤快。
他每天都发布若干条创业心得或与机器人相关的动态,并按“周”的速度强调一遍对“AI Robotics”行业的观察与变化,常用语是“Bug week of developments…”或者“Thats it for this weeks AI and Robotics breakdown”。
除此之外,Brett Adcock 还是一个久经沙场的创业老兵。在投身人形机器人这一硬件领域之前,他就已经在软件领域摸爬滚打了 10 多年。
他在X上常常总结分享自己的创业洞见,最常见的几个关键词是:快速、高效、轻便、低员工数、小团队、系统,在创办 Figure 之前,这些方法论是 Brett Adcock 连续创业成功的关键。
▲图源:X@Brett Adcock
Brett Adcock 出生于 1986 年,他的童年在伊利诺伊州莫韦夸小镇外的一个玉米和大豆农场度过,或许从小就见惯了日夜劳作的过程,他对提高工作效率、节省劳动力的事情格外着迷。
2002 年,还在上学的 Brett Adcock 就创办了一家网络公司 Street of Walls,据说这家网站至今还在帮助金融领域公司提高面试效率。
2012 年,25 岁的 Brett Adcock 和 Adam Goldstein 联合创办了一个就业网站 Vettery,在这段经历中,Brett Adcock 将“高效”这件事情拔高了N个等级。
最初,Vettery 只为第三方招聘公司提供服务,但“经历几次绝望的转型”之后,最终决定“抛弃所有招聘人员,将求职者和公司放在一个市场”,通过机器学习匹配求职者和招聘方。
这个方法果然奏效,Vettery 的用户几乎每周都在翻倍增长。
▲图源:Newatlas
正向的循环很快得到了市场的回应。
2018 年,Vettery 在短短 6 年的时间内获得 20000 名客户,获得当时世界上最大的招聘公司 Adecco 集团的注意,Adecco 集团以 1.1 亿美金的价格收购了 Vettery。Brett Adcock 获得了人生第一桶金。
Brett Adcock 的第二个创业项目是“电动垂直起降飞机”,其创办的 Archer Aviation(简称 Archer)是第一批 eVTOL(电动垂直起降)概念的公司之一,这时 Brett Adcock 30 岁。
Brett Adcock 很擅长“找钱”和“找人”。
Archer 成立后不久,Brett Adcock 就拉来了沃尔玛电子商务主管兼 Jet.com 创始人马克·洛尔 (Marc Lore) 作为投资人。Lore 在 2016 年将 Jet.com 出售给沃尔玛的时候就已经身价上亿,2020 年还持有 2.75 亿美金沃尔玛股票。
通常来讲,Lore 不会投资朋友和家人以外的创业公司,但 Brett Adcock 成了例外。不仅如此,Lore 还帮助 Brett 从家族和其他对科技感兴趣的富人那里筹集了大量资金。
很快,Brett Adcock 组建了“豪华”的 44 人团队,寻找航空领域的人才,包括前航空电子和工程部门负责人斯科特·弗曼(Scott Furman)和汤姆·穆尼斯(Tom Muniz)、空中客车公司 Vahana 原型机的总工程师杰夫·鲍尔(Geoff Bower),正式开启“空中租车服务”的旅途。
Brett Adcock“找钱”和“找人”的能力也复制到了 Figure 上。
2022 年,当 OpenAI 开始在文本生成、自动编程、语言翻译、内容创作等多个领域尝试应用 GPT-3 时,Brett Adcock 也从 Archer 离职了。
这个决定非常出人意料,因为当时 Archer 已经在申请飞行证的关键节点,现在我们无法考证 Brett Adcock 的离职是否是看到了人形机器人的更大机遇,但至少 Brett Adcock 因为这次离职赶上了人形机器人的风口。
之后就有了 Figure 的故事,Brett Adcock 找来了 Jerry Pratt 担任首席技术官,谷歌 DeepMind 科学家 Corey Lynch 也加入了 Figure 团队。
Jerry Pratt 从 1998 年就开始研究机器人,他曾经写过一篇论文《Walking on Partial Footholds Including Line Contacts with the Humanoid Robot Atlas》,这篇论文提出了一套算法,它可以让人形机器人在有限的立足点信息内,也能实现迈步,火出圈的波士顿 Atlas 采用的正是这个算法。
2022 年 5 月,Figure 成立。之后两年,人形机器人赛道群雄环伺。
国外有马斯克不断迭代 Optimus,1X 也获得 Open AI 融资,中国市场宇树 H1 不断钻研全尺寸人形机器人跑步,优必选敲钟上市。Figure 能在这些公司中突围而出,或许缘于 Brett Adcock 在X上表达的理念,“如果我是一名投资人,我会建议寻找单位时间内进步最大的公司”。
难啃的供应链
虽然在 Brett Adcock 的带领下,在硅谷资本的助推下,Figure 正在以飞快的速度前进。但摆在 Figure 面前的挑战也同样艰巨。
Brett Adcock 曾说起他选择人形机器人的原因,“我们正在目睹前所未有的劳动力短缺,在我们重点关注的仓储和制造行业,年周转率在 50-150% 之间,这些行业正在努力寻找/留住人才并扩大劳动力规模。”
Brett Adcock 认为机器人做成人形更有效率,因为拥有腿、手臂和手的机器人可以执行类似人类的任务,而无需改变环境,毕竟,重塑整个物理世界,是一项难以克服的挑战。
“有用”是 Brett Adcock 做人形机器人的第一要义。但要让人形机器人有用,证明这件事情是第一大挑战。
Brett Adcock 在一段采访中表示,已经有几十个客户在寻找与 Figure01 的合作,但目前只和宝马做了真正的合作,因为宝马会真正地将人形机器人的部署和集成送到他们在斯帕坦堡的设施。他要先用尽可能少的机器人,证明可行性。
其次,当从有用到真正带来生产了,人形机器人还需要大规模制造,而这其中的首要条件,就是硬件的可靠性。
虽然 Brett Adcock 有过一段做硬件的经历,但真正踏入人形机器人世界时,他还是被供应链难住了。“供应链的缺乏让我感到惊讶,这也意味着未来创业者还有很多新机会”。
▲图源:X@Brett Adcock
他在X上多次提及人形机器人缺乏一套成熟的供应链,因此团队必须从头开始设计整个机器人,包括执行器、电子设备、结构、关节、操作系统、控件、固件、人工智能系统等。
复杂多样的零部件需求,意味着要从全球不同的供应商那里进行采购,为了确保零部件的质量和供应的可靠性,还需要选择合适的供应商,并维持良好的合作关系,这又不得不投入大量时间进行供应商管理、评估和审查。
更重要的是,人形机器人对零部件高性能的要求,会产生较高的成本,如果未来要规模化生产 Figure01,Brett Adcock 必须思考如何降低采购和物流成本,来保证企业的利润。
在机器人领域,技术带来的惊艳是一回事,但是如何在商业化上做好规模化又是另一回事。
而这也不仅仅是 Figure 的挑战,也是所有人形机器人企业共同面临的挑战。
* 文中配图来源于网络。