文昆仲资本
1950 年,图灵首次提出“具身智能”,但之后的研究却犹如暗夜行舟。
如今,得益于 AI 技术、执行器方案、传感器方案等科技的进步,长出“大脑”和“四肢”的人形机器人正走出实验室,走向市场。
然而,人形机器人想真正要实现商业化落地,就要拥有类人的能力,尤其是高精度、高复杂度的手部操作,直接决定了人形机器人的实用价值。
在此背景下,戴盟 Sparky 1“心灵手巧”型人形机器人脱颖而出。
戴盟 Sparky 1 的技能包括但不限于焊接电路板、滴试剂、熨衣服、倒酒、整理书架……让我们看到了人形机器人在工业、研发、家庭、商业等多个场景的出色替代性。
正因如此,属于“具身智能”机器人的“开灯时刻”终于到来。
近日,昆仲资本创始合伙人姚海波与戴盟机器人董事长、首席科学家王煜教授进行了一次深入交流,精彩讲解了机器人技术的变革与发展,以及人形机器人的未来。以下为对话内容:
具身智能机器人到了“开灯时刻”
姚海波:有人说具身智能机器人到了“开灯时刻”,您怎么看?
王煜教授:这是一个令人兴奋的话题。80 年代初,我在美国读研时进入机器人行业,作为机器人领域最早的一批研究生,我经历了整个人形机器人的发展历程,也参与了很多研究工作,现阶段人形机器人的发展状况确实是令人兴奋的,也是震撼人心的。
此前的 30 多年里,机器人取得的进展主要集中在工业领域,尤其是汽车行业和有自动化需求的各类工业场景中。发展至今,工业机器人已经非常成熟了,中国的表现更是可圈可点,目前,国产工业机器人市场份额已突破 50%。对我们这些第一代机器人研究者来说,这样的成绩十分喜人。
但机器人领域真正的突破和未来长远的发展前途,实际上是现在的人形机器人。过去 30 年,机器人的研究问题主要包括移动、操作、图像理解三个方面。人形机器人这几年的发展,主要就是把这三方面最终落实到一个拥有自主执行的智能机器人上面。
最近十几年,机器人在硬件、图像处理上取得了长足的进步。在美国波士顿动力的带领下,机器人本体的控制、动力学控制等都有不错的进展。最近三四年,人形机器人迎来了一个新的巨大的突破,就是具身智能。至此,机器人可以通过大数据、深度学习、大语言模型等方法,实现和外界互动,并且能够理解指令的真实含义,分析自身所处场景,最终完成一系列任务操作。换言之,机器人可以同时执行下肢移动和上肢操作,而且能够通过自主学习实现这些操作。
国内外多家人形机器人科创公司,包括特斯拉和戴盟机器人等,都在沿着这个方向向前迈进,这个方向不仅有非常好的可行性,而且也有相当可观的市场。从这方面来讲,我觉得现在正是所有机器人研究者真正所盼望的时刻,我们有机会把人形机器人做成做好。
姚海波:大语言模型给人形机器人带来了什么,是一场应用革命吗?
王煜教授:1956 年,麦肯锡、明斯基等 4 位图灵奖获得者与多名学者共同确立了“人工智能”的概念,就是希望机器能够像人类一样认知、思考和学习。此后,涌现出一些智能产品。1990 年左右,由于应用领域狭窄、收益不乐观等原因,人工智能进入“冬天”。直到深度神经网络技术的出现,人工智能才进一步走向实用化。
与预编程技术不同,在深度神经网络技术下,机器人能够根据先前的学习和经验预测解决方案,这使得通用大模型的建立成为可能,我们熟知的 ChatGPT 大语言模型就是在此基础上实现的。
大语言模型能够帮助机器人更好地识别场景、理解指令的含义。比如,机器人要完成“把这本书放在书架上第三本书的后面”这一指令,它不仅要理解指令的意思,还要把一连串的 sequences(序列运动)做出来。
在人工智能发展历史中,大语言模型等工具还是新事物,目前尚处于科研阶段,业界对这些工具的理解还未达成共识,因此,我们会看到不同的技术路线和方法。但不可否认的是,这些工具有很好的应用价值,当下这个好时机不容错过。
“手”比“足”难,但却更有价值
姚海波:无论是波士顿动力还是特斯拉,过去几年,大家看到的更多是“足”在快速迭代与跃迁,而“手”却没有想象中发展快,原因是什么?
王煜教授:这是一个很有趣的问题。前面提到,80 年代初机器人研究要解决的三个方向是移动、操作、视觉图像处理。其中移动和视觉图像处理发展相对较快。移动的发展是和硬件、运动控制、动力学控制等的发展是同时并进的。波士顿动力创始人马克·雷伯特(Marc Raibert),他在 CMU(美国卡内基梅隆大学)创立了 CMU leg 实验室,那时候就把足的能力做得非常好了。
在过去的 20 年里,尤其是在波士顿动力的带领下,人形机器人行业已经基本解决了动力学的问题,这些使得“足”的能力达到了我们现在所看到的样子——非常稳定而且惊人,机器人可以在复杂的、不可预估的地面上行走,比如冰、雪路面,楼梯等。而且拥有不错的整体控制能力,特别是 MPC 控制方法(模型预测控制)的应用,给现在的人形机器人奠定了良好的基础。
灵巧手的发展经过了一段缓慢的时间。我在 CMU 读博时,跟随导师和团队开始研究灵巧手操作,当时我们是较早开始做灵巧手操作的研究机构之一。
大约十年前,伴随电动系统的应用,五指灵巧手硬件已不再是难题,但拥有硬件层面的灵巧手不等于实现了灵巧操作。
和移动不一样的是,灵巧操作任务复杂度太高了。过去,我们通过编程来实现移动和操作,但这并不适用于灵巧操作,因为我们无法把所有的事情都变成程序,更重要的是,灵巧手接触到物体时的反馈是非常重要的,可以说,没有主动的反馈就没有灵巧操作,灵巧手的发展就卡在这里。
现在,我们终于有了一套新的思路和解决方法,这套方法已经在近期发布的 Sparky 1 上应用,即通过基于光学触觉传感器的五指灵巧手获得类人的操作能力和触觉反馈,以及集成最新的 AGI 技术和 LLM 大语言模型,使机器人具备强大的自主学习能力和问题解决技巧,能够广泛应用于不同场景和任务,从而展现出前所未有的“心灵手巧”,这是能够让我们超越友商的一套“独家秘笈”。
在操作模型训练方面,我们也总结出一套经验,那就是,既要关注数据集的大小,更要关注如何收集高质量的数据,尤其是触觉感知,因为触觉感知对于机器人使用手完成灵巧操作任务至关重要。
姚海波:灵巧手领域 PK 的到底是什么,有人说是抓握、负载等各种能力,您的答案是什么?
王煜教授:灵巧手的能力不是单一的、线性的,而是基于不同环境下的不同能力,这和跑、跳机器人有所不同。当跑、跳机器人的足和地面接触时,机器人的首要任务是在完成动作时保持平衡,避免跌倒。
而机器手的任务则更为复杂——通过手指和物体的互动,使得物体产生一定的运动和轨迹,并能够在一定的环境下达到一定的位置,比如说拧螺丝,既要拧得上去,又要把它拧紧。这不仅要控制手的稳定,还要通过手施加的力使得物体之间 interaction(相互作用),所以“手”和“足”的任务需求完全不同,技术要求也就不同,“手”的操作会更难。
姚海波:可以朴素地理解为“手”比“足”更难吗?
王煜教授:从操作复杂性的角度来看,现在公认的观点是“手”比“足”更难。
很多年前,预编程控制的夹爪或机械手就已广泛应用于工业自动化领域,这种“基础版”的手难度相对不大。我们希望人形机器人有一双感知反馈的灵巧手,替代人类完成那些对精确度要求高且通用性较强的任务,这种“高级版”的手做起来要更难。
目前,当我们在说手更难时,实际上是指“高级版”的手比足更难。而通过一双“高级版”的手,提高生产效率、保障作业安全、扩展可完成任务的能力边界并达到或超越人类的操作技能,这是人形机器人的核心价值。
中国具身智能人形机器人加速“领跑”
姚海波:在发展具身智能人形机器人上,中美两国都投入了巨大资源,并作了长期规划。您认为未来中美人形机器人行业各自的发展前景如何?
王煜教授:最近两三年,在高科技公司牵头下,美国新老研究者们凝聚在一起,共同推动具身智能的发展。另外,强大的多模态大模型能力和芯片产业,也是美国具身智能发展的重要优势。可以说,美国拿着一手好牌。但有趣的一点是,美国主要的几个学术派科研团队中,都有来自中国的学生,中国学生聪明、敏捷,且往往能够精准地判断出最有前景的研究方向。
中国手里的牌也不错。
在政策端,中国对人形机器人的支持力度相当大,北京、上海、深圳、杭州等地积极布局人形机器人产业,甚至一些中小型城市也极为重视人形机器人的发展;在产业端,我国具有市场规模、应用场景、数据资源、人力资源等多方面综合优势,尤其应用场景优势对整个行业的发展至关重要。与此同时,我国有很好的供应链和制造业基础,电力系统、电池、电机等呈现良好的增长态势,因此,在人形机器人领域,我们完全有可能和美国同行并进,甚至在规模上压倒对方。
姚海波:科学家和创业者这两种身份有什么不同?
王煜教授:科研教授一般紧盯前沿、尖锐、具体的问题,并从中找到自己擅长、喜欢的方向。我最近几年做的视触觉传感器研究,就是盯住了灵巧手手指所需要的敏捷且全面的感知系统这一问题。
但作为创业者,我的工作则更加复杂多元,主要体现在三点:一是以更加系统性的眼光看待技术和产品,关注从产品的整体设计到最终交付的每一个细节;二是搭建一个优秀团队。
2015 年,我在香港科技大学创建了机器人研究院,段江哗博士等一批来自该研究院和国内外知名高校、科研院所的优秀人才加入戴盟,我们一起把科研技术转化为产品;三是要获得资本的认可。在昆仲资本的加持下,戴盟机器人快速发展,在市场、研发等多个方面,尤其在灵巧操作方面“遥遥领先”。总之,创业要融合方方面面,这是天时地利人和的事。
人物介绍
王煜,戴盟机器人董事长、首席科学家,大湾区大学(筹)讲席教授,先进工程学院院长,香港科技大学机器人研究院创始院长。先后就职于美国马里兰大学、香港中文大学、新加坡国立大学、香港科技大学讲席教授。
美国卡内基梅隆大学博士,973 首席科学家,国家杰青,长江学者特聘教授,国家海外领军人才计划入选者,国家科技进步二等奖,IEEE 机器人与自动化学会制造自动化技术委员会前主席,IEEE Transactions on Automation Science and Engineering 前主编(Editor-in-Chief),IEEE Transaction on Robotics 副主编, IEEE Robotics and Automation Society 管理委员会委员。