超级“辅助”来了！谷歌推出通用AI：能听玩家指令，陪打游戏

　　谷歌 DeepMind 带来了一款能够陪伴玩家打游戏、听从玩家指挥的 AI。

　　当地时间 3 月 13 日，谷歌 DeepMind 推出了名为 SIMA（Scalable Instructable Multiworld Agent，即可扩展、可指导、多世界的智能体）的 AI 智能体（AI Agent），将其称为全球首款能在广泛的 3D 虚拟环境和视频游戏中遵循自然语言指令的“通用 AI 智能体”。

　　AI 能够帮助玩家打游戏早已不是什么新鲜事，但这款 SIMA 的不同之处在于，它并不会通过“后台操作”来让玩家单纯地在游戏中获得胜利，而是会像“伙伴”一样听从玩家用自然语言给出的指令，在多种 3D 游戏中辅助玩家完成复杂任务。

　　为了训练出能够适应不止一款游戏的通用型游戏 AI，DeepMind 与多家游戏开发商建立了合作关系，在《无人深空》《模拟山羊3》《幸福工厂》等九款在玩法和操作上截然不同的视频游戏中对 SIMA 进行了训练和测试。DeepMind 为 SIMA 展示了玩家组合游玩不同游戏以及自由游玩的录像，通过大量数据的输入来让 SIMA 归纳出常见的玩家操作，以及语言和行为之间的联系。

　　SIMA 的训练过程。来源：DeepMind 官网

　　此外，DeepMind 还用到了四个研究环境，其中包括用 Unity 创建的一个新环境，名为“the Construction Lab”。在这个环境中，智能体需要使用积木构建雕塑，以测试它们对物体的操纵能力和对物理世界的理解。

　　在整体架构上，SIMA 将预训练视觉模型与自监督学习的 Transformer 相结合，从用户那里接收语言指令，并从环境中获取图像观察结果，然后将它们输出为键盘和鼠标动作，以操控游戏中的角色。

　　这意味着，SIMA 不需要访问游戏的源代码，也不需要定制的 API 来使用，仅需要屏幕上的图像和用户提供的自然语言指令这两个输入，就能够与任何潜在虚拟环境进行交互。

　　DeepMind 表示：“SIMA 是一个 AI 智能体，能够感知和理解各种环境，并采取行动来实现指定的目标。它包括一个设计用于精确图像语言映射的模型，以及一个用于预测屏幕上接下来会发生什么的视频模型。我们利用 SIMA 所涉及的特定 3D 设置的数据来微调这些模型。”

　　据介绍，当前版本的 SIMA 已经在 600 种基本技能上获得评估，涵盖导航（例如“向左转”）、物体交互（“爬梯子”）和菜单使用（“打开地图”）等。经过 DeepMind 的训练，SIMA 已经能执行可以在约 10 秒内完成的简单任务。最终，SIMA 将学会如何游玩任何视频游戏，甚至是没有线性结束路径的游戏和开放世界游戏。