黄仁勋对话Transformer八子：大模型的起源、现在和未来

　　GTC 第三天，英伟达创始人与 Transformer 模型的提出者们进行了一场围炉夜话。

　　作者郑玥

　　编辑郑玄

　　随着新一波 AI 浪潮席卷而来，英伟达突破 2 万亿美元市值成为最炙手可热的科技公司，今年 GTC 大会俨然成为年度最受关注的科技行业盛会。

　　四天的数百场主题分享中，英伟达创始人黄仁勋和 Transformer 八子的对谈，无疑是最受关注的场次之一。因为某种意义上，双方正是这波 AI 浪潮的奠基人。

　　谷歌大脑团队 2017 年发表了一篇名为《注意力就是你所需要的一切（Attention is all you need）》的论文，主要目的是解决自然语言处理领域，使用传统的 RNN（循环神经网络）模型不能解决并行计算，从而导致算法效率低下的问题。

　　这篇文章提出的新的处理架构就是 Transformer 模型，也是今天大模型的基石，而当时这篇文章的八位联名作者今天也被称为 Transformer 八子。几年后八子陆续离开谷歌，今天已经成为 Essential AI、Character.AI 等硅谷重要 AI 公司的创始人或技术核心。

　　Transformer 八子

　　Ashish Vaswani，EssentialAI 联合创始人兼 CEO

　　Noam Shazeer，Character.AI 首席执行官兼联合创始人

　　Jakob Uszkoreit，Inceptive 联合创始人兼首席执行官

　　Llion Jones，SakanaAI 联合创始人兼首席技术官

　　Aidan Gomez，Cohere 联合创始人兼首席执行官

　　Lukasz Kaiser，OpenAI 技术人员

　　Illia Polosukhin，NEAR Protocol 联合创始人

　　Niki Parmar，EssentialAI 联合创始人（因家庭原因未出席）

　　八子在文章中提出了可以解决并行计算问题的新架构，并预言了随着训练规模的提升 AI 会展现出更强大的智能。但这一切需要更庞大的算力支持，而过去十年一直投入研发 GPU 和加速计算的英伟达，则为八子的构想提供了算力这个最关键的燃料。

　　于是，就有了 GPT 的诞生以及今天日新月异加速发展的 AGI 浪潮。而在这样的一个时间节点上，黄仁勋和八子这些时代开拓者再次对话，也就有了更多看点。

　　以下是黄仁勋的开场独白和他与八子的对话原文，由极客公园整理编译。

　　黄仁勋开场

　　计算机处理器诞生于我出生的第一年（与我出生无关）。IBM System 360 定义了现代计算机的范畴，包括中央处理单元、I/O 子系统、多任务处理、硬件与软件的分离、整个系列的兼容性以及向后兼容性，以保护软件工程师的投资。这个描述到 80 年代末、90 年代初，个人电脑革命将计算机推向了高速发展，使计算机变成了我们所熟知的形态。每年性能的边际成本下降，每 10 年计算成本降低约 10 倍。在过去的 20 年里，PC 革命使计算成本降低了 10,000 倍，比历史上任何其他商品都要多。你能想象 20 年后，生活中的一切都变得更加便宜，汽车的价格从 2 万美元降至 1 美元吗，也许是 Uber。

　　英伟达创始人黄仁勋图片来源：NVIDIA GTC

　　但计算成本的大幅下降停止了，虽然每年仍有略微的改进，但变化的速度已经放缓。我们开始追求加速计算，这并不容易，因为需要将问题公式化，转化为并行算法，这是一个非常困难的科学领域。我们相信，如果能够加速代表 99% 运行时间的 1% 代码，那么将获得巨大的好处，可以实现一些之前认为不可能的事情，或者将需要大量金钱或能量的事情变得更加成本效益和节能。

　　在公司历史的整个过程中，我们一直在研究加速计算，不断地加速应用领域。尽管人们认为我们是一家电脑游戏公司，但我们也在追求其他领域的加速计算。我们最初在计算机图形和游戏中找到了这种情况，这推动了技术的创新和市场的发展。2012 年，我们首次意识到人工智能与 Nvidia GPU 的潜力，引发了我们对这个领域的兴趣。

　　我们坚信，如果我们能够加速代表 99% 运行时间的 1% 代码，那么在某些应用领域，我们将获得巨大的好处，实现巨大的差异。

　　我们可以将一些不可能的事情变为可能，将需要花费大量金钱的事情变得具有成本效益，或者将需要消耗大量能量的事情变得更加节能。因此，我们将这一概念称为加速计算，并在公司历史的整个持续时间内不断进行研究。

　　我们可以在一个接一个的应用领域加速发展。尽管人们认为我们是一家电脑游戏公司，但我们也在其他领域不断追求进步。我们认识到计算机图形和游戏的价值，因为它们不仅是庞大的市场，还推动了技术创新。这种罕见的情况是由从未被满足的庞大市场与技术革命的潜力交汇而成。我们最初在计算机图形和游戏中找到了这种情况，引发了我们对这个领域的兴趣。

　　几年后，一些惊人的事情发生了，导致了今天的局面。我将马上告诉你那件事。这一切导致了生成式人工智能的出现。现在，当你听到生成式人工智能时，当然会感到不可思议。

　　事实上，软件不仅可以识别一张猫的图片并保存猫，还可以根据「猫」这个词生成一张猫的图片。它可以根据一些条件提示，如在毛伊岛的阳光明媚的海岸上，站在冲浪板上，喝着麦芬酒，戴着滑雪帽，无论你添加什么样的提示，生成式人工智能都能够生成出来。我们已经开发出一种软件程序，能够理解像素的含义，识别像素，并从像素的含义中生成内容。这种能力具有深远的变革意义，促使了今天的局面。

　　这是新的工业革命的开端，我有充分的理由。在这个新的工业革命中，我们正在创造一些以前从未存在过的东西。就像以前的工业革命一样，最后一次，水进入工厂，能量被应用到水上。那个被称为发电机的装置开始运转，并创造出了我们今天所依赖的那些看不见但价值非凡的东西。

　　水进入建筑物，基本上是将其转化为能量，将其烧开，那么你会得到什么？你会得到电。这种电的魔力无处不在，它创造了我们所熟知的工业革命。

　　一种新的设施创造了一种新的、具有巨大价值的产品。虽然生成式人工智能是一种全新类型的软件，软件本质上也是需要被创造的。令人惊奇的计算机科学必须去塑造它。但在那之后，它就可以进行大规模生产了。一个装有我们称之为 GPU 的机器设备的建筑，本质上就是一个发电机，一个内部装有机器设备的大型建筑。

　　你给它原材料数据，你给它能量，然后这个惊人的东西就出现了。数字进去，数字出来，而出来的数字能够做出令人惊奇、难以置信的事情。

　　当然，它们可以被应用。它们可以用于医疗保健和药物设计，用于交通和降低汽车成本，以及用于制造业和工业，我们所熟知的每一个行业都将受益于这种新产品、这种新的生产物。因此，这是一个行业从未见过的全新产品。

　　它将在世界上从未见过的 AI 工厂和设施中进行生产，并且 AI 将被每个行业使用。你会怎么称呼这种情况呢？一个新的工业革命？这一切在此之前都不存在，但我们正在亲眼见证着未来十年的发展。你绝对不能错过接下来的这十年，会诞生令人难以置信的能力。这一切始于一些研究人员的努力。

　　所以今天我们邀请了机器语言模型「Transformer」的发明者、创造者们，是那篇名为《注意力就是一切（Attention is All you need）》的论文的作者。好的，现在让我们欢迎 Ashish Vaswani，EssentialAI 联合创始人兼 CEO；Noam Shazeer，Character.AI 首席执行官兼联合创始人；Jakob Uszkoreit，Inceptive 联合创始人兼首席执行官；Llion Jones，SakanaAI 联合创始人兼首席技术官；Aidan Gomez，Cohere 联合创始人兼首席执行官；Lukasz Kaiser，OpenAI 技术人员；Illia Polosukhin，NEAR Protocol 联合创始人，我们还有一位同事和朋友 Niki Parmar，EssentialAI 联合创始人，因为家庭紧急情况无法出席，我们的心和思绪都与她在一起。

　　首先，我要说他们实际上从未同时出现在同一个房间里。我知道在家工作这件事有点失控了。但显然，这并没有阻止创新和发明。我们将会讨论 Transformer 的重要性和意义，以及它不可思议的变革能力，对行业的影响。我们今天享受的一切都可以追溯到那一刻。我们能够从数据中学习，从庞大的数据序列中学习，以及空间数据，但是能够从大量数据中学习，找到关系和模式。创建这些庞大的模型真的是非常具有变革性的。

　　我们都同意，互相打断、互相反驳甚至站起来进行白板讨论并非不礼貌。我们需要一个白板，今天没有禁区。回到起点，工程师们，我们需要问题来激发灵感。

　　黄仁勋和 Transformer 八子图片来源：NVIDIA GTC

　　回顾当年，Transformer

　　是怎么被创造的？

　　黄仁勋：你们当时面临的问题或挑战是什么，导致了这个想法的产生？Illia Polosukhin：因为那个时候，模型在处理时间方面是不够的。

　　黄仁勋：当时存在循环神经网络（RNNs）和具有注意力机制的 RNNs，但在一次读取一个词和一次读取一个词之间存在差异。

　　Jakob Uszkoreit：我们生成的训练数据比我们能够训练的最先进的架构要快得多。因此，实际上有相似的架构，只是使用了一些 n-grams 或其他特征，因为它们在训练上更快，这是规模的问题。大量的训练数据基本上总是超过了当时更先进、更强大的网络。我们意识到了这一点。因此，修复这个问题似乎是有价值的。

　　Noam Shazeer：早在 2015 年，我们就已经看到了这些缩放定律。你可以看到，让模型变得更大，它就变得更聪明。这个问题就像世界历史上最好的问题一样简单。你只需要预测下一个 token，而模型将会变得越来越聪明，能够执行数百万种不同的任务。我们的目标只是扩展它并使其更强大。

　　Illia Polosukhin：对于电力行业的人们来说，现在我们只需要等待它扩展。

　　Ashish Vaswani：在攻读研究生期间，特别是在 Transformer 出现时，我不断被提醒两个教训。第一个是当时我在进行机器翻译方面的工作时，我意识到学习语言规则并不重要，因为梯度下降对于模型来说是一个更好的老师。第二个是我从苦涩的教训中明白，通用架构的可扩展性最终会获得成功。

　　今天的 token 是明天计算机行动的体现，它们开始模仿我们的活动，并自动化我们的工作。Transformer 自我注意，并使梯度下降变得更快。这是一种重复的主题，每次我们创建规则样本时都会体现。

　　Noam Shazeer：没错，这就是我们正在做的事情。所有的深度学习都是如此，我们正在构建一个形状类似 GPU 的 AI 模型，它的形状类似于超级计算机。

　　在这里，这就像是世界历史上最好的问题。它是如此简单。你只是在预测下一个 tokens，它将变得如此聪明，能够做出数百万种不同的事情，而你只是想要扩展它并使其变得更好。黄仁勋：现在，你们在解决什么问题？

　　Lukasz Kaiser：机器翻译。八年前，它看起来是如此困难，就像你不得不收集数据，也许会翻译，也许会有点错误。当时这是非常基础的水平。现在这些模型，你根本不需要任何数据。所以你只需学会翻译这种语言，那种语言。模型就能翻译了。

　　黄仁勋：什么样的灵感让你们想到了「AttentionIs All You Need」？

　　Llion Jones：酷，是我想出了这个标题。我们当时尝试做切除，扔掉模型的一部分，只是为了看看会变得多糟糕。令我们惊讶的是，它开始变得更好，甚至包括扔掉所有的卷积。那时我脑海中的想法是，我就是和我的脑子在一起工作。这就是标题的来源。

　　Llion Jones，SakanaAI 联合创始人兼首席技术官图片来源：NVIDIA GTC

　　黄仁勋：谁想出了 Transformer 这个名字？为什么叫做 Transformer 呢？

　　Jakob Uszkoreit：但它确实符合模型的功能，它实际上改变了它所操作的整个信号，而不是去处理逻辑。Llion Jones：我认为它成为一个如此通用的名称的原因是，在论文中，我们集中讨论了翻译，但我们绝对意识到我们实际上正在尝试创建一种非常通用的东西，它确实可以将任何东西转化为其他任何东西。我不认为我们预测到这将会有多么成功。

　　黄仁勋：当 Transformer 被用于图像时，这是一个相当令人惊讶的尝试。事实上，你们可以将图像分块并标记化每一部分。我认为这在架构上早就存在了。所以当我们构建张量到张量库时，我们发现这不仅仅是针对语言的。其中包含了图像、音频、文本的组件，以及输入和输出方面的内容。所以 Lukasz Kaiser 说他正在处理这些事情，我们现在开始看到的这些模态正在汇聚在一起，其实自始至终都是如此。

　　Aidan Gomez：这些想法在很早之前就已经存在了，这些想法一直在酝酿，花了一些时间。我们的目标是我们有所有这些学术数据集，它们从图像到文本，再从文本到图像，从音频到文本，从文本到文本。我们应该对所有内容进行训练。这个想法真正推动了模型进行扩展，以模拟网络。现在我们许多人都在做类似的事情。

　　所以我认为北极星第一天就存在，所以看到这一切正在发生，是非常令人兴奋满足的。

　　黄仁勋：在这么多不同知识中，有翻译的想法是普遍的。你们正在将它用于生物学？

　　Jakob Uszkoreit：我们可以将其称为生物软件，类似于计算机软件，它起初是一个程序，然后编译成可以在 GPU 上运行的形式。基本上，生物软件的生命始于对特定行为规范的需求，比如在细胞中生成大量特定蛋白质，然后通过深度学习将其转译成 RNA 分子。但实际上，一旦它们进入细胞，它们就会表现出这些行为。所以，这个概念不仅仅是将安全的英语翻译成计算机代码，而且涉及到药物的规范，即完全转化为实际的分子药物。

　　黄仁勋：你们是否创建了一个生产所有这些的大型网络实验室？

　　Jakob Uszkoreit：如果你必须对自然进行实验，你必须验证。有大量极其有价值的基因组数据可以下载，主要是因为它基本上仍然是公开的，是公共资助的。但实际上，你仍然需要数据，这些数据明确地解释了你试图模拟的现象。例如，针对某种产品，比如 mRNA 疫苗中的蛋白质表达，这确实是相当大的传输。

　　在帕洛阿尔托，我们有一群机器人和网络公司的人员以及实验室的研究人员，他们以前是生物学家。现在我们把自己看作是一种新事物的先驱者，努力工作并实际创建数据，并验证设计这些数据的模型。

　　黄仁勋：所以你说一开始就有一些关于普遍 Transformer 的早期想法。但你们所有人在这条路上都看到了一些重大的、你们认为是基于基本 Transformer 设计的，真正伟大的额外贡献，主要是架构性的修复、增强和突破。

　　Aidan Gomez：我觉得在推理方面，已经有很多工作来加速这些模型，使它们更高效。但我仍然觉得有点不安，因为它与我们以前的形式非常相似。我认为世界需要比 Transformer 更好的东西。我想问一下在座的每个人，你认为接下来会发生什么？是令人兴奋的一步吗？因为我觉得现在与 6、7 年前的情况相似。

　　Llion Jones：人们可能会感到惊讶。但我认为重要的是要明显、显而易见地变得更好。因为如果只是稍微改进，那还不足以让整个人工智能行业转向新事物。所以尽管原始模型可能不是我们现在拥有的最强大的东西，但我们仍然固守在原来的模型上。

　　黄仁勋：但是每个人的工具集都是不同的，但你们想要改进的属性是什么呢？是我想要改进生成能力，还是想要更快。

　　Jakob Uszkoreit：我不确定你是否喜欢这个答案，但他们现在使用的计算量太大了。我觉得他们浪费了很多计算资源。

　　黄仁勋：我们正在努力提高效率。谢谢你。

　　Jakob Uszkoreit 等人：但实际上，这是关于分配，而不是关于总量。我同意你的观点。实际上，这真的是关于在问题上投入适量的努力和能量。你不想在一个容易的问题上投入太多，或者在一个困难的问题上投入太少，然后无法提供适当的解决方案。

　　Illia Polosukhin：所以现在一个真实的例子就是 2 加 2。如果你输入这个模型，它会使用 1 万亿个参数。用户群体完全自己有能力做到这一点。

　　我认为自适应计算是接下来必须解决的问题之一，这样我们就知道在特定问题上要花费多少计算资源。

　　Illia Polosukhin，NEAR Protocol 联合创始人图片来源：NVIDIA GTC

　　Aidan Gomez：我们中一些作者已经发布了跟进通用 Transformer 的论文，在解决了这个问题。

　　Lukasz Kaiser：这些想法在一年前就存在了，但现在已经普及到各个领域，甚至在 Transformer 出现之前就已经展开了。

　　Ashish Vaswani：我们最初的目标是模拟 token 的演变，实现线性生成。现在这个过程也适用于图像，扩散模型会迭代地进行改进和完善。

　　根本的问题是，哪些知识应该存在于模型内部，哪些应该存在于模型外部？例如，推理应该在外部使用符号系统进行，这是一个效率的论点。

　　Ashish Vaswani，EssentialAI 联合创始人兼 CEO 图片来源：NVIDIA GTC

　　Noam Shazeer：拥有 5000 亿参数的模型每个 tokens 仍然只相当于一美元的百万分之一。这是非常便宜的。我们可以利用这个来提升模型的智能。

　　我们有一些应用程序的价值是计算巨型神经网络的效率的百万倍以上。比如治愈癌症之类的，当然很重要，但即使只是与任何人交谈，与你的医生、律师、程序员交谈，你也需要支付 1 美元一个 tokens，或者更多。我们有一百万个 tokens 来使用，我们可以用它来让模型变得更聪明。有时候，恰到好处的词语就能改变世界。

　　Ashish Vaswani：获取正确的反馈对于提升模型智能至关重要。我们需要将任务分解为人类可以干预的步骤，并构建能够通过观察我们学习的模型。

　　现在「散是满天星」，

　　都在做什么？

　　黄仁勋：你们能不能快速地谈谈现在的公司以及为什么决定创办它？

　　Ashish Vaswani：我们非常兴奋地致力于构建模型，这些模型最终可以以与人类相同的效率水平学习解决新任务。它们观察我们的行为，理解我们的意图和目标，并开始模仿我们的行为。这将彻底改变我们与计算机的互动方式和工作方式。这是在 2021 年的目标。

　　我离开的一个重要原因是，要使这些模型变得更智能，不能仅在实验室的真空中培养它们。实际上，你必须把它们放到人们手中，因为你需要世界来注释。确切地说，你希望世界与这些模型互动，从中获得反馈，并使这些模型变得更智能。做到这一点的方法就是走出去，建立一些有用的东西。

　　Jakob Uszkoreit，Inceptive 联合创始人兼首席执行官图片来源：NVIDIA GTC

　　黄仁勋：学习确实需要绝对变量飞轮。

　　Noam Shazeer：当我在 2021 年发现这一切时，我当时最大的挫败感是，这项令人难以置信的技术没有普及到每个人手中。因为它有太多的用途，而且使用起来非常简单。作为一个心急的人，我希望这项技术能够被十亿人使用，让他们能够开展各种各样的活动。

　　让我们尽可能快地建造一些东西，把它推广出去，让数十亿人能够使用它。首先，很多人只是为了娱乐、情感支持、陪伴或类似的东西而使用它等等。

　　Noam Shazeer，Character.AI 首席执行官兼联合创始人图片来源：NVIDIA GTC

　　Jakob Uszkoreit：我已经稍微谈到了生物软件的一些内容，对我个人而言，在 2021 年，我共同创立了 Inceptive，主要是因为意识到这项技术可以对商业生活产生更直接的影响，甚至比之前的广泛应用更为直接。在疫情期间，我的第一个孩子出生了，这无疑让我对生命的脆弱有了新的认识。然后，在 AlphaFold 2 发布蛋白质结构预测结果几周后，我对这一技术产生了浓厚的兴趣。

　　而 AlphaFold 2 与 AlphaFold 1 之间的一个重大区别在于，他们开始使用了 Transformer，并用它替换了模型或架构的其余部分。因此，很明显，这些技术已经可以在分子生物学领域发挥作用。几周后，mRNA 新冠疫苗的有效性结果出来了，很明显，mRNA 和 RNA 在一般情况下可以特别生存，你可以使用 RNA 做生命的任何事情。很长一段时间以来，RNA 在某种程度上一直被视为分子生物学的被忽视的亲生子女。所以这似乎几乎是一种道德义务，这必须发生。

　　黄仁勋：我一直认为它是药物设计。但我喜欢你把它看作蛋白质编程。

　　Llion Jones：我去年刚刚开始了一项新项目，现在还处于非常早期的阶段，但我可以告诉你到目前为止我们都取得了哪些进展。

　　我是 Sakana AI 公司的共同创始人之一。Sakana 在日语中意为鱼，日本人似乎很喜欢这个名字，我们选择这个名称是因为我们希望激发人们对鱼群的联想。我们的目标是实现自然启发的人工智能。就像一群小鱼一样简单，但当将许多简单的元素聚集在一起时，它们就会变得相当复杂。然而，人们对我们所说的自然启发并不完全理解。

　　我试图向加入我们的研究人员传达的核心思想是，只要不断学习，就会取得成功。每当我们试图手工操作某事时，尝试自己工程化，但最终转向使用计算机搜索空间时，我们总是会取得成功。深度学习革命就是一个例子，我们从手工工程化特征转向学习它们，结果效果要好得多。我想提醒大家，除了梯度下降，我们还可以利用 Nvidia 提供的大量计算资源来进行其他工作。

　　今天或明天我们准备做一些公告。我很惊讶我们这么早就有东西要宣布，但我们即将开源一些研究成果。这与我们的品牌形象非常契合，因为目前流行的趋势是模型融合，但这通常需要手工完成。我们并不是手工制作合并这些模型的算法。相反，我们利用了大量的计算资源，使用进化计算来搜索如何合并和堆叠层。结果非常令人满意。

　　Aidan Gomez：我创建 Coherer 的原因与 Jones 非常相似。我看到了一项我认为能改变世界的技术。计算机开始向我们回应。它们获得了一种新的模态。因此，我认为这应该改变一切，每一个产品，我们工作的方式，以及我们与所有建立在计算机之上的东西互动的方式。

　　有一种停滞感，以及我们这些了解情况的人所面对的技术与外界实际运用的情况之间存在的不一致。因此，我想要弥合这种差距。我与诺姆的做法有些不同，因为 Coherer 是为企业建造的。因此，我们为每家企业创建平台，使其能够将其集成到产品中，而不是直接面向消费者。但这正是我们想要推动这项技术的方式，使其更加普及，更加便宜，并帮助企业采用它。

　　Aidan Gomez，Cohere 联合创始人兼首席执行官图片来源：NVIDIA GTC

　　Lukasz Kaiser：我没有找到适合我的……

　　黄仁勋：我知道，但你继续改变着世界，继续吧。

　　Lukasz Kaiser：是的，我最终决定再次加入 OpenAI。卡普纳被问到为什么会回来，他说那里有钱，有时间。我加入的地方是 AI 最好的地方。公司里非常有趣。我们知道你可以利用大量数据和计算资源创建出优秀的东西，我仍然希望能够招募更多的人，以及更多的计算资源。

　　Illia Polosukhin ：我实际上是第一个中途离开的人。因为与阿什利的观点相似，我坚信我们向着实现几乎所有世界中的软件化进步，而机器学习就是软件的一部分。因此，最直接的方法是教会机器编码，这样你就能够生成软件并改变所有人的访问方式。

　　现在这是在 2017 年。当时还有点早。我们的计算能力还不够好。因此，我们试图协调人们来生成更多的数据。作为一家初创公司，你实际上有能力将产品放在用户面前，并激励他们。

　　我们最终意识到我们需要一种新的基本原语，那就是可编程货币，因为可编程货币是让我们能够在规模上协调人们的工具。因此，我们最终建立了一个协议，这是一个区块链，自 2020 年以来一直在运行。这个协议拥有世界上最多的用户。在区块链空间中，每天有数百万用户使用它，甚至他们自己都不知道他们在使用区块链，但他们与可编程货币、可编程价值进行交互。现在我们开始利用这一点，实际上将一些工具带回来，以生成更多的数据。我认为从根本上来说，在这个群体中是毫无争议的，但在其他地方可能会有争议，那就是从 18 世纪起的版权技术需要改变。我们正处于一个新的叙事时代，我们现在所奖励创作者的方式已经失效。唯一的方法是利用可编程货币和区块链来创建价值。因此，我们正在致力于创建一种新颖的方式，让人们可以贡献数据，以使用那些超级酷的模型。

　　Lukasz Kaiser，OpenAI 技术人员图片来源：NVIDIA GTC

　　黄仁勋：这确实非常酷。然后你们将建立一个全新的正反馈系统，完全符合我们正在做的一切。在此之上还有一个伟大的新经济。我们有可编程的人类，有可编程的蛋白质，有可编程的货币。我喜欢这个想法。

　　当前一代的 GPT 模型拥有巨大的训练数据集，大约有 10 万亿个 tokens，与互联网上可自由抓取的内容相当。那么接下来呢？下一步需要探索哪些新的模型技术，比如推理、知识等等，你们有讨论过吗？

　　Illia Polosukhin：数据需要来自用户的交互，这需要大规模的平台来建立并跟踪。人们需要从中获得经济价值来进行这些交互。在后台，你可以将数据导入到所有这些模型中，以使它们变得更智能，并且可以更智能地处理它，使模型变得更好。

　　黄仁勋：你可以通过强化学习让模型相互交互，从而逐步优化出一个令人想要与之互动的、令人满意的预训练模型。此外，你还可以利用合成数据生成技术来丰富数据集，从而帮助模型更好地学习和泛化。

　　Llion Jones：推理是下一个重要的发展方向。很多人已经意识到了这一点，并且正在致力于研究。但是目前很多工作都是手工设计的，我们在手工编写提示信息，然后尝试让它们以我们认为合适的方式进行交互。当然，我们实际上应该搜索这个领域，学习如何将它们连接起来，打造出我们想要的功能强大的模型。

　　Jakob Uszkoreit：这是一个很好的思路。我们希望模型生成的内容能够符合人类的消费需求，因此这些模型应该接受我们喜欢或可以接受的所有刺激作为训练数据。因此，任何类型的视频、音频、任何观察世界的方式所获得的信息，包括时序信息，都应该被纳入到训练数据中。

　　Lukasz Kaiser ：是的，推理和学习之间的关系确实非常密切。如果你有一个能够进行推理的模型，然后你只需要一点点数据。它就会进行一系列的推理，从中产生结果。为什么这个事物会如此发展？但是它可以投入大量计算来进行这样的推理。然后，结果就出来了，它能够从更少的数据中进行泛化，因为它在推理过程中进行了大量计算。这就像是一个思考的系统，就像人类一样。

　　Illia Polosukhin：是的，然后你可以让它自行发展，尝试将它设计的东西融入其中，这样它就能够在继续搜索推理时构建出最具影响力的数据。

　　Lukasz Kaiser：当我们弄清楚了之后，这将极大地减少数量。但数据的质量将变得更加重要，这就是人们与现实世界互动的地方。因此，我认为会出现一个新时代，仍然会有一些免费的预训练模型，但重要的事情可能会是大型、高质量的事情。这可能会更容易让人们接受。

　　Ashish Vaswani：我也认为，领域取得了很大进展，这就好比是将大规模的现实世界任务分解为更简单的任务，这种逐步渐进的过程也很重要，因为我们的模型可能可以完成其中的一些任务，然后部署并获取更多数据。一旦这个循环闭合了，它们就有权利去处理更复杂的任务，因为它们也可能在观察它们正在做什么。

　　确实，这是一个很好的观点。建立衡量进展和取得进步需要拆解或创建类似我们对某些电子邮件所做的，即自动化或交互的科学，与代码生成的科学相比，这些都是不同的领域。成功的工程学需要良好的测量。

　　黄仁勋：你们想问对方的三个问题是什么？

　　Llion Jones ：是的，你提到的这些早期模型在当时的研究领域确实起到了一定作用，但由于 Transformer 模型的出现，人们可能忘记了它们的存在。然而，这些早期模型所面临的问题可能在一定程度上也存在于当前的模型中。因此，我同意你的观点，未来可能会出现混合模型，结合了 Transformer 模型和早期模型的优势。

　　Illia Polosukhin ：Transformer 模型中的自注意力机制可以视为一种「递归步骤」，在每个步骤中，模型都会根据输入中的不同部分来更新信息。这种递归性质使得模型能够在每个步骤中对输入进行增强和推理。然而，有趣的是，目前很少有人探索通过连接不同数量的递归步骤来训练模型，这可能是一个值得研究的方向。通过探索递归性质，我们可能能够扩展模型的推理能力，并使其能够处理更复杂的任务。

　　确实，有时候并不需要固定数量的步骤，而是需要根据输入的复杂程度来动态调整递归步骤的数量。这种动态调整可能会使模型更加灵活，能够更好地处理不同类型的输入和任务。另外，关于如何摆脱 tokens，这也是一个非常值得探索的问题。

　　Lukasz Kaiser：我个人认为，对于如何使用梯度下降来完全学习循环神经网络（RNN）的训练，我们尚未完全掌握。或许这很简单。我是说，长短期记忆网络（LSTM）有一些误差操作符，这使得早期的情况能够工作。

　　那么，SSMs（Structured Self-Attentive Models）工作得更好，对吗？这是因为它们的结构可能需要用不同的方式训练，而不是用梯度下降。也许我们需要像人类一样在一些服务中进行递归训练，我们生活在时间中。我们会带来一些生活时间，但这并不那么清楚。我们是否通过传播进行训练，可能不是。因此，也许有一种方法只是我们还没有找到。

　　Illia Polosukhin ：以及下降，为什么很难做到这一点。

　　黄仁勋：好的，伙计们，和你们共度时光真是太棒了。我真的希望你们偶尔能聚在一起。下次你们的互动会带来多么惊人的魔力。所以我们有一个整个行业都感激你们所做的工作。

　　大家：同样。谢谢。

　　*头图来源：极客公园