作者:朱雪莹
来源:硬 AI
被誉为“欧洲 OpenAI”的 Mistral,自成立以来便成为打上传奇 Tag。Mistral 曾经凭借 6 人团队和 7 页 PPT,就在成立后短短四周内斩获 8 亿人民币融资,一举一动都引发行业瞩目。
上周,在在线设计协作平台 Figma 举办的一场活动中,Figma 创始人 Dylan Field 与 Mistral 创始人 Arthur Mensch 进行了一场访谈,从讲述 Mistral 的成立及产品的快速研发谈起,重点涉及大模型自我学习能力、大模型推理能力、大模型效率及规模、对 AI 监管的看法以及开源模型与商业模型的平衡等。
在谈及大模型的自我学习能力,Mensch 提出 AI 领域在过去几年间发生的一个重要转变,如今大模型已经足够强大,在很多情况下都可以自我监督学习,传统的强化学习不再那么重要(强化学习是一种基于“奖励期望行为”和“惩罚不期望行为”的机器学习训练方法)。而且随着模型规模的扩大,这种趋势正在加速发展。更大、更复杂的模型能够更有效地处理和理解数据,减少了依赖人工注释的需求。这不仅降低了成本,还降低了开发高效 AI 系统的门槛。
在被问及随着 AI 模型规模的增加,是否会自然地获得更好的推理能力,Mensch 强调目前唯一被验证过的提升模型推理能力的方法,是通过在更大的数据集上训练模型并增加它们的规模。目前 Mistral 并没有专门的“秘方”来显著提高模型的推理能力,但他们通过重点关注数据质量并成功开发出了具有良好推理能力的模型。
在大模型效率提升及规模扩大上,Mensch 表示公司首先致力于提高模型训练的效率,而一旦效率目标达成,公司将着手扩大大模型规模,以便处理更复杂的任务。他同时还强调保持模型高效推理能力仍至关重要,不会因为模型规模增加而受到影响。
在 AI 监管方面,Mensch 认为当前关于 AI 和大模型风险的议题都缺乏实际证据。所以与其关注这些相当抽象的问题,AI 行业有更迫切、更实际的问题值得研究,比如如何安全部署 AI 模型、控制内容输出、处理模型偏见、微调模型的编辑倾向等。
关于开源模型与商业模型的平衡,Mensch 表示虽然 Mistral 已经推出了商业模型,但他们并没有放弃开源模型的开发和维护。商业模型可以帮助 Mistral 创造收入,从而支持其开源项目和研究活动。并且即便推出了商业模型,Mistral 也在努力保持其模型的灵活性和可访问性。
Dylan Field(左)与 Arthur Mensch(右)
访谈全文为人工智能翻译:
Dylan Field:欢迎大家来到 Figma,我是 Dylan Field,Figma 的 CEO 和联合创始人。我非常高兴能在这里举办这次活动,也欢迎通过直播加入我们的每一个人。今晚的对话将会非常精彩,我很荣幸能介绍今晚的两位对话嘉宾。
Arthur Mensch:感谢 Figma 的场地支持,也感谢大家的到来。Arthur 是一个前学者,现在成为了一位 CEO 和联合创始人。
Dylan Field:Arthur 在硅谷、全球创业社区中都是一位亲爱的朋友和导师。Mistral 在开源模型方面取得了令人瞩目的成就,我认为他们正在改变 AI 的未来。现在,让我们欢迎他们开始对话。
Arthur Mensch:感谢 Figma 的场地支持,也感谢大家的到来。Arthur 为了加入我们做出了英勇的努力,他不得不跳进车流中,抢了一辆自行车骑过来。非常感谢。
Dylan Field:你从机器学习的背景出发,曾在 DeepMind 担任研究员,然后创立了 Mistral。你是如何决定创立 Mistral 的?你的动机是什么?公司最初是如何形成的?
Arthur Mensch:我和我的合伙人 Timothy 在 DeepMind 和 Meta 工作时,一直在等待时机。ChatGPT 的出现让我们意识到有机会快速组建一个优秀的团队,因为我们不是第一个进入这个领域的。所以我们就这样开始了。
Dylan Field:对于可能正在观看直播的人来说,我想现场的观众对 Mistral 做什么应该很熟悉。你能解释一下你们的产品系列、平台以及各种组成部分吗?
Arthur Mensch:Mistral 是一家建立金融模型的公司,我们在开源模型方面处于领先地位。我们最初创建了文本到文本的生成模型,这是当今生成性应用的基础。我们在 12 月发布了 7B 模型,并在平台上增加了商业模型。我们正在为开发者构建一个开源模型和便携式企业平台。
Dylan Field:从你创立公司到发布 7B 模型用了多长时间?
Arthur Mensch:大约四个月。
Dylan Field:这真是令人惊叹。Mistral 以惊人的速度推出了第一款产品,并迅速获得了广泛采用。人们意识到他们可以获得这些小型高性能模型,这些模型的推理时间非常快,成本非常低,这在高吞吐量的情况下产生了巨大的影响。你们是如何如此迅速地构建出这样的产品?你们是如何让团队如此迅速地聚焦于这样一个单一目标的?
Arthur Mensch:我们思考了领域中缺失的东西,意识到小型模型实际上对人们来说非常有吸引力。我们看到了一个基于 Llama 7B 的社区正在形成,但 Llama 7B 还不够好。所以我们意识到我们可以做得更好,可以打造一个更好的 7B 模型。这就是我们向世界介绍的目标。我们基本上是从零开始构建整个堆栈。在四个月内,我们从零 GPU 开始,最终在大约 500 个 GPU 上进行了训练。我们的团队非常有动力,这四个月里我们几乎没有休息。
Dylan Field:通常成功的 AI 团队规模在四到五人左右,发明新事物的团队也一直是这个规模。你们是如何组织团队,以便如此迅速地实现目标的?
Arthur Mensch:我们试图建立一个组织,让五人一组的团队分别负责数据和预训练等方面的工作。到目前为止,这种方法运作得很好。
Dylan Field:你能分享一些关于你们未来路线图的信息吗?
Arthur Mensch:我们即将推出新的开源模型,包括通用模型和针对特定行业的模型。我们正在平台上引入一些新的微调功能。我们还推出了一个名为 Shah 的基于聊天的助手,目前它只是使用了模型。我们正在构建数据连接器,并寻找丰富数据的方法,以便为企业提供有吸引力的解决方案。
Dylan Field:你们计划专注于哪些行业?
Arthur Mensch:我们从金融服务开始,因为那里的成熟度最高。我们有两种市场策略。首先是通过与云服务提供商的合作,因为它们在市场中占据了主导地位。然后通过我们的平台,我们直接与开发者对话。
Dylan Field:你们最近宣布与 Microsoft 和 Azure 建立了合作关系。你能谈谈这种关系,以及它为你们提供了什么?
Arthur Mensch:这为我们打开了新的客户群。许多企业不能轻易地使用第三方 SaaS 提供商,因为他们需要经过采购和风险评估等程序。但如果你能作为云服务提供商的第三方提供商,你就能获得加速器。所以当我们与 Azure 合作时,我们立刻获得了大约 1000 个客户。企业正在使用云服务,他们不想轻易引入新平台。所以你需要适应这个事实。
Dylan Field:现在许多行业都在关注扩大模型规模,你们在未来六个月或一年内有什么计划?你们是否有计划推出非常大的模型,还是打算继续提供各种规模的模型?
Arthur Mensch:我们首先关注的是效率,以便比目前的方法更高效地训练模型。一旦我们实现了这种效率,我们就开始扩大规模。我们进行了另一轮融资,因此我们开始增加我们的计算能力。所以你可以期待新的更强大的模型,因为我们正在投入更多的计算资源。模型可能会变得更大,因为当你增加计算能力时,你需要增加模型的容量。但对我们来说,保持模型的高效推理和压缩非常重要。所以我们将继续向开源世界推出这种类型的模型。
Dylan Field:随着模型能力的提高,你可以开始加速构建下一个模型的速度,因为你可以使用 GPT 级别的模型进行强化学习或生成合成数据等。你如何看待使用模型来提升彼此的能力?这是否真的加速了每个后续版本的发布时间线?
Arthur Mensch:两年前,强化学习非常重要。今天,它实际上变得不那么重要了,因为模型已经变得更好,有时甚至足够好,可以自我监督。随着我们规模的扩大,这确实在改善。这意味着通过人工注释的成本部分实际上在减少。这也降低了进入门槛。
Dylan Field:另一个相关的领域是推理,许多人认为随着模型规模的扩大,它们自然会获得推理能力。还有一些公司专门关注模型的推理方面。你如何看待这个问题?你们会训练用于推理的子模型吗?还是你认为这只是现有模型规模扩大的结果?或者是两者的结合?
Arthur Mensch:目前,唯一经过验证的提高推理能力的方法是让模型在更大的数据集上进行训练,并使它们变得更大。显然,通过构建外部循环、添加新功能、为模型添加数据等方法,模型可以更好地推理。我们没有秘密配方来提高推理能力,但我们通过专注于数据,特别是数学数据,已经制作出了推理能力相当不错的模型。还有许多其他方法可以提高推理能力,我们只是专注于小事情,这就能让它工作。
Dylan Field:我问这个问题的原因之一是,如果你看看 AI 的世界,过去有几种不同的方法。一种是基于 Transformer 的模型和扩大它们。另一种是像 AlphaGo 和扑克这样的游戏相关方法,你通过自我对弈来引导新策略或新能力的形成。这些在某种意义上都是推理的形式。我知道在模型训练代码的某些领域,这可能很自然。还有其他一些领域,你可以用真实的标准来测试东西。所以,我不知道你们是否考虑过这样的事情,或者这在你们心中是否重要。
Arthur Mensch:Giam 和 Timoti 在 Meta 的时候就开始用 LLMs 进行定理证明了。这与使用 LLM 作为推理的突破点,然后构建一个涉及采样的自动循环有关。阻碍这一点的原因是模型的高延迟。如果你想大量采样,你需要让模型变得更小。这与效率密切相关。随着我们提高效率,我们的容量也在增加,你就能更广泛地探索和采样。这是通过自动循环发展来提高推理能力的有效方法。
Dylan Field:另一个人们最近在谈论的话题是记忆,以及以不同方式跨行动维持更长时间状态的能力。你们是否计划很快走下代理路线,或者你们的重点更多地放在核心 API 上,这些 API 以各种方式启用?
Arthur Mensch:我们试图通过函数调用来实现这一点,这是创建存储状态的代理的好方法。当我们谈论记忆时,你实际上是通过在你的中间件路径上引入一些粗略的函数来实现对话记忆的。所以函数调用是一个多用途的工具,可以用来创建复杂的设置和复杂的代理。让它工作是很难的,评估它们也很难。所以我认为这将是我们在产品方面需要解决的最大挑战之一。
Dylan Field:最近人们还在谈论上下文窗口。例如,我知道在生物学模型中,如果你增加上下文窗口,你最终会得到更好的蛋白质折叠等结果。上下文真的很重要。我认为 Gem 和 Magic 已经有了几百万的上下文窗口。你认为这有多重要?这会取代其他东西,比如 rag 或微调吗?所有这些事情会同时工作吗?
Arthur Mensch:它不会取代微调,因为微调的目的是根据你的偏好来塑造任务。另一方面,它简化了 rag 方法,因为你可以将更多的知识融入上下文。所以我们从用户那里听到的是,一旦你开始使用具有大上下文的模型,你就不想回去了。所以这实际上是我们想要改进和扩展的东西。在基础设施方面,这实际上是一个挑战,因为你需要处理非常大的注意力矩阵。但是有解决这个问题的方法。
Dylan Field:当你说在 RAM 或 GPU 上运行时,你是在建立越来越大的上下文窗口,还是其他什么?
Arthur Mensch:你需要重新思考分片和通信的技术,以处理大矩阵。然后你会付出代价,因为你的模型会因为质量成本而变得更慢。
Dylan Field:你认为我们什么时候能达到这些模型在大多数白领工作上比人类做得更好的时刻?你认为这是两年、五年还是十年后?
Arthur Mensch:这取决于任务。有些任务上模型已经做得更好了。所以我预计这种情况会很快展开。很难说一个确切的日期,但我会说在三年内,情况会看起来非常不同,特别是如果我们找到部署代理并使它们健壮可靠的方法。
Dylan Field:取代 Figma 的 CEO 怎么样?我只是开个玩笑,Dylan,请继续。
Arthur Mensch:我认为在机器人领域已经发生了一些事情,但我认为在音频领域还处于非常早期的阶段。这是视频开始被覆盖的地方。是的,像模型那样能够采取行动并变得非常擅长采取行动的模型,我认为这还没有得到很好的覆盖。所以我认为在这方面还有进步的空间。但总的来说,我预计所有这些都会朝着类似的架构融合。随着时间的推移,我们知道如何很好地训练它们,所以我们可以将从文本中学到的信息转移到图像等上面。这就是为什么我认为这很难被取代。
Dylan Field:你认为这也适用于硬科学,比如物理模拟、材料科学、纯数学?
Arthur Mensch:我不认为仅仅通过下一个预测就能解决这个问题。所以你需要转向自动循环,你还需要找到方法让模型与模拟器交互。因为最终你需要模型学习物理。所以你需要用模拟器来引导它。但老实说,我不是专家。
Dylan Field:然后所有这些模型都需要大量的 GPU,人们公开谈论了目前 GPU 短缺的问题。你认为这种情况什么时候会结束?
Arthur Mensch:我认为随着 H100 的到来,我们将开始看到硬件领域的竞争,这将改善成本。我还预计随着我们转向多模型的金融模型,我们可以在更多的 FLOPs 上进行训练。所以我认为我们还没有在训练部分和推理路径上达到极限。随着我们转向生产,我认为推理能力将显著扩散。
Dylan Field:你认为这将通过传统的基于 GPU 的方法完成,还是我们将开始拥有越来越多的定制 ASICs,无论是针对特定的 Transformer 模型,你将权重烧录到硅片中,还是更一般地针对 Transformers,你可以加载一组权重?
Arthur Mensch:每个人都在使用 Transformer,这是一个非常好的表示信息之间关联的方式。所以它真的不重要,但它似乎是足够的。它似乎足以捕捉我们想要捕捉的大多数东西。我们知道如何很好地训练它们,所以这将很难被取代。
Dylan Field:Mistral 最初是一个以开发者为中心的产品,对吧?你推出了一个非常开源的东西。现在你开始为各种企业服务。在人们提出的使用案例类型或企业最快速采用这些技术或方法的领域方面,有什么共同性吗?
Arthur Mensch:企业主要出于免费用例采用这项技术。首先是开发者生产力。他们通常因为现成的方法不适合他们的开发方式而苦恼。他们还使用知识管理工具,通常他们会建立自己的助手连接到他们的数据库。最后是客户服务。最成熟的公司在减少与客户的人类互动方面取得了很大进展,使它变得更加高效。所以这就是我们看到的企业使用 AI 的免费用例。对于 AI 公司来说,情况就更加多样化了,因为他们更有创造力。但总的来说,企业有这些免费用例。这也是我们开始考虑在价值链上移动一点,提供一些更关键的东西的原因,因为有时他们需要一点帮助。
Dylan Field:我猜很多人在这里看到了 Clarna 的 CEO 的推文,他在谈论客户成功,他们如何基于 OpenAI 推出了一系列工具,基本上减少了他们需要的人数 700 人,用于客户支持,对吧?他们在一个月内推出了它,并且在那个月内有 230 万次响应。所以似乎有一个即将到来的巨大浪潮,我认为在提高生产力、影响工作等方面的影响被低估了。
Arthur Mensch:我们看到了更多样化的用例,其中一个是通过短信与临时工互动的平台,帮助他们找到工作。所以客户从 150 人直接与客户互动减少到 7 人。他们实际上能够更轻松地扩展平台,使雇员能够更容易地行走。总的来说,通过更多地自动化客户服务来提高客户服务是一种方法。所以这就是他们认为这项技术令人兴奋的地方。
Dylan Field:你认为现在缺少什么?或者是什么阻止了企业采用进一步加速?
Arthur Mensch:我们的赌注是,他们仍然在努力评估和弄清楚如何验证模型是否可以投入生产。缺少的是一系列工具,用于持续集成,以及自动改进 LM 用于的任何用例的工具。所以我认为这是缺少的东西,这是阻止开发者在企业内部采用的原因。现在,对于企业内部的用户采用,我认为我们仍然离创建能够很好地遵循指令、可以轻松定制的助手还有很长的路要走。所以,在用户方面,我认为这就是缺少的东西。
Dylan Field:我认为你一直在思考如何接近 AI 监管,我知道你参与了一些关于欧盟监管和其他 AI 监管的对话,你能解释一下你的观点,就今天和未来应该关注什么,以及如何更一般地思考它?
Arthur Mensch:我们不得不发言,因为当时在十月,有一个反对开源 AI 的大运动。所以我们不得不解释,这实际上是今天使技术安全和良好评估的正确方式。
总的来说,我们一直在说,我们正在将关于存在风险的讨论(这是定义不清的,而且缺乏科学证据)与关于国家安全和 AI 的讨论(以及 LLMs 被用来生成生物武器)合并在一起。但这同样缺乏证据。然后有一些非常重要的问题,我们应该关注,那就是你如何实际部署模型,控制它们说什么?如何处理偏见?如何,嗯,微调模型的编辑倾向,以便你可以评估和控制。我认为这是最重要的部分,如何构建你可以很好地控制和评估的安全产品。这就是我们几个月来一直在说的,因为我们有点被迫发言。
Dylan Field:似乎人们担心 AI 短期内的一个问题是像深度伪造或人们冒充声音或其他东西,无论是为了金融攻击还是政治目的等。你们有没有计划进入声音和其他多模态领域?
Arthur Mensch:生成非文本的东西实际上是一个陷阱,我们在安全方面避免了这个问题。我们避免了它。模仿声音和深度面孔是非常令人担忧的。这不是我们假装能够排序文本的东西。因为文本生成文本从未是有害行为的推动者。虽然提到了错误信息,但通常错误信息是由扩散而不是由创建限制的。所以通过专注于文本,我们规避了这些非常真实的问题。
Dylan Field:我认为 Mistral 非常引人注目的一点是,我应该说整个欧洲现在都有非常强大的创业场景。如果我看看目前 AI 创业形成的两个最大口袋,基本上是在硅谷,然后是巴黎-伦敦走廊,你有 11 个实验室,你有 Mistral,你有所有这些伟大的公司。你认为是什么驱动了这一点?
Arthur Mensch:我认为有几个历史原因。在伦敦,有 DeepMind,这是一个非常强大的全球人才聚集地。在巴黎,2018 年,DeepMind 和 Google 都开设了研究办公室。这增强了已经相当强大的现有研究场景,因为事实证明,法国和欧盟的一些其他国家在教育渠道上做得很好。所以初级机器学习工程师和初级机器学习科学家相当优秀。所以这就是为什么今天我们在金融层面和应用层面都有相当强大的公司生态系统的原因之一。
Dylan Field:朋友们似乎比英国人聪明多了。我只是开个玩笑。
Arthur Mensch:另一个行动。
Dylan Field:另一件引人注目的事情是,你开始看到很多不同的 AI 公司专注于地区差异。例如,当你推出时,你包括了各种不同的欧洲语言模型。或者你可以想象一个世界,区域冠军会出现。特别是,你可以将其视为波音与空客的竞争,特定地区的政府决定他们真的想资助或成为当地玩家的客户?你认为未来的世界会是什么样子?全球与地区平台将如何演变?
Arthur Mensch:我们采取了全球分销的方法。我认为,我们本可以选择专注于欧洲市场,假装那里有任何形式的防御性。我们不认为这是这种情况。技术仍然非常流动,所以我们可以跨国界传播。另一方面,我们正在构建的技术与语言密切相关。语言,嗯,英语只是许多语言中的一种。事实证明,元素在英语以外的其他语言上表现得更好。所以通过专注于不同的语言,我们设法制作了在欧洲语言上特别好的模型,而不是美国模型。所以那里有一个大市场。同样,在亚洲,对于能够说亚洲语言的模型也有很大的市场。但这些都是美国公司尚未关注的市场。所以这实际上是我们作为欧洲公司更关注全球市场的机会。
Dylan Field:好的,很好。我想我们可以开放给观众几个问题,如果有人想问的话。我可以重复他们在后面说的话,请大声说出来。
问题是,你们是否计划发布你们模型的封闭源版本,还是会一直保持开源?
Arthur Mensch:我们已经推出了商业模型。所以从某种程度上说,我们并没有开源所有东西。我们的目标是发布最好的开源模型。然后我们有企业级的环境和一些我们可以出售以维持业务的高级功能。我们目前的策略,随着时间的推移可能会发生变化,是拥有非常强大的开源模型,但也有在那个时间点更封闭的模型 API。
我们关注的一件事是,即使是对我们的商业模型,也要使这些模型的部署非常便携和灵活。所以我们有客户,我们向他们发送权重,允许他们修改模型,以进行客户端的微调,就像他们对待开源模型一样。所以在这个意义上,我们在商业家族和开源家族之间有一些重叠。
Dylan Field:Arthur 后面还有另一个问题。
Arthur Mensch:我们确实有计划,今天没有宣布,但我们确实有计划。
Dylan Field:人们通过直播提出的问题之一是,是否有计划推出专门针对代码的模型。今天没有宣布。
Arthur Mensch:我们一直在生产中,因为我们的团队非常精简。但我们有另外两名全职员工正在寻找新的架构,进行研究。我认为这非常重要,以保持相关性。随着我们规模的扩大,我们将能够进行更多的研究和探索性研究,这也与你的计算能力有关。如果你想发现新东西并取得进展,你需要有足够的计算资源。由于 H100 的短缺,我们有点受计算能力的限制,但这将有利地改善。所以我们预计会进行更多的研究,因为我们已经从研究中恢复过来。
Dylan Field:这与此相关。总的来说,你的团队有很强的行动偏见,你们行动非常迅速。你在招聘时是如何挑选这样的人的?你在面试中会问特定的问题吗?
Arthur Mensch:我们寻找的是从基础设施堆栈到精确变换和加载管道,再到思考数学问题的 AI 科学家。所以我们一直在寻找全栈 AI 工程师,他们倾向于有很强的行动偏见。所以这就是我们的重点,找到低自我意识的人,愿意做一些被一些 AI 科学家认为无聊的工作,因为这些工作有点无聊。但这实际上非常有效。因为我们专注于正确的事情。
Dylan Field:哦,在最后。
Arthur Mensch:团队现在相当大。所以有很多与之相关的挑战。我对我们必须处理的大量入站请求和必须做的代表感到惊讶,特别是当我们被卷入政治事务时,我们宁愿避免这种情况,但我们别无选择。Jenna,说到这个,我也对我们的生活速度感到惊讶。但我对作为 CEO 的工作有一些了解。这很有趣,但我实际上想象自己在一年后仍在编码,这已经不再是现实了,不幸的是,这是尝试快速扩展的代价。
Dylan Field:你现在可以做 HR 编码了,这更好。还有其他问题吗,请提出。
Arthur Mensch:谢谢。
Dylan Field:所以我们开始这家公司的原因是为了有一个创造愿景价值的生产部门,有一个研究部门。老实说,这样的组织并没有太多示范,因为你有一些研究实验室与云公司联系在一起,他们有非常大的收入,并用它来维持研究。我们认为,随着 AI 的发展,以及这项技术带来的价值,有一种方法可以做到这一点。但这仍然有待证明,这就是我们用这个时间所做的实验。
Dylan Field:可能还有一个问题。我知道 Arthur 有一个硬性的截止时间,也许我们可以在后面挤一下。
Arthur Mensch:哦,是的,我想你可以挤到那个点。问题是,你能否有一个 7B 模型击败 Mistral Large。这开始有点棘手,但可能有办法。我也预计硬件会改善,所以这也会给出一点空间和更多的内存。是的,我看到那里有更多的潜力,因为你在某种程度上被规模限制了。这告诉你,最终你会饱和一定大小模型的容量。
Dylan Field:在扩大规模之前,你认为什么是主要的限制,或者你认为什么是阻碍?
Arthur Mensch:在特定任务上,你可以让 7B 模型非常强大。但如果你想将世界上所有的知识都压缩到 7GB 中,这实际上是相当有野心的。所以一件事是,例如,这种规模的多语言模型并不是一个好主意,你需要专注于你想压缩的人类知识的特定部分。
Dylan Field:最后一个问题给我,然后我们可以结束了,你认为关于持续训练或重新训练,或者更长时间的训练运行以获得累积效果,你如何看待?
Arthur Mensch:这是一种高效的训练方式。这肯定对我们很有趣。
Dylan Field:好的,很好。那么请和我一起感谢 Arthur。