国内首个开源千亿参数MoE大模型来了，对标马斯克的Grok

　　马斯克宣布开源大模型 Grok 后，国内也将迎来首个开源的千亿参数 MoE（混合专家）大模型。近日，「市界」独家获悉，国内独角兽企业 APUS（麒麟合盛）联合新旦智能训练的大模型 APUS-xDAN 大模型 4.0（MoE）将于近日宣布开源。

　　据「市界」了解，APUS-xDAN 大模型 4.0（MoE）是国内首个千亿以上参数 MoE 架构的开源大模型，参数规模为 1360 亿，这也是目前国内参数规模最大的开源模型。此前国内开源的大模型中，参数规模最大的是阿里 720 亿参数的千问 72B，参数规模为 720 亿。

　　此外，「市界」获悉，APUS-xDAN 大模型 4.0（MoE）还是国内首个支持在 4090 低端算力上训练的千亿参数开源大模型，通过 MoE 架构和算法优化实现了对低端算力芯片的适配。

　　“马斯克的 Grok 至少要 8 张 H100 才能运行，大部分中小企业其实没有那么多资源，而 4090 是一个消费级显卡，成本比较低，在国内也更容易获得，大部分企业和机构都能用来训练。”APUS 董事长兼 CEO 李涛对「市界」表示。

　　据《参考消息》报道，美国方面修订了五个月前出台的相关规定，旨在使中国更难进口美国的高端人工智能芯片。

　　针对这一现状，李涛和新旦智能创始人成一鹏均提到，对低端算力的支持，是这次 APUS-xDAN 大模型 4.0（MoE）的最大突破，能够很大程度上应对算力卡脖子问题。

　　这次开源的 APUS-xDAN 大模型 4.0（MoE）背后，站着两家企业，分别是成立十年的独角兽企业 APUS 和一家初创人工智能企业新旦智能，模型由双方共同训练，并且 APUS 投资了新旦智能。

　　资料显示，APUS 是一家成立于 2014 年的人工智能企业，由 360 前副总裁李涛于 2014 年创办，2022 年之前主要做出海业务。

　　2022 年底开始，APUS 正式转型人工智能和大模型，2023 年 4 月，APUS 正式发布了 APUS 通用大模型，据李涛向「市界」披露，目前 APUS 的大模型团队超过百人。李涛还提到，目前开源的 APUS-xDAN 大模型 4.0（MoE）的综合性能已经可以实现 GPT-4 的 90%。

　　▲图源/APUS-xDAN 大模型 4.0（MoE）

　　作为一家人工智能企业，李涛提到，APUS 大模型的另一个优势是算法语料比较多元化，国内大模型玩家很多都依赖于中文语料进行训练，对于其他语言的算法语料覆盖远远不足。而 APUS 的产品和服务目前已经覆盖了全球 200 多个国家，用户数量达到 24 亿+，算法语料更加多元。

　　李涛表示，APUS 目前为止是国内大模型行业商业化最好的企业之一，已经落地医疗、电商、网信大模型，除了 To C 领域以外，在 ToG 和 ToB 领域探索了多样化的应用场景。

　　而新旦智能目前成立不到一年时间，由成一鹏创立于 2023 年 5 月，成立后不久，就分别用 7B、30B 模型在大模型榜单 MT-Bench 上登顶 TOP1。2024 年 3 月初，新旦智能宣布完成千万级别天使轮融资，背后的投资方就是 APUS 和 AI 行业投资人周弘扬。

　　据新旦智能创始人成一鹏向「市界」介绍，目前新旦智能的团队规模为十余人，由一群来自清华、伯克利、腾讯、Meta 等机构和企业的工程师组成，成员包括全球顶尖的开源 AI 社区知名开发者 Wing （目前全球最受欢迎的 AI 训练系统作者），以及开源社区最受欢迎的 AI 数据组织 Founder Austin。

　　据成一鹏介绍，新旦智能的多模态智能体在 LLM 领域已经完成了对 GPT3.5 Turbo 的超越，很多指标和 GPT4 只有不到 10% 的差距，例如 MMLU（74.7%）比较通用的推理分析指标， GSM 8K 数学指标（82.5%），差距大概只有 9%。然后在部分领域，他们已经超过了 GPT4，例如智能体的这个拟人性指标（MT bench ）已经超越 GPT 4 约 3% 。

　　“可以简单理解为，我们现在拥有一个智商上正在逼近 GPT4，同时情商还很高的大脑装配在了自己的智能体上。”成一鹏表示。

　　这次开源的 APUS-xDAN 大模型 4.0（MoE）另一个突破点，是填补了国内千亿大模型在开源领域的空白，目前国内千亿规模以上的大模型基本都不开源，包括百度的文心一言、华为的盘古大模型等。而参数规模是衡量模型复杂度的重要指标，更大的参数往往可以让大模型在处理复杂任务时表现更好，具有更高的准确性和泛化能力。

　　作者曾广

　　编辑董雨晴

　　运营刘珊