中国也有Sora同款训练架构公司，清华班底，智谱也投了

　　文周鑫雨

　　编辑邓咏仪

　　全球首家发布 Sora 同款底层架构的清华系模型公司，近期完成了新一轮融资。投资名单中，也出现了大模型独角兽智谱 AI 的身影。

　　36 氪获悉，近日多模态 AI 模型公司生数科技完成新一轮数亿元融资。该轮融资由启明创投领投，达泰资本、鸿福厚德、智谱 AI、老股东 BV 百度风投和卓源亚洲跟投。据介绍，融资主要用于多模态基础大模型的研发迭代、应用产品创新及市场拓展。

　　2023 年成立的生数科技，在创立当年已经完成了近亿元的天使轮融资。基于自主研发的多模态通用大模型，生数科技对外提供 To B 的 MaaS（模型即服务）服务和 To C 的应用产品。

　　生数科技的核心团队成员，出自清华大学人工智能研究院。联合创始人兼 CEO 唐家渝出身清华大学自然语言处理实验室，曾任瑞莱只会副总裁、腾讯优图实验室高级产品经理。CTO 鲍凡在清华大学计算机系获得博士学位，在加速推理、可控生成、基础架构、训练策略等方面已发表十余篇顶会论文。首席科学家为清华大学计算机系人工智能实验室主任、智源研究院首席科学家朱军。

　　可以说，2023 年是国内大语言模型狂飙的元年。2024 年，OpenAI 携可生成 60 秒视频的模型 Sora 再次登场，立刻带动了国内 AI 行业对视频、音频、图像、3D 等多模态生成技术的探索。

　　目前，生数科技自研的多模态通用大模型，已经初步具备短视频的生成能力。

　　短视频生成效果。图源：生数科技

　　但 Sora 的空降，也让生数科技立刻调整了战略。以往 AI 生成视频的长度天花板，是 Runway Gen-3 的 18 秒，如今 Sora 将天花板抬高到了 60 秒。

　　唐家渝坦言，长视频生成需要高昂的入场费，A100、A800 的卡可能要上万张。资源投入的压力，让团队并没有立刻投入长视频生成的训练。如今长视频生成的路径，已经被 OpenAI 验证，生数科技决定提高突破长视频能力的优先级。

　　生数团队对多模态模型的探索最早开始于 2013 年。在清华实验室阶段，团队早期成员就开始了生成式模型理论基础、高效学习和推理算法，以及音乐生成、人脸合成等多方面的研究工作。

　　自 2020 年扩散模型应用于图像生成领域以来，生数团队也是业内首批开展扩散概率模型基础理论和算法研究的队伍，于 ICML、NeurIPS、ICLR 等顶会发表扩散概率模型领域相关论文 20 余篇。团队先后推出自研的无训练推理框架 Analytic-DPM、全球最快采样算法 DPM-Solver，被 DALL-E 2、Stable Diffusion 等国际项目所采用。

　　2022 年 9 月，生数科技就发布了 9.5 亿参数规模的U-ViT 网络架构，这也是全球首个 Diffusion Transformer 架构——1 个月后，Stable Diffusion 发布了初代 DiT 架构U-Net，后被应用于 Sora 的研发。

　　依托于U-ViT 架构，生数科技推出了基于统一的多模态多任务框架的通用基础大模型，可实现图像、视频、3D 多种模态的生成。

　　图像生成效果。图源：生数科技

　　比如在 3D 生成的效果上，生数科技模型可以将生成速度压缩到 10 秒级。与此同时，模型还支持 360 度全景 4D 动画生成，以及对 3D 生成场景的编辑。

　　3D 生成效果。图源：生数科技

　　在 3D 等多模态训练数据稀缺的当下，据唐家渝介绍，生数科技多模态模型的训练数据主要来源于两块：互联网上大量公开的数据，通过向版权方购买的私有数据，两者共同完善训练数据的丰富性。

　　相较于同等参数规模的语言模型，多模态模型的训练，前期的投入更为高昂。为了节省成本，提高训练效率，生数科技构建了完整的工程与数据体系，并在大规模 GPU 集群上实现更高效、低成本、强兼容的模型训练。唐家渝表示，去年团队花了近一个月的时间做完了华为昇腾训练架构的适配，芯片的国产替代帮助节省了不少成本。

　　目前，生数科技采取的是 To B 和 To C 两条腿走路的商业化模式：对B端提供 MaaS 服务，对C端提供多模态生成应用。

　　目前，生数科技已经与多家游戏公司、个人终端厂商、互联网平台等B端机构展开合作。比如在和某头部车企的合作中，生数科技将图像生成能力应用在了车载大屏的壁纸生成。

　　在C端产品的布局上，生数科技在 2023 年上线了两款工具型产品：视觉创意设计平台 PixWeaver、3D 资产创建工具 VoxCraft。先面向海外市场推出的 VoxCraft，在辅助 3D 游戏角色开发场景中经过了市场的验证，通过基于 VoxCraft 生成粗模、底模，游戏开发效率能够提升 30%

　　唐家渝认为，追赶 Sora 对模型公司而言，仍然拥有巨大的挑战。这份挑战不仅来源于训练数据的数量和质量，也在于对多模态训练数据的处理方式——在 OpenAI 披露更多训练细节之前，Sora 的数据集仍然是个“黑箱”。但乐观的是，多模态模型，已经到了可以走出实验室和机房，落地到更多应用场景的阶段。

　　以下是投资人评价：

启明创投合伙人周志峰如今的大模型已经从原来的纯语言模态，逐步走向多模态的探索。生数科技从去年成立之初就选择多模态赛道，是国内这个领域起步最早、积累最深的团队，大量工作被 OpenAI、Stable Diffusion 团队引用。生数科技推出的U-ViT 架构作为全球 Diffusion Transformer 架构的首创，不仅具有前瞻的技术视野，更是经过了大规模训练的验证，展现出强大的技术可行性。这种兼具开拓性和成熟度的核心工作，让我们对生数科技在多模态大模型方向的长期发展充满信心。今年过年期间，Sora 的亮相不仅展示出视频生成技术的巨大潜力，而且增强了人们对于多模态生成未来发展的信心。随着 Scaling Law 在视频生成领域的进一步加强，我们预期多模态技术将引领一系列令人瞩目的创新和令人惊叹的成果。在这一过程中，生数科技无疑将扮演一个关键的推动角色！达泰资本合伙人姚承在当下大模型赛道的竞争中，生数科技在多方面都脱颖而出。不仅敏锐洞察到多模态的前沿趋势，而且作为国内最早投身多模态赛道的公司，生数科技在过去短短一年的时间内就取得了令人瞩目的成绩单，从基础设施、模型算法、数据资源到场景化应用积累了独特的竞争优势。同时生数科技也是国内极少拥有“从零开始、自主训练”大模型能力的公司，具备深厚理论基础和实践经验，拥有突破主流框架技术难点和瓶颈的技术实力，因此我们坚持在人工智能领域的布局，并对生数科技未来发展充满期待。智谱 AI CEO 张鹏智谱 AI CEO 张鹏表示：作为清华系的创业团队，生数科技是国内最早开展深度生成式 AI 研究的组织之一。从对抗生成网络到扩散模型，生数科技敏锐洞察到融合架构的重要性，将其作为原生多模态的技术核心和重要支撑。智谱 AI 很高兴同生数科技展开深入合作，助力生数科技多模态核心技术研发与商业化探索，一同推动多模态大模型技术落地应用，更好惠及千行百业。华兴资本董事总经理、华兴资本集团联席总裁王力行我们身为生数科技的亲密战友，见证了公司的厚积薄发和无限潜力。作为全球顶尖的研发团队，生数科技在基础理论架构和工程实现等层面展现出了超群的创新力和前瞻性，率先提出U-ViT 架构并一以贯之，引领了多模态行业的发展；同时团队以极强的执行力和落地速度，陆续在图像、3D、视频生成等领域贡献了艺术级的作品。作为未来数字世界的天才建筑师，生数将率先攻克多模态生成瓶颈，把人类的创造力和艺术构想一一落为现实，始于科学、忠于创新、迈向未来。

　　欢迎交楼！