香港大模型公司Weitu AI首秀，打造多模态Native的技术和产品

　　允中发自凹非寺

　　量子位公众号 QbitAI

　　香港也有大模型公司了。

　　Weitu AI，一家全力打造多模态 Native 产品的公司，其创始人王历伟博士在介绍时，特别强调了“多模态 Native”这个关键词。

　　就在前不久，Weitu AI 推出了自家的 150 亿参数多模态大模型 WeituAI 1.0，在诸多国际权威评测榜单如 MMMU[1]，MMBench[2]，CMMMU[3]，SEED-Bench[4]和 MM-Vet[5]等上一路高歌猛进。

　　虽然参数规模不算大，但不仅力压 200 亿参数量以下的同量级模型，甚至在一些榜单直接超车 LLaVA-NeXT-34B、MM1-30B-Chat 等更大模型。

　　这些评测结果不仅反映模型的性能优势，也反映了其多模态能力的全面性。

　　例如，在由俄亥俄州立大学，滑铁卢大学，卡内基梅隆大学和普林斯顿大学等机构联合发布的大规模多学科多模态理解和推理数据集 MMMU 上，WeituAI 1.0 取得了百亿参数模型中的优异成绩，仅次于一系列规模更大的模型，如 GPT-4V 等[1]。

　　在由香港科技大学、中科院自动化所和北京大学等机构组织的中文学科多模态数据集 CMMMU 上，WeituAI 1.0 在 200 亿参数量以下模型中排名第一[3]。

　　探索算法创新，瞄准多模态交互 Native

　　为什么首先是百亿参数模型？

　　据王历伟博士介绍，因为这个参数规模的模型在打造实际多模态场景产品的时候，有非常灵活的想象空间。

　　此次在这些多模态大模型评测基准上展示了基础的多模态理解能力，但是目前上述的评测基准大多以理解能力为主，尚没有完全展示 Weitu AI 大模型最擅长和最有特点的多模态交互能力。

　　Weitu AI 针对多模态交互做了很多结构优化，不仅让 WeituAI 1.0 模型在传统的多模态理解任务上保持优势，更让其在多模态交互 Native 场景大放异彩。

　　△王历伟博士

　　事实上，作为深耕多模态（视觉和自然语言结合领域）十多年的资深专家，王历伟博士对当下大模型的局限有着敏锐洞察。

我自己从 10 多年前就开始了多模态人工智能的研究，比如当前非常重要的语言匹配到具体图像内容（Visual Grounding）这样的经典多模态任务也是我和合作者们一起在 10 年前就提出来的。虽然最近多模态大模型这个词语被整个领域反复提及，多模态大模型的发展还有一些重要的问题亟待解决。即使是 GPT-4V 也在很多多模态的任务上表现出亟待提高的一面，比如对多模态细颗粒度的信息理解准确度需要提高等等。

　　当问到为什么会出现这样的情况，王历伟博士指出，“原因很多，但是有一个非常本质且当前诸多多模态模型尚未完全解决的问题是，传统的图像文本映射到同一个向量特征空间(embedding)的表达方法对视觉和跨模态建模具有局限性。 ”

目前基于向量空间做跨模态映射表达的局限性，虽然存在很多年，也还没被完全解决。

　　举个最简单的例子，请思考一个问题，单一的图像和文本向量空间映射是否具备能够准确匹配所有细颗粒度信息的能力？

　　比如，一张图有一只白色的羊站在草地上吃草，那么什么样的文本描述在映射空间里面才真的是适合这张图的？是更加细颗粒度却细节容易出错的，还是更加粗颗粒度但不容易描述出错的？

　　这个问题其实很本质，反映了单一的映射向量空间很难解决的问题。也恰恰是这一点，也体现在为什么现在许多多模态模型对数字，或者对图像内容细粒度理解和可控的生成还有很多地方需要完善。

　　总结起来就是，多模态大模型技术其实还有很多可以改进的地方，而 Weitu AI 也在不断探索算法上的创新。

尤其是，我们瞄准自己多模态的长期积累优势，提出新的多模态大模型更多地侧重在“多模态交互 Native”，因为我们努力打造的也正是多模态交互 Native 产品。

　　技术驱动产品，“双轮驱动”成就多模态新机遇

　　在王历伟博士看来，一款成功的多模态 Native 产品，离不开技术和产品力的“双轮驱动”，缺一不可。

不论是 B to C 的平台产品，还是C端的 APP 产品，从多模态交互 Native 这一点来看，核心都是让交互的效果和体验因为人工智能多模态技术的应用而达到最佳状态，从而成为新的产品习惯。而这件事的意义绝对不亚于大家用键盘打字输入搜索引擎框带来的产品习惯。

　　和移动互联网时代的产品相比，要打造一款成功的多模态 Native 产品有何不同？

　　王历伟博士认为，需要同时满足两个因素：第一个是产品力，第二个就是人工智能多模态技术。

这也让真正好用的多模态智能产品的出现变得有挑战，因为这两个要素是耦合在一起的。我觉得，多模态 AI 技术的临界点和诞生成功的多模态产品的时间点也会是耦合在一起的，而能够拥有这样机会的公司，一定是同时具备多模态技术能力和产品力的公司。我觉得 Weitu AI 正是往这个方向上努力，因为我们具备对多模态场景的理解，对用户的同理心，对技术的孜孜追求和自信。

　　据悉，截止到 4 月，Weitu AI 的多模态图像语言理解等技术被全球化的产品公司调用功能即将超过一亿次，而且这个数字会未来会持续增长。

　　但在王历伟博士看来，这还远远不够。

　　他认为，Weitu AI 的细粒度跨模态理解能力持续给这些全球化的客户平台公司输送提高产品智能交互能力的“燃料”，而且这种细颗粒度理解能力只是 Weitu AI 多模态着力打造的多项技术优势中的一种。

　　不仅如此，Weitu AI 自己的一款充满想象力的C端产品也在努力打造中。未来 Weitu AI 将致力于打造丰富的多模态交互 Native 产品矩阵，而这些产品矩阵的基础，就是 Weitu AI 不断进化和发展的多模态交互大模型。

大模型技术的发展，需要场景应用的迭代。而公司自建产品矩阵，正是构建场景闭环的关键一环。

　　好的商业模式和产品力，能让有理想的多模态公司跑得更快、更有信心。