6000亿参数的商汤多模态大模型发布，性能超越GPT-4 Turbo

　　（图片来源：钛媒体 App 编辑拍摄）

　　商汤正加速升级大模型技术能力。

　　钛媒体 AGI 获悉，4 月 23 日下午，人工智能（AI）上市公司商汤科技在上海发布“日日新 SenseNova”5.0 多模态大模型系列，采用混合专家（MoE）架构，支持多达 10T Tokens 中英文与训练数据，推理合成数据高达数千亿 Token，推理时上下文窗口可以有效到 200K 左右，拥有端侧扩散和语言模型，知识、推理、数学、代码等综合能力全面对标 GPT-4 Turbo。

　　商汤科技表示，这是行业内首个“云、端、边”全栈大模型产品矩阵，以满足不同规模场景的应用需求。公司技术领跑加速生成式 AI 向产业落地的全面跃迁，实现大模型按需所取。

　　商汤科技董事长兼 CEO 徐立表示，在尺度定律（Scaling Law）的准则下，商汤持续推动自身大模型研发，会持续探索大模型能力的 KRE 三层架构（知识-推理-执行），不断突破大模型能力边界。

　　“我们认为，2024 年是端侧大模型爆发的一年。”徐立在会上表示。

　　商汤科技董事长兼 CEO 徐立博士

　　会前与钛媒体 App 编辑对话时，商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚表示，端侧模型市场潜力巨大，每年有 30 亿部手机，PC 出货量一年也有2-3 亿台规模，AI PC 可以成为我们每个人的助手，汽车智能化也成为重要发展机遇期，从而能让大模型普及应用。

　　“这也是商汤今年的一个战略重点。”王晓刚强调，“今天我们模型的能力还是归功于我们的模型参数量、数据量，以及对算力的需求不断增加下的性能提升。那么在这个基础上，未来大模型对于资源的投入、软硬件基础设施的要求是越来越高，后面必然导致的一个结果就是，不会有那么多家去从事大模型，不会形成‘百模’或‘千模大战’。”

　　据悉，2023 年 3 月，商汤集团宣布，公司愿景和战略目标转型为“将 AGI 作为核心战略目标，以期在未来几年内实现 AGI 技术的重大突破”。

　　基于此变革，商汤科技建立并执行 AI for All 的发展目标，并将重点放到以 SenseCore Al 大装置作为大模型生产的核心平台，以及商汤 AIDCAI 计算中心平台作为大算力 AI 基础设施能力，从而打造通用能力的多模态大模型，以及垂直行业、更具专长的专业大模型，从根本上降低大模型的下游应用成本和门槛。

　　去年 4 月 10 日，商汤首次公布“日日新 SenseNova”大模型体系，以及自研的中文语言大模型应用平台“商量”，参数量达千亿，可实现文本生成、图像生成、多模态内容生成等能力与场景应用。

　　2023 年 7 月、8 月以及今年 1 月，日日新大模型升级到 2.0、3.0 版本以及日日新 V4.0，“商量”2.0 和小模型商量S版（SenseChat S）等不同参数量级模型版本页同时发布，可适配移动端等不同终端及场景的应用需求。新的日日新 V4.0 通过提高训练数据的质量以及实现基础语言能力的显著提升，在代码编写、数据分析、医疗问答等多个场景中达到与 GPT-4 相匹配的能力，同时还开源对应 7B 和 20B 的两种参数基模型。

　　今年 3 月，徐立表示，在 Scaling Law 指引下，大模型正处于技术革命与性能提升的黄金时期。自 2023 年发布以来，商汤“日日新”大模型的能力每隔三个月都会有显著提升，实现了万卡万参的大模型训练能力，在基模型、多模态、编程和工具调用、百万字无损上下文、终端小模型上都达到国内领先水平。

　　最新 2023 年报显示，去年基于商汤生成式 AI 收入达到 12 亿元人民币，实现 200% 的飞速增长；同时，商汤大模型基础设施大装置 SenseCore 总算力规模突破性增长至 12000 petaFLOPS，运营 GPU 数量达 4.5 万卡，其中国产算力 2000P，已完成 58 款国产芯片适配和应用；另外，生成式 AI 业务中超过 70% 的客户在过去 12 个月内是商汤的新客户，剩下 30% 的存量客户的客单价也录得约 50% 的增速，截至 3 月，订单金额超过千万人民币的客户数已达到数十家，日日新赋能C端的调用量实现近 120 倍的增长。

　　4 月 23 日，商汤技术开放日上，公司正式发布日日新大模型 V5.0，这也是国内首个有能力建立“云、端、边”全栈大模型产品矩阵的企业。具体来看，基于此次技术开放日活动，钛媒体 App 梳理了商汤核心的四大技术板块：

　　1、云端模型

　　商汤千亿大模型 SenseChat（商量）升级到 5.0，达到 6000 亿参数，支持 MoE 大幅提升创意写作能力、推理能力以及总结能力等，相同的中文知识注入后，可获得更好的理解总结及问答；同时，数理能力、代码能力及推理能力达到业内领先水平；多模态能力上，支持高清长图的解析和理解以及文生图交互式生成，实现复杂的跨文档知识抽取及总结问答展示，以及具备丰富的多模态交互能力，其大模型在基准测试 MMBench 中综合得分排名首位。

　　在主流客观评测上，日日新 5.0 达到或超越了去年 OpenAI 在开发者大会上发布的 GPT-4 Turbo 版本，同时也几乎全方位碾压了近期发布的 Llama 3-70B。

　　徐立表示，在高阶推理，特别是数学上的提升，相比 GPT-4，日日新提升了 100% 多，Llama 2、3 提升了 400% 多，也就是大部分用来提升数据质量的能力构建在推理能力上，推进合成数据的推理。

　　2、端边模型

　　随着大模型技术的快速发展，不同应用场景的需求日益显现，AI 大模型在智能手机、电脑、VR 眼镜等终端设备领域的应用也成为一大趋势，因此推出 1.8B（18 亿）参数规模的 SenseChat-Lite 版本端侧⼤模型。

　　在基准测试中，该端侧模型全面超越了 MiniCPM-2B、Phi-2 等同量级的大模型，并且还越级比肩一些 7B、13B 大模型。

　　徐立称，这是同等尺度性能最优，跨级尺度全面领先。“端侧大模型，天下武功，唯快不破。”

　　同时，商汤还推出端云协同解决方案，可以通过智能化判断协同发挥端云各自优势，部分场景端侧处理占比超过 80%，从而显著降低推理成本；目前，商汤日日新·端侧大语言模型的推理速度达到业内最快，可在中端平台实现 18.3 字/s的平均生成速度，旗舰平台更是达到了 78.3 字/s；而文生图中，扩散模型端侧 LDM-AI 扩图技术推理速度小于 1.5 秒，比友商云端 app 快 10 倍，支持输出 1200 万像素及以上的高清图片，支持在端上快速进行等比扩图、自由扩图、旋转扩图等图像编辑功能。

　　王晓刚对钛媒体 AGI 表示，商汤在端侧模型做的比较好。过去一年里，公司在云端给手机、汽车客户做提供服务时，还针对这些终端用户需求进行大量改进和开发，整个效果是跟云端模型是对齐的，体验上会有一个特别大的优势。此次通过稀疏模型的激活，可大大节省运算成本，降低端侧模型功耗。

　　3、企业一体机

　　此次活动上，针对于金融、代码、医疗、政务等行业的企业级大模型应用需求，商汤正式推出企业级大模型一体机，可同时支持企业级千亿模型加速和知识检索硬件加速，实现本地化部署，即买即用，降低企业应用大模型的门槛。相比行业同类产品，推理成本节约 80%，检索大大加速，CPU 工作负载 50%。

　　具体来说，商汤企业级大模型一体机采用“2-42”架构，高密一体机，平台同级性能最强，拥有高速 4 卡互连，显存可达 256GB，互联速度可达 448GB/s，算力可达 2P FLOPS@半精度。

　　其中，小浣熊·代码大模型一体机轻量版价格为每台 35 万元人民币起。徐立提到，这款产品具有性价比、可用性、安全性、低门槛等优势。

　　4、大模型 Agents 和应用

　　整体来说，基于通用 AI 基础设施的 SenseCore、“日日新”大模型体系，商汤研发了多个生成式 AI 产品，如商量、秒画、如影、格物、琼宇、大医以及最新的小浣熊家族系列，均在 5.0 版本中有更新。

　　以小浣熊为例。商汤新的小浣熊系列支持端侧，以及不止有代码小浣熊，还有办公小浣熊等，支持更多的场景应用；秒画则全面更新升级，支持更精细的词语。

　　徐立表示，现在发布的类似于代码小浣熊机器人，可以端到端，至于用自然语言去写代码目前来看还不能完全自动，原因是人类的自然语言有天然的奇异性。

　　另外，商汤还公布“文生视频”等领域新的技术突破。

　　徐立在现场播放了三段完全由商汤大模型生成的视频，并强调“文生视频”平台对于人物、动作和场景的可控性，但并没有正式发布“文生视频”产品；而针对数字人，商汤还发布过商汤·拟人语言大模型，让虚拟人物感受真实。

　　徐立表示，商汤团队希望持续推动整个 AI 产业的变化，特别是 AI 2.0 时代的转型。

　　王晓刚对钛媒体 App 表示，各个模型之间并不是孤立存在的。商汤多模态模型是以语言模型为基础，而文生视频模型在网络的架构、数据生产的管线、研发的流程上是大量地借鉴去年商汤文生图的模型，所以模型之间也是相互关联的。同时，商汤背后积累大量 know-how。

　　“今天大模型发展最重要的不是数量到底是有几个模型存下来，最重要的还是在模型的差异化上。所以今天说大战也好，卷也好，主要体现在我们缺少差异化。所以怎么来带来我们的差异化？要有创新，今天这些研发模式还存在着一些问题，比如当我们看到 OpenAI 发布一个模型时，知道什么样的模型，什么样的功能是可以做到的时候，大家就蜂拥而上做类似的东西。对于别人没有尝试过，没有做出来东西，它的不确定性高、有投入风险时，又有很少有人在这方面做投入，所以可以看到商汤在大模型发展的思路上，跟其他很多公司是不一样的。”王晓刚表示。

　　王晓刚还向钛媒体 App 提到，“绝影”正专注于智能汽车发展，不止有自主权和更大投入，而且会包括商汤基础能力支持。而对于整个商汤来说，未来发展的重点不是做实体的机器人，而是打造机器人的“大脑”。

　　“这是我们最擅长且应该发挥价值的地方。”王晓刚表示。

　　王晓刚强调，AI 大模型是一个长期投入、长期竞争的过程。在这条路上，商汤还是非常坚定会往前继续走，而且在这基础之上会与很多合作伙伴、生态一起去支持这些成果和基础能力。

　　（本文首发于钛媒体 App，作者｜林志佳，编辑｜胡润峰）