(图片来源:钛媒体 App 编辑拍摄)
商汤正加速升级大模型技术能力。
钛媒体 AGI 获悉,4 月 23 日下午,人工智能(AI)上市公司商汤科技在上海发布“日日新 SenseNova”5.0 多模态大模型系列,采用混合专家(MoE)架构,支持多达 10T Tokens 中英文与训练数据,推理合成数据高达数千亿 Token,推理时上下文窗口可以有效到 200K 左右,拥有端侧扩散和语言模型,知识、推理、数学、代码等综合能力全面对标 GPT-4 Turbo。
商汤科技表示,这是行业内首个“云、端、边”全栈大模型产品矩阵,以满足不同规模场景的应用需求。公司技术领跑加速生成式 AI 向产业落地的全面跃迁,实现大模型按需所取。
商汤科技董事长兼 CEO 徐立表示,在尺度定律(Scaling Law)的准则下,商汤持续推动自身大模型研发,会持续探索大模型能力的 KRE 三层架构(知识-推理-执行),不断突破大模型能力边界。
“我们认为,2024 年是端侧大模型爆发的一年。”徐立在会上表示。
商汤科技董事长兼 CEO 徐立博士
会前与钛媒体 App 编辑对话时,商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚表示,端侧模型市场潜力巨大,每年有 30 亿部手机,PC 出货量一年也有2-3 亿台规模,AI PC 可以成为我们每个人的助手,汽车智能化也成为重要发展机遇期,从而能让大模型普及应用。
“这也是商汤今年的一个战略重点。”王晓刚强调,“今天我们模型的能力还是归功于我们的模型参数量、数据量,以及对算力的需求不断增加下的性能提升。那么在这个基础上,未来大模型对于资源的投入、软硬件基础设施的要求是越来越高,后面必然导致的一个结果就是,不会有那么多家去从事大模型,不会形成‘百模’或‘千模大战’。”
据悉,2023 年 3 月,商汤集团宣布,公司愿景和战略目标转型为“将 AGI 作为核心战略目标,以期在未来几年内实现 AGI 技术的重大突破”。
基于此变革,商汤科技建立并执行 AI for All 的发展目标,并将重点放到以 SenseCore Al 大装置作为大模型生产的核心平台,以及商汤 AIDCAI 计算中心平台作为大算力 AI 基础设施能力,从而打造通用能力的多模态大模型,以及垂直行业、更具专长的专业大模型,从根本上降低大模型的下游应用成本和门槛。
去年 4 月 10 日,商汤首次公布“日日新 SenseNova”大模型体系,以及自研的中文语言大模型应用平台“商量”,参数量达千亿,可实现文本生成、图像生成、多模态内容生成等能力与场景应用。
2023 年 7 月、8 月以及今年 1 月,日日新大模型升级到 2.0、3.0 版本以及日日新 V4.0,“商量”2.0 和小模型商量S版(SenseChat S)等不同参数量级模型版本页同时发布,可适配移动端等不同终端及场景的应用需求。新的日日新 V4.0 通过提高训练数据的质量以及实现基础语言能力的显著提升,在代码编写、数据分析、医疗问答等多个场景中达到与 GPT-4 相匹配的能力,同时还开源对应 7B 和 20B 的两种参数基模型。
今年 3 月,徐立表示,在 Scaling Law 指引下,大模型正处于技术革命与性能提升的黄金时期。自 2023 年发布以来,商汤“日日新”大模型的能力每隔三个月都会有显著提升,实现了万卡万参的大模型训练能力,在基模型、多模态、编程和工具调用、百万字无损上下文、终端小模型上都达到国内领先水平。
最新 2023 年报显示,去年基于商汤生成式 AI 收入达到 12 亿元人民币,实现 200% 的飞速增长;同时,商汤大模型基础设施大装置 SenseCore 总算力规模突破性增长至 12000 petaFLOPS,运营 GPU 数量达 4.5 万卡,其中国产算力 2000P,已完成 58 款国产芯片适配和应用;另外,生成式 AI 业务中超过 70% 的客户在过去 12 个月内是商汤的新客户,剩下 30% 的存量客户的客单价也录得约 50% 的增速,截至 3 月,订单金额超过千万人民币的客户数已达到数十家,日日新赋能C端的调用量实现近 120 倍的增长。
4 月 23 日,商汤技术开放日上,公司正式发布日日新大模型 V5.0,这也是国内首个有能力建立“云、端、边”全栈大模型产品矩阵的企业。具体来看,基于此次技术开放日活动,钛媒体 App 梳理了商汤核心的四大技术板块:
1、云端模型
商汤千亿大模型 SenseChat(商量)升级到 5.0,达到 6000 亿参数,支持 MoE 大幅提升创意写作能力、推理能力以及总结能力等,相同的中文知识注入后,可获得更好的理解总结及问答;同时,数理能力、代码能力及推理能力达到业内领先水平;多模态能力上,支持高清长图的解析和理解以及文生图交互式生成,实现复杂的跨文档知识抽取及总结问答展示,以及具备丰富的多模态交互能力,其大模型在基准测试 MMBench 中综合得分排名首位。
在主流客观评测上,日日新 5.0 达到或超越了去年 OpenAI 在开发者大会上发布的 GPT-4 Turbo 版本,同时也几乎全方位碾压了近期发布的 Llama 3-70B。
徐立表示,在高阶推理,特别是数学上的提升,相比 GPT-4,日日新提升了 100% 多,Llama 2、3 提升了 400% 多,也就是大部分用来提升数据质量的能力构建在推理能力上,推进合成数据的推理。
2、端边模型
随着大模型技术的快速发展,不同应用场景的需求日益显现,AI 大模型在智能手机、电脑、VR 眼镜等终端设备领域的应用也成为一大趋势,因此推出 1.8B(18 亿)参数规模的 SenseChat-Lite 版本端侧⼤模型。
在基准测试中,该端侧模型全面超越了 MiniCPM-2B、Phi-2 等同量级的大模型,并且还越级比肩一些 7B、13B 大模型。
徐立称,这是同等尺度性能最优,跨级尺度全面领先。“端侧大模型,天下武功,唯快不破。”
同时,商汤还推出端云协同解决方案,可以通过智能化判断协同发挥端云各自优势,部分场景端侧处理占比超过 80%,从而显著降低推理成本;目前,商汤日日新·端侧大语言模型的推理速度达到业内最快,可在中端平台实现 18.3 字/s的平均生成速度,旗舰平台更是达到了 78.3 字/s;而文生图中,扩散模型端侧 LDM-AI 扩图技术推理速度小于 1.5 秒,比友商云端 app 快 10 倍,支持输出 1200 万像素及以上的高清图片,支持在端上快速进行等比扩图、自由扩图、旋转扩图等图像编辑功能。
王晓刚对钛媒体 AGI 表示,商汤在端侧模型做的比较好。过去一年里,公司在云端给手机、汽车客户做提供服务时,还针对这些终端用户需求进行大量改进和开发,整个效果是跟云端模型是对齐的,体验上会有一个特别大的优势。此次通过稀疏模型的激活,可大大节省运算成本,降低端侧模型功耗。
3、企业一体机
此次活动上,针对于金融、代码、医疗、政务等行业的企业级大模型应用需求,商汤正式推出企业级大模型一体机,可同时支持企业级千亿模型加速和知识检索硬件加速,实现本地化部署,即买即用,降低企业应用大模型的门槛。相比行业同类产品,推理成本节约 80%,检索大大加速,CPU 工作负载 50%。
具体来说,商汤企业级大模型一体机采用“2-42”架构,高密一体机,平台同级性能最强,拥有高速 4 卡互连,显存可达 256GB,互联速度可达 448GB/s,算力可达 2P FLOPS@半精度。
其中,小浣熊·代码大模型一体机轻量版价格为每台 35 万元人民币起。徐立提到,这款产品具有性价比、可用性、安全性、低门槛等优势。
4、大模型 Agents 和应用
整体来说,基于通用 AI 基础设施的 SenseCore、“日日新”大模型体系,商汤研发了多个生成式 AI 产品,如商量、秒画、如影、格物、琼宇、大医以及最新的小浣熊家族系列,均在 5.0 版本中有更新。
以小浣熊为例。商汤新的小浣熊系列支持端侧,以及不止有代码小浣熊,还有办公小浣熊等,支持更多的场景应用;秒画则全面更新升级,支持更精细的词语。
徐立表示,现在发布的类似于代码小浣熊机器人,可以端到端,至于用自然语言去写代码目前来看还不能完全自动,原因是人类的自然语言有天然的奇异性。
另外,商汤还公布“文生视频”等领域新的技术突破。
徐立在现场播放了三段完全由商汤大模型生成的视频,并强调“文生视频”平台对于人物、动作和场景的可控性,但并没有正式发布“文生视频”产品;而针对数字人,商汤还发布过商汤·拟人语言大模型,让虚拟人物感受真实。
徐立表示,商汤团队希望持续推动整个 AI 产业的变化,特别是 AI 2.0 时代的转型。
王晓刚对钛媒体 App 表示,各个模型之间并不是孤立存在的。商汤多模态模型是以语言模型为基础,而文生视频模型在网络的架构、数据生产的管线、研发的流程上是大量地借鉴去年商汤文生图的模型,所以模型之间也是相互关联的。同时,商汤背后积累大量 know-how。
“今天大模型发展最重要的不是数量到底是有几个模型存下来,最重要的还是在模型的差异化上。所以今天说大战也好,卷也好,主要体现在我们缺少差异化。所以怎么来带来我们的差异化?要有创新,今天这些研发模式还存在着一些问题,比如当我们看到 OpenAI 发布一个模型时,知道什么样的模型,什么样的功能是可以做到的时候,大家就蜂拥而上做类似的东西。对于别人没有尝试过,没有做出来东西,它的不确定性高、有投入风险时,又有很少有人在这方面做投入,所以可以看到商汤在大模型发展的思路上,跟其他很多公司是不一样的。”王晓刚表示。
王晓刚还向钛媒体 App 提到,“绝影”正专注于智能汽车发展,不止有自主权和更大投入,而且会包括商汤基础能力支持。而对于整个商汤来说,未来发展的重点不是做实体的机器人,而是打造机器人的“大脑”。
“这是我们最擅长且应该发挥价值的地方。”王晓刚表示。
王晓刚强调,AI 大模型是一个长期投入、长期竞争的过程。在这条路上,商汤还是非常坚定会往前继续走,而且在这基础之上会与很多合作伙伴、生态一起去支持这些成果和基础能力。
(本文首发于钛媒体 App,作者|林志佳,编辑|胡润峰)