高通万卫星：终端侧生成式AI时代已经来临｜中国AIGC产业峰会

　　编辑部整理自 AIGC 峰会

　　量子位公众号 QbitAI

　　AI 手机、AI PC 硬件新物种正崭露头角。

　　高通作为技术及芯片厂商，所提供的产品和解决方案正在推动 AIGC 相关产业的规模化扩展。

　　在本次 AIGC 产业峰会上，高通公司 Al 产品技术中国区负责人万卫星分享了这样的观点：

2024 年，高通会重点支持多模态模型以及更高参数量的大语言模型在端侧的部署。而高通顶尖的异构计算设计使 AI 能力贯穿整个 SoC，将 CPU、GPU 和 NPU 的能力都充分释放给开发者。

同时，借助高通 AI Hub，开发者可以轻松地开发自己的创新 AI 应用，就像“把大象塞入冰箱”一样简单。

　　为了完整体现万卫星的思考，在不改变原意的基础上，量子位对演讲内容进行了编辑整理，希望能给你带来更多启发。

　　中国 AIGC 产业峰会是由量子位主办的行业峰会，20 位产业代表与会讨论。线下参会观众近千人，线上直播观众 300 万，获得了主流媒体的广泛关注与报道。

　　话题要点

基于图像语义理解的多模态大模型发展是当下的重要趋势。芯片厂商如何满足生成式 AI 多样化的要求。虚拟化身 AI 助手，充分利用高通异构计算能力的端到端用例解析。利用高通 AI Hub 进行应用开发的过程就像“把大象塞进冰箱”一样简单。

　　以下为万卫星演讲全文：

　　终端侧生成式 AI 时代已经来临

　　我们相信，终端侧生成式 AI 时代已经来临。

　　高通在 2023 年 10 月发布的第三代骁龙 8 和骁龙 X Elite 两款产品上，已经实现了大语言模型完整地在端侧运行，并且已经或即将为众多 AI 手机和 AI PC 提供支持。

　　在手机方面，去年年底和今年年初，包括三星、小米、荣耀、OPPO 和 vivo 等众多 OEM 厂商发布的 Android 旗舰产品，都已经具备了在端侧运行生成式 AI 的能力。

　　基于图像语义理解的多模态大模型发展是当下的重要趋势。

　　在今年 2 月的 MWC 巴塞罗那期间，高通也展示了全球首个在 Android 手机上运行的多模态大模型（LMM）。

　　具体来说，我们在搭载第三代骁龙 8 的参考设计上运行了基于图像和文本输入、超过 70 亿参数的大语言和视觉助理大模型（LLaVa），可基于图像输入生成多轮对话。

　　具有语言理解和视觉理解能力的多模态大模型能够赋能诸多用例，例如识别和讨论复杂的视觉图案、物体和场景。

　　设想一下，有视觉障碍的用户就可以在终端侧利用这一技术，实现在城市内的导航。同时，高通在骁龙 X Elite 上也演示了全球首个在 Windows PC 上运行的音频推理多模态大模型。

　　接下来看看高通作为技术及芯片厂商，如何满足生成式 AI 多样化的要求。

　　不同领域的生成式 AI 用例具有多样化的要求，包括按需型、持续型和泛在型用例，其背后所需的 AI 模型也是千差万别，很难有一种处理器可以完美适用所有生成式 AI 用例或非生成式 AI 用例。

　　比如，有些用例需要进行顺序控制，对时延比较敏感；有些用例是持续型的，对算力和功耗比较敏感；有些用例需要始终在线，对功耗尤其敏感。

　　高通公司推出的高通 AI 引擎就是领先的异构计算系统，它包含多个处理器组件，包括通用硬件加速单元 CPU 和 GPU、专门面向高算力需求的 NPU，以及高通传感器中枢，它们在 AI 推理过程中扮演不同角色。

　　前面提到的顺序执行的按需型任务，可以运行在 CPU 或 GPU 上；对 AI 算力要求比较高的持续型任务，例如影像处理、生成式 AI 等，都可以运行在 NPU 上；对于需要始终在线、对功耗尤其敏感的任务，可以运行在高通传感器中枢上。

　　简单介绍一下高通 NPU 的演进路线，这是非常典型的由上层用例驱动底层硬件设计的案例。

　　2015 年及更早之前，AI 主要用于一些比较简单的图像识别、图像分类用例，所以我们给 NPU 配置了标量和向量加速器。

　　2016—2022 年间，计算摄影概念开始流行，我们把研究方向从图像分类转移到了 AI 计算摄影及视频等等，包括对自然语言理解和处理的支持，以及对 Transformer 模型的支持，我们给 NPU 硬件在标量和向量加速器的基础之上，增加了张量加速器。

　　2023 年，大模型热度很高，我们在业内率先完成了端侧的大模型支持，给 NPU 配置了专门的 Transformer 加速模块。

　　2024 年，我们会重点支持多模态模型，以及更高参数量的大语言模型在端侧的部署。

　　接下来为大家更深入的介绍高通 Hexagon NPU。

　　第三代骁龙 8 上的 Hexagon NPU 不仅进行了微架构升级，还专门配置了独立的供电轨道，以实现最佳的能效。

　　我们还通过微切片推理技术支持网络深度融合，获取更极致的性能。

　　此外 Hexagon NPU 还集成了专门为生成式 AI 打造的 Transformer 加速模块，更高的 DDR 传输带宽，更高的主频等先进技术。

　　所有这些技术相结合，使得 Hexagon NPU 成为面向终端侧生成式 AI 的行业领先 NPU。

　　接下来看一个具体案例，虚拟化身 AI 助手——这是非常典型的充分利用高通异构计算能力的端到端用例。

　　它包括众多复杂 AI 工作负载，首先需要自动语音识别（ASR）模型负责将语音信号转成文本，这部分工作负载可以运行在高通传感器中枢上；接下来会由大语言模型负责处理文本输入，生成回复和对话，这部分工作负载可以运行在 NPU 上；再通过文本生成语音（TTS）模型把文本输出转变成语音信号，这部分负载可以运行在 CPU；最后由 GPU 模块负责基于语音输出同步完成虚拟化身渲染，这样就能得到一个端到端的用语音来交互的虚拟化身助手用例。

　　前面介绍了硬件技术，接下来分享一下高通平台的 AI 性能。

　　在智能手机领域，第三代骁龙 8 不管是在鲁大师 AIMark V4.3、安兔兔 AITuTu 这些 AI 基准测试的总分方面，还是在 MLCommon MLPerf 推理：

　　Mobile V3.1 的具体模型推理性能测试方面，表现都远超于竞品。在 PC 方面，骁龙 X Elite 在面向 Windows 的 UL Procyon AI 推理基准测试中，表现也超过了基于 X86 架构的竞品。

　　高通除了提供领先的硬件平台设计之外，也推出了一个跨平台、跨终端、跨操作系统的统一软件栈，叫做高通 AI 软件栈（Qualcomm AI Stack）。

　　高通 AI 软件栈支持所有目前主流的训练框架和执行环境，我们还为开发者提供不同级别、不同层次的优化接口，以及完整的编译工具链，让开发者可以在骁龙平台上更加高效的完成模型的开发、优化和部署。

　　值得强调的是，高通 AI 软件栈是一个跨平台、跨终端的统一解决方案，所以开发者只要在高通和骁龙的一个平台上完成模型的优化部署工作，便可以非常方便的将这部分工作迁移到高通和骁龙的其他所有产品上。

　　今年 MWC 巴塞罗那期间，高通发布了非常重量级的产品，高通 AI Hub（Qualcomm AI Hub）。该产品面向第三方开发者和合作伙伴，可以帮助开发者更加充分的利用高通和骁龙底层芯片的硬件算力，开发出自己的创新 AI 应用。

　　利用高通 AI Hub 进行应用开发的过程就像“把大象塞进冰箱”一样简单。

　　第一步，根据用例选择所需模型。

　　第二步，选择需要部署的高通或骁龙平台。

　　第三步，只需要写几行脚本代码，就可以完成整个模型部署，在终端侧看到应用或算法的运行效果。

　　目前，高通 AI Hub 已经支持约 100 个模型，其中有大家比较关心的生成式 AI 模型，包括语言、文本和图像生成，也包括传统 AI 模型，例如图像识别、图像分割，自然语言理解、自然语言处理等等。具体的模型信息，欢迎大家访问高通 AI Hub 网站进行查询。