随着人工智能技术迅速发展,大模型这把“火”已经烧到了越来越多的领域,手机正是其中之一。有评论甚至认为,“大模型将重新定义手机”。可以预见未来五年,AI 对手机行业的影响,完全可以比肩当年智能手机替代功能机。那么,大模型加持的智能手机会长什么样?大模型如何颠覆手机影像、交互体验?对于程序员来讲,手机操作系统和开发相关技术栈大概会是怎样?
近日,InfoQ《极客有约》特邀微软软件工程师姜雨生,对话 OPPO 技术规划总监陈晓春,小米相机部 AI 算法团队负责人王晓涛,vivo 技术规划专家袁东,一起探讨大模型时代下的手机。
以下为访谈实录,完整视频参看:https://www.infoq.cn/video/MutbJzsLtiucBSG0sxAR
如何理解 AI 手机?
姜雨生:随着技术的发展,大模型正在逐渐走向手机端。所谓 AI 手机,是指接入端侧大模型和云端大模型的手机吗?各位老师是如何理解 AI 手机这个概念的?
陈晓春:关于 AI 手机的看法,行业内部存在多种定义。IDC 对 AI 手机给出了严格的定义:端测算力需达到 30TOPS 以上,内存也有特定要求,且必须能在端侧运行包括大语言模型和大视觉模型等要求。这样的定义使得大多数高端手机都符合 AI 手机的标准。典型的芯片如苹果的最新 A17 芯片、骁龙 888 第三代、联发科 9300 等都属于此类。
从 OPPO 的角度来看,我们更倾向于从技术带来的便利性和与过去技术的差异来定义 AI 手机。我们思考的是,AI 手机与传统智能手机在提供的能力上最大的不同点是什么。我们之前发布的白皮书中提到,AI 手机可能具备以下几个特点:
1. 高效的算力应用能力:AI 手机需要在端侧运行复杂的模型,这要求有更高效的算法和存储带宽。
2. 强大的感知能力:AI 手机可能需要更多的传感器和多模态交互,能够理解用户的肢体语言和微表情,以及感知周围环境。
3. 自学习能力:AI 手机能够根据特定用户的交互习惯进行学习,比如用户的输入习惯和偏好。
4. 生成创作能力:AI 手机能够提供创新的创作工具和服务。
这些都是我们对 AI 手机的看法,我们愿意与行业同行交流这些观点,虽然它们可能不是标准答案。我们希望这些观点能够引发更多的讨论。
王晓涛:关于 AI 手机,我想补充一些个人观点。目前大家讨论 AI 手机,主要是因为看到了大模型带来的性能优势,这些性能超出了我们最初的想象。因此,人们开始将大模型与手机结合起来。实际上,智能手机并不是一个新概念,这几年我们一直在使用智能手机。但现在,为什么又出现了 AI 手机这个概念呢?我认为,这是对大模型与手机结合的未来发展抱有很高的期望。
目前,各大手机厂商都在投入大量精力进行研发。从现状来看,AI 手机可能只是在现有功能上的拓展或升级,使得手机更加好用,功能效果更佳,或者增加了一些具有 AI 属性的新能力,但 AI 手机目前还处于起步阶段,至于 AI 手机未来真正的形态,这将随着各家厂商的投入和时间的推移而逐渐清晰地展现出来。这是一个逐步发展的过程,最终的形态还需要时间来证明。
袁东:AI 与手机的结合最初可以追溯到 iPhone 首次发布 Siri 时,那时人们开始期待智能手机能够拥有智能助手,带来人工智能的美好前景。经过多年的发展,传统的 AI 开发方式并没有实现这种期待,直到生成式 AI 的出现,特别是像 ChatGPT 这样基于 Transformer 模型的大模型出现,才让人们感受到了智能涌现的感觉。
这种智能涌现让人们开始思考,是否可以在手机上实现那些美好的 AI 愿景,让手机更加理解用户,成为个人得力的助手。我认为当前这波 AI 智能手机的定义,可能正是基于生成式人工智能和智能涌现的概念。这种范式的变化预示着未来用户的数据或内容可能会是生成式的,用户生成的内容也可能具有生成式的特点,这可能成为未来智能手机的一个标志。当然,无论是智能涌现还是生成式内容,都需要基于云端或端侧的模型来生成。这是我对 AI 智能手机未来发展的理解。随着技术的进步,我们可以期待智能手机在理解用户需求和提供个性化服务方面将有更大的突破。
姜雨生:有了大模型的加持,智能手机发生了哪些根本性的变化?大模型是如何改善手机交互体验、影像处理、智能推荐……的,各位老师可以挑选几个点来展开介绍下。其中哪些变化是传统 AI 无法做到的?
王晓涛:智能手机的根本性变化可以从小米最近发布的产品中窥见一斑。在 2 月 22 日,小米发布了专业影像旗舰小米 14 Ultra,其中首次引入了基于大模型的 AISP 影像处理平台。小米的 AI 超级变焦(Ultra Zoom)功能简单来说是在 30 倍以上的焦段,常规传感器和光学系统接受的信号非常微弱,导致拍摄的图片缺乏细节信息。在这种情况下,传统方法和第一代 AI 技术几乎无效。我们引入了一个大模型的方案,采用生成式的方式,生成符合客观条件和实际情况的高质量图像。
换句话说,我们使用大模型来处理传统方法和第一代模型无法达到的场景或焦段。生成式模型在这个场景中确实取得了突破性的效果,比如传统方法和第一代模型无法达到的效果。目前,我们这个版本还存在许多问题,其中一个众所周知的问题就是生成问题,即如何确保生成的内容符合用户的意愿。这实际上是一个行业内较为困难的问题,但我们一直在努力解决,努力确保生成的内容尽可能符合客观条件。
袁东:我们正在从传统的多模态交互和图形用户界面(GUI)交互,转向与具有智能的实体进行交互。即使在没有大模型的智能手机中,AI 技术也在多个方面得到应用,比如摄影和翻译。但当智能交互真正出现时,这种交互可以被总结为智能化加上多模态交互。用户与 AI 手机的互动,实际上是通过 Prompt,也就是多媒体形式的提示来进行的。这些提示不仅仅是语言,还可以是照片或视频。对于大模型来说,这些都是有效的输入。
以 Sora 模型为例,它可以通过文本、图像或视频进行 Prompt。这意味着,当我用手机拍摄一只小猫或小狗时,可以使用文本加上这段视频或图片,让 Sora 帮我生成一个 60 秒的短视频。这样,Sora 不仅理解了我的意图,还能帮我创造出新的内容。对于用户来说,最根本的变化在于交互方式的这种转变。从底层技术来看,智能手机现在具备了智能涌现的能力,它们能够自主学习和适应,以更好地理解和响应用户的需求。
陈晓春:我非常认同刚才两位老师的观点。除此之外,在理解方面,我们可能会迎来许多新的发展。让我举个例子,在过去,我们使用传统的智能手机和一些传统的 AI 方法,比如搜索式或决策式 AI 算法。比如,如果我们想了解 OPPO 这家公司,通过搜索引擎可能会得到 10 条信息,其中 3 条可能是关于销售手机的,剩下的 7 条从不同维度描述公司。这需要我们进一步阅读和理解。而大模型给我们带来的是,它能帮助我们理解这些信息,将其转化为知识,让我们快速得到正确的答案。
第二个维度是,过去我们通过 NLP 技术实现的主要是人机之间的语义和交互理解。现在,通过大模型,它还能理解服务和周边设备。当我们要求它执行某项任务时,比如点餐或叫车,它能找到相应的方式实现这些服务。这些方式可能包括 OpenAI 定义的插件(plugin)方式,或者手机厂家定义的原生服务方式。
更大的变化是,它可以实现更好的个人专属性。例如,一个初中生在搜索题目时,她可能得到的答案是不匹配的,因为搜索结果可能更适合大学生。如果她问一个数学题,得到的答案可能使用了微积分,这对她来说并不适用。在这种情况下,我们需要 AI 非常理解用户的需求。大模型通过 LLM、fine-tuning,或者谷歌推动的 Tuning Project 等技术项目,可以微调模型,使其与用户的认知对齐,使用用户的语言进行描述,从而提高专属性。我认为在语义理解的各个方面,大模型能够提供完全不同的体验。
姜雨生:三位嘉宾分别来自不同的手机厂商,各自的公司内部对 AI 手机的战略和发展有何规划?
袁东:首先,我们相信每家公司都在朝着智能助理的方向部署 AI 应用。随着交互方式的改变,新的生态将会形成。我们去年在开发者大会上提到了一个大模型阵列,其中包括一个 7B 参数的模型,该模型已经开源。这个模型如果使用全精度,需要 28GB 的显存才能运行。但实际上,我们相信通过量化等技术,模型可以变得更小,同时保持高召回率和快速的推理速度。
未来每个 APP 不可能都有自己的模型,因为这会导致手机显存不足。相反,我们会在手机系统中共用一个模型。这样的模型将为开发者提供基础能力,类似于之前提供的 SDK。现在,我们提供的是一个公共的能力 Model。对于开发者来说,他们需要在这个基础上发挥自己的开发能力。开发范式将会改变,未来开发者将基于这个模型来开发 APP,可能需要具备一定的模型调优能力,或者通过 Lora 等技术定制自己的模型。
王晓涛:小米在 AI 手机方面的规划主要包括以下几点:
生态战略:小米的最高战略是打造生态,这涉及智能设备和系统的互联互通。我们的目标不仅仅是实现设备的连接,而是实现智能的互联和互联的智能。 模型公共化:我们不会为每个应用单独开发模型,因为这不现实。我们正在考虑如何在系统层面提供公共的模型,供所有应用使用。 系统支持:开发基于 Agent 的系统,以支持手机的各个功能。例如,相机功能可能不再依赖于传统的 SDK,而是利用公共模型来实现。 模型适配:在公共模型的基础上进行调整和适配,以满足特定功能的需求。这可能涉及到使用 Lora 等技术来定制模型。 实时性和效果的权衡:对于实时性要求高的功能,如拍照,我们需要实时响应。而对于相册编辑等对效果要求高的功能,需要在实时性和效果之间做出权衡。 功能优化:考虑如何在已有的公共模型基础上对特定功能进行优化,以提供更好的用户体验。陈晓春:OPPO 最近发布了一份白皮书,阐述了我们的想法。本质上,我们与其他手机厂商在大模型驱动下的战略相似。以下是我们的几个主要方向:
软硬件底层重构:我们正在对操作系统(OS)进行重构,以整合 AI 能力,打造更智能的 A IOS。这涉及到 OS 控件的优化以及硬件与软件的协同工作,特别是硬件在执行大模型运算时的效率、效果和功耗控制。 模型专业化:我们认为模型并非越大越好,而是应该更加专业化。我们专注于将专业领域的模型集成到手机上,并结合 Lora 等技术进行微调,以提高模型的人性化交互能力。 用户应用发展:OPPO 已经推出了一些创新功能,如音频和文本多模态的通话摘要,以及相机上的后期处理功能。我们还在探索教育工具、创作工具、跨模态结合的应用,以及如何将 AIGC(AI 生成内容)更好地融入用户体验。 生态规划:我们的首席产品官刘作虎在发布会上提到了“1+N”的智能体生态规划。我们的核心智能体将内嵌在 OS 中,提供手机设置、服务和调度等功能。我们也鼓励用户通过零门槛的平台开发自己的智能体,以丰富整个生态。 战略实施:我们的策略包括端侧模型的量化、剪枝和高压策略,以及自有应用的迭代,以及与第三方智能体的配合。所有这些都将纳入 AI 手机的整体战略中。未来的手机会干掉 App 吗?
姜雨生:如果 AI 手机如果最终演变为一个超级个人 Agent,那么未来也许不再需要百度谷歌这些搜索引擎/原始 App 了? 在巴塞罗那 MWC 2024 现场,概念手机 T Phone 非常火,这款手机屏幕上干掉了密密麻麻的 APP,只保留了一个类似 ChatGPT 的自然语言交互 UI。各位老师怎么看待这个概念手机?会成为未来的主流方向吗?
陈晓春:最近,MWC 等活动中展示了一些新概念手机,行业内对于手机界面也有很多讨论,比如是否可以根据特定人群的需求简化交互界面。例如,对于盲人,手机是否可以通过摄像头来读取世界信息并提供导盲和导航服务。智能手机从 APP 生态过渡到下一个生态,无论它是否被称为 Agent 生态,都是一个非常漫长的过程。这个过程不是短期内能完成的,而需要以年为单位来衡量。它主要取决于两个因素:一是规模,二是规则,也就是与之前继承的商业模式和新的商业利益的定义。
尽管 APP 生态在供给侧没有太大增长,但其规模依然庞大。用户需求往往指向头部 APP,这些 APP 内部也会产生新的生态,如小程序生态。至于超级 Agent 或新生态的概念,这是一个相对较新的想法。在这两个生态转移的过程中,我认为核心的其实本质上还是用户体验的问题。用户在新的交互模式下,希望得到的是一种全新的交互体验。用户的选择可能会决定未来整个生态的走向。
在未来的几年里,用户的交互请求本身也会定义新的形态。有观点认为用户可能越来越习惯于语音交互,但我个人并不完全认同这一点。用户可能更喜欢通过语音让手机执行任务,但如果手机缺乏视觉交互,它就必须通过类似 Agent 或超级整体生态来请求服务,而且语音交互可能并不是最直观的方式,有时候 10 句话可能还不如一幅图能直接表达意思。
OPPO 一直坚定地认为计算摄影是一个正确的方向,因为很多东西需要通过图像或视频来记录我们的真实记忆和美好生活。手机作为随身设备,其影像功能是一个非常好的耦合点。在这种情况下,屏幕依然是一个非常重要的交互界面,影像模组也是如此。虽然可能会出现更多新的终端类型,但它们可能并不会快速地替代手机这样的终端形态。生态规模转换的核心驱动力在于它能否为用户体验带来革命性的体验和便利。
袁东:我想引用 Midjourney CEO 的话,他说:“在这个时代,硅谷是先相信会有一个超级 APP,然后才会相信会有一个生态。”虽然这只是他个人的看法,但我认为这有一定道理。因为无论我们创造什么样的东西或生态,它必须符合两个条件:第一,它必须符合用户的交互习惯,让用户离不开它;第二,它必须有商业模式,让开发者或内容创作者能够赚钱。
从 AI 带给手机的能力来看,目前我们手机上最常用的两个软件是浏览器和应用商店(APP Store)。微信通过流量整合了浏览器和应用商店的功能,但用户最本质的需求仍然是软件和浏览器。如果用户与 AI 的交互变得越来越顺畅,并且 AI 越来越能理解用户,用户可能会越来越依赖 AI 交互,甚至被 AI“圈养”。就像现在我们在抖音或微信视频号,大部分交互就是滑动和点赞,背后的逻辑是 AI 在帮助推送内容。如果用户习惯了与 AI 的这种交互,那么未来可能对 APP 的交互会减少,尤其是长尾内容的 APP。但问题在于,要增加 AI 对你的理解,需要大量的私有数据,而这些数据大部分存在于长尾 APP 中。这些数据可能会帮助现有的 APP 产生生态,而新的数据可能会存储在下一个生态形态的 APP 中,甚至可能不需要 APP Store 的 APP,因为它们只需要提供服务就行了。
这样的话,具有全局访问能力的可能是系统级别的 APP 或硬件入口。这可能为硬件厂商提供了一个天然的优势。例如,OpenAI 投资了 AI Pin 和机器人,他们认为未来的硬件可能是这样的形态,所以也在寻找硬件入口。目前,虽然我们每天使用最多的是手机,但未来有一天,手机可能并不是最适合 AI 交互的设备。不过,手机和它的生态可能是过渡到下一个时代的桥梁。
姜雨生:有观众提问,未来的手机发展,是否会简化到只有一个屏幕?我们是否不再需要其他软件或硬件,而是通过网络连接到后端服务,比如 AI 引擎,来响应用户的输入(input)并构建提示(prompt),然后生成答案。这样的未来是否意味着我们只需要一个屏幕和一些基本的传感器及硬件,而不再需要其他复杂的设备呢?
袁东:设计始终要以满足用户需求为核心,而用户需求的核心是人机交互。观众提出的问题实际上指向了一个新方向,这个方向已经超越了传统的人机交互,而是人机协同。人机协同是指人和机器共同完成某项任务或协同工作。
我个人的观点是,未来的发展方向可能会有两个:一是智能眼镜的出现,二是纯机器人形态的产品。智能眼镜可以被看作是一种与人自然交互的产品,类似于 XR 交互,而机器人则是人机协同交互的另一种形态。我非常希望这两个方向能在未来的 5 到 10 年内发展起来。但目前来看,由于手机承载了大量私人信息和交互数据,我们不太可能迅速过渡到那个时代。
大模型如何颠覆手机影像、交互体验?
姜雨生:小米此前刚刚推出首个 AI 大模型计算摄影平台“Xiaomi AISP”,由六种模型技术组成,算力可达 60 TOPS,我们是如何平衡功耗和性能的?AISP 检测识别到物体,比如识别到月亮,会不会过度增加细节?以及 AI 增强的细节如何确定保真?还是任意生成?
王晓涛:关于 Xiaomi AISP,我想补充几点。Xiaomi AISP 是一个将大模型与手机影像系统结合的平台。这个结合实际上面临许多挑战,因为大模型在端侧的应用还不是非常成熟。尽管语言大模型在云端表现更好,但要在手机上,尤其是拍照系统中实时运行大模型,这是一个相当高的要求。
这里重点介绍我们解决的两个问题。首先,我们需要开发一个适合拍照系统的大模型。目前,开放的视觉大模型主要基于开放图像和数据,其功能也是开放的。但手机影像处理的图像,尤其是各家手机厂商的主打风格,与开放数据并不一致。手机影像关注噪声、颜色、亮度、动态范围等,而这些可能不是开放任务的关注点。因此,我们需要开发一个适合影像的大模型。
其次,如何将这个模型适配到端侧,实时运行,这对硬件支持提出了更高要求。我们通过几种方式来实现这一目标。一是大模型的小型化,我们采用常规手段如剪枝、量化等。二是与系统紧密结合,比如我们自研了一套高效的异构并行架构,可以充分调度底层硬件的计算资源,并进行并行加速。结合小米澎湃 OS,它提供了更高效的管线管理和数据调度。
在生成问题上,虽然大模型最初用于生成,如文生图,但在影像系统就像一个黑盒子,所以我们尽量控制或压制其生成能力,使其成为一个效果更好的模型。我们通过各种条件限制其生成能力,使其在控制范围内。在一些传统模型效果不佳的场景中,如高倍率、超高倍率的场景,我们会选择性地释放大模型的生成能力,但仍然在控制范围内。这是我们努力的方向,尽管还有很多问题需要解决。
姜雨生:OPPO 在影像上一直是坚定的计算摄影派,提倡用更多计算实现更少计算痕迹。具体是如何平衡生成式 AI 在影像创作中介入的?
陈晓春:OPPO 在计算摄影这一领域采取了相当激进的策略。我们坚信通过更多的计算来消除或减少计算痕迹,以达到更自然的效果。在平衡这一过程中,我们注意到了大模型的兴起,它们确实能够生成许多内容,但在生成过程中也会遇到各种问题。尽管如此,我们还是希望实现单反级别的影像效果,但在手机客观物理尺寸限制下,我们无法通过物理或光学方式达到那样高的品质,尤其是在高倍率放大时。因此,我们在几个方向上进行了尝试。首先,我们希望通过大模型实现 AI 超清合影或高倍率下的人脸检测。我们设定了特定场景,使生成过程更加可控,并在一月份发布的 X7 手机上实现了这些功能。
我们还引入了 AIGC 技术来处理细节,比如眉毛和发丝等细节的表现力。我们能够在端侧模型中完成人脸识别等任务。当然,我们也面临一些挑战,包括在面部肌理和发丝等细节处理上的体验问题。我们正在不断尝试,在高端机型上也实现了端侧的一些功能。未来,我们希望在照片的布景和创意方面进行尝试,探索对布景的识别和语义理解,以便为用户提供更好的优化方向。我们希望在拍摄过程中为用户提供更多选择,使记录变得更好。
姜雨生:从开发者视角来看,在开发适配 AI 手机的应用时需要关注哪些核心要素以确保应用的兼容性和用户体验?对于那些已经在传统手机上运行的应用,开发者在将其适配到 AI 手机上时通常需要进行哪些修改或优化?开发者应该如何准备相关领域的技能?
袁东:对于开发者来说,未来的开发范式将会发生重大变化。传统的开发范式是通过 Studio 和 API 来开发 APP,以 GUI 形式呈现。未来的开发范式将转向 GenAI 开发范式,这大约包括四个步骤:
确定要做的事情; 找到基础模型(foundation model); 在基础模型上进行调整,可以通过 RAG(Retrieval Augmented Generation)、Fine-tuning 等方式; 对模型进行验证,评估其召回率和性能,最后部署模型并进行开发交流。在这个过程中,Prompting 尤为重要,因为它是与模型交互的主要方式。同时,开发者需要具备评估模型的能力,确保模型能够满足要求。随着模型能力的提升,未来可能不再需要 RAG 和 Fine-tuning。
除了使用 GenAI 形式开发,开发者还需要采用 Agent 的思路来开发应用。例如,斯坦福大学模拟小镇的研究,以及 OpenAI 的 GPTs 和流行的 Crew AI 框架,都展示了编码方向的质变。开发者可以通过定义角色和编写 Prompt 来实现应用的协同运作。
IOT 的未来,每个智能终端设备都可能拥有神经网络芯片,例如扫地机器人。生成式 AI 有可能让我们实现跨厂商的交互,跨标准的交流。这也会使 IOT 开发发生变化,IOT 设备从 1 到 N 再发展到 N 到 1,这样的变化可能会促进新的生态形成。因为中心终端设备可以直接通过 Chat 与其他设备进行交互,而不需要遵循特定生态的协议。这可能带来更统一的 IoT 生态。
陈晓春:我非常赞同袁东老师关于 IoT 的观点。在加入 OPPO 之前,我也从事 IoT 生态的工作。遗憾的是,我一直没有看到碎片化问题的解决,反而看到了 IoT 平台的增多而变得更碎片,核心问题在于,物品的语义和人、服务这三者之间的联系并没有被打通。
大模型未来将越来越多地实现跨厂商的交互,跨协议标准的互联,如 TSL(Thing Specification Language)语言,以及各种标准定义组织,如 oneM2M、IEEE-SA 定义的标准等,未来都可以转化成一种语言,被大语言模型理解,最终形成一个统一的生态。
从手机厂商的生态和未来大模型生态的角度来看,手机本身的基于记忆的规划以及智能体的属性,可能是决定未来用户生态入口的关键。我认为,手机可能仍然是一个交互的入口,通过模型技术理解周围事物,最终实现万物互联的愿景。
适配大模型,手机硬件如何再进化?
姜雨生:操作系统层面,要想适配大模型,需要操作系统做出哪些改变?我们在开发 AI OS 时,是否要重新搭建一套 AI 原生的框架?这个过程可能会遇到哪些技术难题?
袁东:去年,vivo 发布了一个全新的自研操作系统,名为蓝河操作系统。我们看到了人工智能通用化(AGI)时代的机遇,并相信会有真正适合这个时代的操作系统出现。蓝河操作系统构建理念着重于安全性、流畅度和智能化这三个核心要素。
蓝河操作系统全面革新了系统、应用、到工具链:通过 vivo 计算加速平台 VCAP 能力实现对推理决策的支持,融合了视觉、语音等算法,基于蓝心大模型能力实现 AI 服务引擎和多模输入子系统,让用户能够用多模态输入输出来模拟人与人的交互方式。
vivo 对图形渲染整个流程及关键模块进行了全新的设计,推出了虚拟显卡解决方案,创新实现了超级渲染树、并行渲染、异构渲染,解决了丢帧、掉帧、帧同步的问题,保障了系统显示始终高效且流畅。并选择了用 Rust 语言,打造高效安全的系统底层,对于前端开发,支持用 JS 语言来构建高效低成本的应用。另外,蓝河操作系统兼容不同硬件体系结构,通过内核抽象层实现了对不同内核的抽象设计,兼容多种 Posix 标准的内核, 支持 Linux 内核,也兼容 RTOS 内核。目前 vivo Watch 3 上用的就是蓝河系统。
应用层则兼容了“快应用”生态。快应用是 2018 年九大手机厂商基于硬件平台共同推出的新型应用生态。用户无需下载安装,即点即用。因为在 AI 时代,交互对象有可能是像 Agent 这样的超级 App。这些 Agent 在进行推理和规划后,可以将任务原子化,而“快应用”不需要安装,具有系统级能力,并且可以以插件形式存在于系统中,可以满足用户的需求。
从底层到上层,我们的目标都是朝着这个方向发展。未来,我们可能会将 AI 神经网络直接植入系统更底层,以更好地监测安全性攻击。我们还在规划和实施一套生成式 AI 的开发工具,未来可能会有更多的功能提供给开发者。
姜雨生:有观众提问,关于增加计算能力是否会导致更高的功耗,以及功耗是否有上限?他们担心高功耗可能会影响用户体验,比如电量消耗过快。
陈晓春:功耗确实是一个重要的问题。我们注意到行业内有一些处理功耗问题的方法,例如通过异步处理,比如在夜间充电时进行相册回忆录生成等计算任务。然而,拍照本身是一个实时的过程,所以我们目前并没有完全放开端侧计算。在端侧计算方面,我们面临两个主要问题:带宽瓶颈和模型传输问题,以及首次加载的效率问题。为了解决这些问题,我们限定了一些特定场景,并针对这些场景进行优化。例如,我们专注于高倍率下的人脸识别和优化,以及对照片细节的处理和优化。通过这种方式,我们试图在功耗和用户体验之间找到一个平衡点。
姜雨生:大模型通常在服务端运行,特别是在云服务上的大型 GPU 集群上。然而,手机的资源是有限的,无论是内存、带宽还是本地存储。因此,在本地运行大模型的能力相对较弱。我们需要考虑在哪些场景下必须在本地运行大模型?
陈晓春:我非常认同袁东老师提到的一个观点,那就是人们总有一些信息是不希望别人知道的。例如,个人的行为序列、日常习惯、密码或生物信息等敏感数据。虽然有各种技术可以保护用户数据,如数据可用不可见等,但用户仍然担心数据离开手机后的安全问题。这可能是用户心理上对端侧计算的必要性的一种体现。
第二,我们确实存在一些弱网或无网环境,这要求设备具有一定的端侧计算能力。例如,早期的高德地图和其他在线翻译软件,尽管现在有了云端服务,但仍然需要端侧的翻译机或把地图下载到本地进行运算。我曾经在泰国的某个岛上经历过没有网络的情况,那时就需要本地计算来帮助交流。
第三,用户需求本身也要求设备具备一定的端侧计算能力。手机的传感器帮助我们感知自己和外部环境。例如,在 AI 时代,我们更多地需要对个人和环境的理解。手机的传感器可以捕捉用户的动作和情绪,以及与手机相连的可穿戴设备可以捕获人体和环境信息,帮助模型更好地理解用户需求。
我持有一种既开放又保守的态度,手机这种形态将会长期存在,我们需要端侧计算。同时,也会有越来越多轻量级、云化的设备出现,它们适用于特定的场景。例如,Magic Glass 可以在早晨刷牙时提供天气信息。手机可能会成为一个功能更全面的端,而其他设备则更轻量级、云化。
姜雨生:软硬件生态层面,适配大模型需要硬件做出哪些改变?AI 技术与现有手机硬件的融合,面临最大的技术挑战是什么?是否会出现全新的资源管理和存算架构?
王晓涛:我想分享一下我们把模型推向端侧的一些实际体验。首先,目前的硬件对大模型的支持确实存在挑战,主要体现在计算能力和存储空间两个方面。这两个问题是我们面临的主要难题。
对于计算能力,大模型是近两年兴起的,它们有一些独特的特性。我们现在的端侧硬件在生产周期上已经定型,是几年前的设计。尽管各大平台厂商都在努力适应或适配大模型,但这些努力主要集中在软件层面。过去一年,我们在端侧运行大模型的速度虽然提升很快,但这些提升主要来自于软件优化和后期调整。从硬件本身来看,尤其是端侧芯片,对大模型的支持并不理想,这是一个棘手的问题。我们目前的策略是让模型适配硬件,即在现有硬件条件下尽可能优化模型。
另一个问题是存储。移动设备的存储空间非常有限,尤其是系统占用和用户可用空间都有明确的标准。大模型的一个显著特点是它们的大小。将一个大模型搬到手机上可能还可以接受,但如果未来需要同时搬多个大模型,对存储的压力将非常大。目前,业界正在讨论是否需要在硬件中加入专门用于大模型存取和计算的独立单元,以避免占用系统资源和用户空间。
这些问题确实影响了大模型与移动端硬件的结合。业界正在讨论解决方案,但由于硬件的生产周期限制,我们可能需要等待下一代硬件才能看到实质性的变化。
陈晓春:硬件研发周期实际上取决于整个算力生态的周期。算力上游的供应商,包括内存厂家、主芯片厂家(SoC 厂家),都需要参与定义产品,这需要一定的时间。目前,我们面临两大问题:
数据传输带宽:在大模型兴起之前,数据在存储和计算之间的传输并不被视为一个大问题。但现在,随着模型变得更大,数据在存算之间传输的需求增加,带宽成为了一个瓶颈。 数值计算问题:这影响到了图像处理和推理速度,尤其是用户对出图速度的容忍度。如果将推理放在云端,加上传输延迟,可能会比在端侧推理更快,这可能会影响用户的使用选择。随着越来越多的模型需要推向端侧,无论是语言模型还是视觉模型,端侧的这两个瓶颈目前还难以短期内解决。不过,业界正在明确方向,比如尝试减小模型大小,进行量化、剪枝等优化,以提高模型在特定领域的推理速度。同时,也在探索如何提高存算之间的带宽,以及如何在图推理方面进行并行计算。总的来说,虽然大家都在努力优化,但根本问题的解决需要一定的周期。
袁东:我想谈谈关于大模型在手机上的应用。首先,无论场景如何,我们需要考虑的是哪些模型最适合手机用户。我相信,无论手机能容纳多大的模型,最强的模型一定会在云端,这是毫无疑问的。但在手机上,最必要、不可或缺的模型可能是安全性模型。因为手机用户需要模型具有实时计算能力。例如,在支付或面对虚假信息时,端侧模型的实时反应对用户来说至关重要。其次,即使手机能够容纳大模型,我们也需要考虑老用户,不能忽视他们。
至于云端的大模型,用户最关心的是生成质量。如果质量不佳,即使是实时的,用户也不会满意。为了好的质量,云端模型的推理成本可能不会太便宜。例如,一些 AI 创业公司训练 + 生成一张图片的成本可能就要一元。需要行之有效的商业模式来提高 PMF。