尽管消费者对 AI 手机、AIPC 的感知大都停留在概念阶段,但当苹果高调宣布要加入其中,整个行业和消费者同样会抱有不小的期待。
如同去年 WWDC 亮相的 Vision Pro,头显行业都期待着苹果能完成一轮市场教育,打开新的局面。对于目前还饱受争议的 AI 设备而言,一家巨头加入的积极意义或许远大于竞争的威胁。
彭博社记者 Mark Gurman 早早放出风声——苹果紧锣密鼓地开发一系列 AI 功能,并计划将它们整合进 iOS 18 操作系统中。
从以往苹果守口如瓶的程度来看,纵使外界风声四起,苹果具体的 AI 解题思路往往不到发布会的最后关头都不能一锤定音,不过,这不妨碍我们从苹果近期的动态中捕捉到一些蛛丝马迹。
近期,苹果发布的一篇大模型论文就向外界展示了苹果在 AI 领域的最新进展。
通过 ReALM 技术的应用,Siri 现在能够实时理解并识别用户屏幕上的内容,而无需依赖敏感的屏幕截图或图像数据,在提升智能之余,也充分保障了用户的隐私安全。
设想这么一个场景,当你发出指令「打开我屏幕上第一个 APP」,Siri 就能借助 ReALM 技术将屏幕上的元素和布局转化为文本信息,并据此执行用户的命令。
简而言之,就是你手机上的 Siri 将变得越来越聪明,也越来越懂你。
Siri 十三年漫漫「聪明」路
在变得「聪明」的这条道路上,Siri 已经走了十三年了。
十三年前,你会惊叹于 Siri 的新鲜感,用它来设定闹钟,查看当天的天气,仿佛一个全新的人机交互时代正在向你挥手致意。
十三年后,你还是用它来设定闹钟,查看当天的天气,只是失望情绪取代了当初的新鲜感,像极了望子成龙、望子成风却又恨铁不成钢的父母。
2024 年:人工智能取代程序员/艺术家等
2024 年的 Siri:抱歉,我没听懂你的意思即便是 Siri 最忠实的拥趸——史蒂夫·乔布斯本人也未曾预料到,Siri 出走半生,归来仍是少年。可能很多人不知道的是,和 iTunes 一样,其实 Siri 也是苹果用真金白银买来的。
2010 年初,乔布斯向「Siri 之父」的 Dag Kittlaus 拨出了一通电话。一次长达三小时的会谈过后,在乔布斯的一力促成下,Siri 同年四月就被苹果收入麾下。此后, Siri 便通过苹果「全家桶」渗透到千家万户,成为苹果品牌史上不可磨灭的标志性符号。
如同当年风靡一时的《水果忍者》让人们逐渐熟络了触控屏体验,Siri 的普及不仅引领了一种全新的交互方式,更是一种生活习惯的变革。人们开始习惯于用自然语言与机器进行交流,用语音指令来简化日常任务。
语音控制只是交互形式的变革,2011 年的苹果对 Siri 的推出抱有巨大的野心和期望。
苹果不仅仅将 Siri 视为一个简单的语音助手,而是看作一个能够理解用户需求、并解决帮助问题的智能伙伴。正如苹果营销主管菲尔·席勒在发布 Siri 时所描述的那样:
通过语音指令就能帮助你搞定事情的智能助手。
而这一点,在未被苹果收购前的最初版的 Siri 身上,就已经有所体现。
在 Dag Kittlaus 等人的构想中,Siri 应该是一个能够迅速而精准地获取信息的助手,一个能够熟练处理各种复杂任务的智能助理。
古早版 Siri 能够与 42 个网络服务进行连接,涵盖了从 Yelp 的餐馆点评到 Rotten Tomatoes 的电影评价,以及 Wolfram Alpha 的数学计算等多个领域。
通过整合这些网站的信息,Siri 能够以文本的形式为用户提供一站式的服务体验。
Siri 联合创始人 Norman Winarsky 曾强调,Siri 最初的目标正是理解用户的意图,提供精准的答案,并代表用户去执行那些任务。在执行过程中,Siri 会收集数据,以便在未来提供更加精准的服务。
我们需要的不是一个搜索引擎,而是一个执行引擎(do engine),这就是我们的创意突破口。
这个产品能像真人一样和你互动,我们把这叫做「拟人化」,像一个友好周到的助理。
苹果接手之后,Siri 也的确一度沿着智能助理的发展轨迹稳步前行。它不仅能够流畅回答用户的询问,还能过语音交互执行一系列日常任务,如设置闹钟、发送信息、查询天气等。
在《生活大爆炸》的第五季中,印度裔科学家 Raj 对搭载在 iPhone 4S 上的 Siri 一见倾心。这种单方面的「爱情」也是基于 Siri 和 Raj 进行简单的交流所展现出基础语言理解能力。
因此,在 Siri 问世之初,国外科技媒体对其评价也是压倒性的看好。
The Verge 曾强调,Siri 最牛的地方在于它的工作原理——至少在很多场景下,它的水平都超出了用户的预期。CNN 形象地将 Siri 比作「我们梦想中的智能助理」,随叫随到。《纽约时报》也不吝赞美之词,指出 Siri 通过节省时间,减少冗余操作,深刻重塑了手机的定义。
历史的步伐,不总是按照既定的节奏前进,有时兜兜转转都未必找到前进的韵律。
正如你让 Siri 往东,但它偶尔也会向西一样,新鲜感构成了用户对 Siri 的「乍见之欢」,但停滞不前也造就了用户的「久处而厌」。
苹果 Siri 首次登场的第二天后,乔布斯因癌症而不幸去世,给 Siri 的发展之路笼罩上一层难以驱散的阴霾。一位苹果前员工在接受 The Information 的采访时不免感叹道:
jobs(乔布斯)在 Siri 推出后的第二天就去世了,苹果也由此失掉了前进的方向。
此外,苹果高管团队的频繁更迭、公司内部派系的争斗也对 Siri 的顺利发展造成了不小的影响,在之前的文章中,APPSO 也曾分析过 Siri「变笨」的原因。(https://mp.weixin.qq.com/s/7oDXkASTZgGIjKJaFWPLkQ)
内外因素的夹击之下,一出道即是巅峰的 Siri 的发展步伐也逐渐放缓,从以往的「学霸」逐渐沦为现在的「学渣」。
Siri「聪明」的终点,也是起点
听说苹果 Siri「倒退」了?还有这种好事!
ChatGPT 的一夜蹿红,向世人展示了大型语言模型(LLM)在语言理解、生成、交互和推理领域的出色表现,也使 Siri 有机会回到起点——成为一个能够真正理解并响应自然语言的智能助理。
不久前,「Siri 之父」Kittlaus 也在 X 上分享了自己对 AI Siri 的设想,并列举了一系列应用场景。
Siri,当 Chris Malinchak 发布新歌时,你能提醒我,并让 Spotify 将其添加到我的「Chill Beats」文件夹吗?
Siri,请周二和周四早上 7 点、其他工作日早上 8 点叫醒我。周末除非在我的日历上看到早上的约会,否则不要打扰我;如果有早上的约会,请及时叫醒我。2024 年,苹果要在生成式 AI 领域大展拳脚,而 Siri 可能是最重要的交互载体。
在此前的财报会议上,苹果 CEO 库克一反常态地对外界透露,公司 2024 年将在生成式 AI 领域「开天辟地」,甚至在多个场合强调,苹果将在今年晚些时候公布关于生成式 AI 的重要消息。
比起苹果十年造车,一朝梦碎的消息,更引人注目的是,苹果原先负责造车项目的部分员工将被重新分配生成式 AI 项目的研发。
苹果在生成式 AI 的投入也不惜血本。作为世界上市值最高的企业,财大气粗的苹果主打的就是买买买,通过收购来加速技术的积累和创新的步伐。
据市场调查机构 Stocklytics 公布的最新报告,苹果在 2023 年一口气收购了 32 家 AI 公司,位居主要科技企业收购排行榜榜首。
同时翻开苹果机器学习团队最近一年来的研究论文,我们可以清晰地看到,苹果极度重视端侧设备上运行大模型的可行性。
今年 1 月,苹果的机器学习团队在新发表的论文中,深入探讨了一种可以解决「在手机内存上运行大模型」的方法,为解决移动设备上的计算瓶颈提供了新的技术思路。
开头提到的那篇论文中,苹果的研究人员也宣布,尽管 ReALM 的参数规模更小,但在某些关键指标上,它的表现甚至比 GPT-4 更胜一筹。
那么 AI Siri 究竟会以哪种形式呈现在我们眼前?在 WWDC 2024 到来之前,我们或许可以从 Android 阵营这边得到一些启发。
去年 8 月份的 HamonyOS 4 发布会上,余承东宣布智慧助手小艺接入 AI 大模型的能力。紧接着,雷军透露小米已经在手机上跑通了 1.3B 参数的大模型,部分场景效果可媲美云端。
国内手机的「御五家」一个也没落下。基于 AndersGPT 的 OPPO 小布助手,搭载 7B 端侧 AI 大模型的荣耀 Magic 6、搭载蓝心大模型矩阵的 vivo 也陆续官宣。
得益于大模型的加持,这些语音助手在文案生成、图片绘制等方面让人眼前一亮,但相较于以往的语音助手在应用场景上并没有什么不同。
AI Siri 要想重塑初心,成为真正意义上的智能助手,起码得满足以下几个基本条件:
首先,变得更聪明,即通过大模型技术提升其自然语言处理能力;其次,采用语音优先界面,优化用户的交互体验;再者,打通所有应用的孤岛状态,实现数据和功能的无缝整合,让 Siri 成为一个真正的全场景智能助手。
上述三个条件,单拎任何一个出来虽绝非易事,但也有一些行业先行者的经验可供借鉴。
在生成式 AI 的赛道上,最快的捷径有时是携手同行,前不久,便有消息传出,「掉队」的苹果正在与 Google、OpenAI 等公司就生成式 AI 服务整合到 iOS 18 展开谈判。
比起「听清楚你的语言」,「听懂你的意思」才是语音交互的主要障碍。就连乔布斯生前也觉得这是一件棘手的事情:
语音识别是未来 10 年里挺美好的一个课题。它面临的问题其实不单单是如何识别语音。当你和别人说话时,能够懂得对方的语言比单纯识别出语音要难得多。
……这件事情挺难的。所以在我们解决它之前,你也只能憧憬着这个美好的未来了。
如何能够在各种噪音和复杂环境中准确响应用户的唤醒需求,如何从语义理解到记忆理解的转变,让 Siri 能够记住并分析用户的语境、上下文,提供更加智能化的服务和建议,正是 Siri 在智能化道路上迈出的关键一步。
而这些恰巧都是当下的 AI 硬件们所擅长的地方。
至于打通应用之间的壁垒问题,软硬件交织的融合尚在其次,在当前的应用生态中,诸如数据共享与隐私保护等问题才是横亘在苹果面前的拦路虎。
十三年前,人们或许会为体验 Siri 而购买 iPhone,那时的 Siri 不仅仅是一个功能,更代表了一种全新的交互方式,一种探索生活未来方式的媒介。
十三年后,褪去昔日光环的 Siri 从一个创新焦点逐渐变成了普通的附加功能,甚至在某些用户的生活中变得可有可无。
在大模型技术的加持下,从冰冷的点击和敲击转变为温暖的语音交流,我们期待的 Siri 不仅仅是一个智能系统,而是一个能够理解我们的语言、情感和需求的全面伙伴。
这样的 Siri 将会为我们提供更加个性化、更加贴心的服务,也让技术的使用变得更加人性化,更加充满温度。