近日发表的一篇论文显示,公司的研究人员正在探索是否有可能使用人工智能来检测用户何时对 iPhone 等设备说话,从而消除对 Siri 等触发词的技术需求。
在一篇未经同行评审的预印本中,研究人员训练了一个大型语言模型,训练所使用的声学数据,来自智能手机所捕获的语音和背景噪声,借此试图从中寻找用户通过语音唤醒设备的规律。
研究人员表示,该模型中的一部分是用 OpenAI 的 GPT-2 构建的,“因为它相对较小,有可能在智能手机等设备上运行”。
该论文指出,训练模型所用的数据包括超过 129 小时的声音数据,以及额外的文本数据,但没有给出这些数据来自哪里。
七位作者中有六位列出了他们与的关系,其中三位的 LinkedIn 资料显示,他们在 Siri 团队工作。而第七位作者在该公司实习期间做了与该论文相关的工作。
该论文称,研究结果很有希望。与纯音频或纯文本模型相比,模型能够做出更准确的预测,并且其性能会随着模型尺寸的增大而提升。
除了探索这个研究问题,目前还不清楚是否打算取消“嘿 Siri”这个经典的语音助手触发短语。
该公司和论文作者都没有立即回复置评请求。
目前,Siri 可以短暂地保存少量音频,但在听到触发短语之前不会开始录制或准备回答用户。
美国斯坦福大学“以人为本”人工智能研究院的隐私和数据政策研究员简·金()说,移除“嘿 Siri”触发词可能会增加人们对电子设备“总是在监听”的担忧。
此前,处理音频数据的方式曾受到隐私倡导者的审查。2019 年,《卫报》的报道显示,该公司的质量控制承包商在处理 Siri 数据时,经常听到从 iPhone 收集的私人音频,包括医生和患者之间的敏感对话。
两年后,该公司做出了政策改变,包括在设备上存储更多数据,并允许用户选择不允许他们的录音被用于改进 Siri。
2021 年,一场针对该公司的集体诉讼在美国加利福尼亚州提起,指控 Siri 即使在未激活的情况下也会被打开。
(来源:中国官网,图文无关)
表示,“嘿 Siri”提示词对用户来说十分重要。其在接受《麻省理工科技评论》采访时表示,这些提示词让人们了解设备何时在听,去掉这些激活词可能意味着便利性的提升,但降低了透明度。
这项研究没有详细说明,触发词是否会被任何其他信号所取代。
她说:“一家公司是否应该强制实施这种形式的互动,我对此持质疑的态度。”
最近的一系列信号表明,计划在其产品中加入更多的人工智能技术,该论文是最新信号之一。该公司被认为在人工智能竞赛中落后于其他科技巨头。
根据 VentureBeat 报道,该公司正在构建一个名为 MM1 的生成式人工智能模型,该模型可以处理文本和图像,这将是该公司对 ChatGPT 和其他科技巨头的聊天机器人的回应。
与此同时,彭博社报道称,该公司正在与就在 iPhone 中使用该公司的人工智能模型 Gemini 展开对话。此外,《华尔街日报》还报道称,已与就使用该公司的人工智能产品进行了对话。
支持:Ren
排版:希幔