很疯狂!彭博社消息,根据知情人士透露,苹果公司计划使用更先进的人工智能对其Siri虚拟助手进行全面改革!
Siri将不再局限于目前单一任务的执行,而是可以允许用户通过声音交互控制每个应用程序的单个功能。
看来,在隐私方面一向保守的苹果,在数据安全与AI至上的天平中徘徊了许久,终于找到了平衡中的解决之道——新系统将首次允许Siri接管应用程序内的所有功能。
这一革命性的变化需要使用LLM来重新设计Siri的基础——这是生成性AI背后的核心技术,他们表示,这将是苹果在AI领域新推力的亮点之一。
未来,Siri不再只能帮用户定个闹钟。而是可以做一系列连贯的任务。例如,要求Siri总结一个录制的会议,然后将其作为文本发送给同事。或者iPhone理论上可以被要求裁剪图片,然后将其通过电子邮件发送给朋友。或者打开某个外卖APP帮用户下单特定的食物作为午餐……
有网友兴奋地表示,如果苹果能做到的话,我觉得AGI就要来了——能在成千上万的应用中执行日常的任务,怎么不算通用智能呢?
图片
1.全球开发者大会公布“进化版”Siri
Siri新系统将允许虚拟助手以更高的精确度控制和导航iPhone或iPad。
新的功能将让iPhone成为AiPhone:使用AI分析人们在设备上的操作,并自动启用Siri控制的功能。最初将限于苹果自己的应用程序,公司计划支持数百种不同的命令。
这包括能够打开单个文档、将笔记移动到另一个文件夹、发送或删除电子邮件、在Apple News中打开特定的出版物、通过电子邮件发送网页链接,甚至要求设备对文章进行摘要。
目前,Siri还主要限于播放音乐播放列表、查找信息或控制智能家居设备等更广泛的命令。该公司还向开发者提供所谓的应用程序意图,允许他们为Siri创建访问单个功能的途径。2018年,苹果还推出了Siri快捷方式,允许用户手动为应用程序功能创建命令。
Siri的升级是公司更大AI战略的一部分,该战略将在6月10日的全球开发者大会上公布。苹果正在准备包括语音备忘录转录和摘要、网站和通知的快速概述、自动消息回复、高级照片编辑和AI生成的表情符号在内的多项功能,彭博社报道。
2.AI和安全,苹果都想要
重视数据安全使得苹果的AI之路一度非常保守。
在为Siri计划升级时,它们准备了一个系统,以使用AI自动确定一个功能应该在设备上处理还是通过云处理。
总的逻辑上,苹果选择将更基本的AI任务将在设备本身上处理,而更高级的功能将通过云计算来处理。
该公司还一直在与OpenAI达成协议,将这家初创公司的聊天机器人和其他技术整合到iOS操作系统中,并且它仍在与谷歌的母公司Alphabet Inc.谈判,计划将来使用其Gemini软件。苹果软件主管克雷格·费德里吉告诉他的团队尽可能为今年的操作系统更新开发新的AI功能。
不过,这还是引发了一些对隐私问题的关注。虽然设备上的任务不会共享个人信息,但基于云的方法将需要将一些用户数据转移到远程服务器。该信息将由高端苹果Mac芯片中的所谓Secure Enclave保护,这些芯片为数据中心提供动力。
此外,苹果将尝试通过创建一个“智能报告”来进一步向客户保证他们的数据是私密的,该报告解释了信息是如何被保护的。iPhone制造商也不会建立客户档案——它批评谷歌和Meta Platforms Inc.这样做。
3.苹果的卧薪尝胆
苹果从未停止过在AI领域的探索,或许我们可以从已有的成果中,勾勒出未来Siri的草图。
- MM1
https://machinelearning.apple.com/research/mm1-methods-analysis-insights
MM1是一个多模态模型家族,参数高达30B,包括密集模型和专家混合(MoE)变体。
- MGIE
https://github.com/apple/ml-mgie
研究如何通过多模态大语言模型(MLLMs)促进编辑指令,并提出了 MLLM 引导的图像编辑(MGIE)。
- LLM in a Flash
https://arxiv.org/pdf/2312.11514
研究在内存受限的设备上高效运行超出可用DRAM容量的大型语言模型(LLMs)的问题。
- Ferret
https://github.com/apple/ml-ferret
理解图像中任何形状或粒度的空间指代,并能准确地将开放词汇描述落地。
Ferret模型的引入可能会使得手机中的虚拟助手在视觉理解和交互方面有显著的性能提升。
- Realm
https://arxiv.org/pdf/2403.20329
解决如何利用大型语言模型(LLMs)有效地解析各种类型的引用,尤其是非对话实体。
如果一个用户在使用一个应用程序时与智能助手交谈,他们可能会提到屏幕上显示的某个按钮或选项,即使这个按钮并没有在对话中直接被提及。在这种情况下,智能助手需要能够理解用户所指的"按钮"是指他们屏幕上的特定非对话实体,并据此提供适当的响应或操作。
- FerretUI
https://arxiv.org/pdf/2404.05719
Ferret-UI模型的引入可能会使手机中的虚拟助手在理解用户界面、执行指令、处理复杂任务方面与用户进行更加有效的交互。
- OpenELM
https://machinelearning.apple.com/research/openelm…
通过公开模型的完整框架,包括训练和评估代码、日志、检查点和预训练配置,可以确保虚拟助手背后的算法更加透明,有助于研究人员和开发者理解和复现结果。
随着Siri的升级,苹果希望重振一个落后于竞争对手服务的开创性产品。该公司于2011年首次推出Siri,为其在基于语音的接口和AI方面提供了领先优势。但苹果很快将这一领先优势输给了亚马逊公司的Alexa和谷歌助手。然后在两年前生成性AI聊天机器人出现时,它又措手不及。如今,苹果计划通过引入更先进的人工智能技术,彻底改革Siri,使其能够控制应用的各个功能,借此将其虚拟助手推向新的高度。
参考链接:
1.https://www.bloomberg.com/news/articles/2024-05-30/apple-ios-18-siri-ai-update-will-let-users-control-features-in-apps-with-voice?srnd=technology-ai
2.https://x.com/maxxrubin_/status/1797417653122027725?s=46&t=KxYfPIc0aizUawD67ZIUfw