苹果说到做到,一夜间,iPhone果然被AI重塑!
长达一个半小时的WWDC大会,主题就是AI、AI、AI——
从iPhone、iPad到Mac,无不被生成式AI覆盖。横空出世的Apple Intelligence,让苹果全系产品有了史诗级升级。
图片
现在的整个苹果全家桶,都会用上GPT-4o,Siri还能随时召唤ChatGPT。
硅谷各家大科技公司的大模型发展得如火如荼,苹果能做什么?库克的这句话揭示了答案——「LLM等AI突破,让我们有机会把苹果产品的体验推向新的高度」。
你们做模型,我们做产品,的确是苹果一贯擅长的赛道。
图片
而且,对于大家普遍担忧的安全问题,苹果也有解:通过苹果强大的自研芯片,普通大模型在设备端运行,太大的大模型就放到云端。
而苹果专门打造的私密云计算技术,也保障了我们的隐私和安全,我们的数据就连苹果都无法访问。
被Apple Intelligence加持的Siri,也彻底改头换面,全面逼近苹果让它「自由穿梭于系统中,随时听我们调遣」的愿景。
图片
此外,除了Vision OS的重大更新之外,库克的这个消息也让中国用户激动不已:Vision Pro将于6月28日登录中国市场,本周五开始接受预定,价格29999元起!
图片
网友:苹果AI满足了我的所有想象
有中国网友评论说:太牛了,Apple Intelligence真的满足了自己对AI在设备上的所有想象,不愧是苹果。
图片
以前是Artifical Intelligence,如今就是Apple Intelligence了。
图片
对于iPadOS 18的数学笔记功能,很多人都表示这太狂野了!
图片
关于计算器应用终于登录iPad这一史无前例的事件,网友们表示万分激动。
图片
OpenAI创始成员,AI大牛Karpathy对于苹果的这次更新也称赞不已:「我们正在进入一个打开手机就可以说话的世界。它可以和你对话,而且它认识你。这实在太令人兴奋了!」
图片
Karpathy总结了这次苹果发布会的几大主题:多模态输入/输出、智能体、无摩擦、主动、分级售授权、模块化、隐私
还有人给这次苹果的所有更新做出了一张bingo游戏图。
图片
Apple Intelligence:不仅个人化,而且懂你
苹果的目标,就是为全球10亿用户构建强大的个人化产品。
而近期生成式AI和LLM的发展,直接给苹果产品使用体验的全新升级带来了可能。
苹果对于产品的核心原则是: 足够强大,在最要紧的事上都能帮到用户;直观易用;深度整合到产品的使用体验中;它必须足够「懂你」,以你的个人情境为基础;而且,还要注重保护隐私。
如果这些原则都能满足,那它绝不仅仅是AI了,而是一种「个人化智能」。
而符合全部这些条件的Apple Intelligence,就在昨晚闪亮登场了!
为了这一刻,苹果已经准备了许久
这个全新的个人化智能系统,能让我们手中的个人化产品更实用、更称心。
市场上已有的AI聊天工具虽然好,但有一个通病:很少充分了解用户,因而也不理解我们的需求。
而苹果,要改变这一切。Apple Intelligence,会让即将到来的iOS 18、iPadOS 18和macOS Sequoia,彻底脱胎换骨!
Apple Intelligence,将强大的生成式模型置于iPhone、iPad和Mac的核心,能够根据我们所处的个人情境,来提供协助,而且深度整合在了所有的APP中。
能力
Apple Intelligence,可以让我们的iPhone、iPad和Mac理解、生成语言和图像,还能代替我们跨多个app交互,简化操作过程。
它最亮眼的地方,就在于理解我们的「个人情境」。
自然语言
Apple Intelligence中内置的LLM,能深刻理解自然语言。
比如,iPhone可以为通知设定优先次序,从而为我们减少不必要的干扰,同时又能不错过重要的信息。
它还会驱动一个全系统适用的全新书写工具,让我们写起东西来更从容。
它能帮我们重写、校对,还能提取文字摘要。
在它的帮助下,我们无论是写文章、发帖,还是提炼想法分享给他人,过程都会无比丝滑(甚至还能帮我们检查要发在网上的评论)。
同时,它还自动支持邮件、备忘录、Safari浏览器、Pages、Keynote,甚至第三方APP。
图像
Apple Intelligence还包含多种图像功能,从照片、表情符号到动图。
甚至,它还能让我们完全自创图像,让我们的日常对话更有趣。
更有趣的是,因为它认得我们照片图库中的人物,我们可以把他们的图像个性化,用到对话中。
比如,给朋友送上生日祝福时,我们可以生成ta的图像,用蛋糕、气球和花朵点缀起来。
生成的图像,有素描、插图、动画三种风格可选。
更让人惊喜的是,这些功能在系统中所有app都可用,包括Notes,Freeform,Keynote,Pages等等。
图片
跨app操作
Apple Intelligence的另一个特点,就是还能跨app操作,这无疑会带来深远的影响。
它所需工具的各种资源,就在我们自己的口袋中——这些常用的app里。
苹果设计的Apple Intelligence,能随时取用这些工具,代我们执行各种操作。
图片
我们可以直接向它开口:「调出上周Joz发给我的文件」,或者「给我看看所有妈妈、Olivia和我的照片」「播放前几天我太太发给我的播客」等等。
Apple Intelligence,会实现数百种此类操作。
图片
个人情境
顾名思义,个人化智能最关键的要素之一,就是要深刻理解我们的个人情境。
而Apple Intelligence的运作,正是基于我们的个人信息都和情境之上的。
它能从我们的各种app中,检索和分析相关程度最高的数据,还能参考我们屏幕上的内容,比如我们正在查看的邮件,或者日历日程。
图片
在日常生活中,这个功能可太有用了!
比如,我有一场会议改到了傍晚,我想知道开完这场会后,是否还能赶上女儿的演出,直接问Apple Intelligence就可以了。
因为它知道我女儿是谁,她几天前发来的演出详情,我这场会议的时间地点,甚至还能预估我从公司到剧院的交通情况。
图片
架构
这个个人化智能系统的基石,就是设备端处理。
要实现这项功能,就离不开苹果软硬件整合,以及强大的芯片。
提供支持的芯片,包括A17 Pro,以及M系列芯片,它们为Apple Intelligence提供了坚实的算力基础。
图片
它内置了设备端的语义索引,可以整理和提炼各种app中的信息。
我们提出请求,Apple Intelligence就会同通过语义索引,识别相关个人数据,然后传给模型,让它们根据个人情境更好地协助你。
图片
这个过程中用到的大多数模型,都能在设备端运行。
然而有的模型,会大到无法放进随身携带的设备,怎么办?
答案就是——服务器。
不过这里依然有一个问题,在传统的做法中,服务器会储存我们的数据,在我们不知情的情况下使用这些数据。我们却无法对之验证,因为服务器软件只有所有者才能访问。
而苹果的做法,彻底断绝了这种可能!
我们能全权掌控自己的数据,包括在哪里储存、谁能访问。当iPhone上的隐私和安全保护功能扩展到云端,我们就能解锁更多智能功能了。
为此,苹果打造了私密云计算技术。
图片
它不仅能扩展自身的计算能力,还能引入更大的基于服务器的模型,来处理更复杂的请求。
而我们的隐私也会得到保护,因为我们的数据绝不会被存储,连苹果都无法访问。
体验
Apple Intelligence强大的语言理解功能将落地为写作助手(Writing Tool)。
作为操作系统的内置AI,写作助手不仅可以用在手机自带的短信或邮件中,也同样支持所有需要输入的第三方应用。
邮件中有了自带的校对功能,可以一键查看修改建议,并能直接看到所有词语的释义。
写邮件时,再也不需要一遍遍复制粘贴到其他应用的界面了,苹果一夜之间就抢了Grammarly的看家生意。
图片
不仅是文本校对,Writing Tool也同样提供多样化的改写功能。
它可以同时在文中生成多个改写版本供你选择,也能随时回滚到原始版。
图片
此外,用户还能和Writing Tool进行个性化交互,定制自己的改写需求,比如改变文体、文风、语气等等。
想要发一封有文采的邀请函?Writing Tool可以瞬间帮你把现有的平常文字改写成一首诗。
图片
或者一键在友好、专业、简洁等三种文风间切换,丝滑适应不同身份的收件人。
图片
谷歌都有了网页内容的摘要,苹果又怎么能落下。这不邮件的摘要功能就出来了,拯救所有不想读长邮件的打工人。
图片
邮件太多懒得回?Writing Tool也帮你想好了对策。
Smart Reply功能可以自动理解邮件的上下文内容,并自动为你生成一堆选择题。
只需要点击几下选出自己的答案,就能生成一份智能回复,连打字都省了。
图片
Siri
13年前,Siri首次问世,作为曾经首屈一指的智能语音助手曾经掀起巨大热度。
如今,繁忙的Siri每天需要处理15亿次语音请求。而它离苹果「自由穿梭于系统中,随时听我们调遣」的愿景,也更近了一步!
在Apple Intelligence的加持下,Siri变得更自然、更贴合语境了,因此也变得更加贴合我们。
如今当我们和Siri对话时,它和系统的整合会更深入。当它运行时,优雅的光晕会环绕着屏幕边缘。
图片
我们和Siri的对话也可以更自然,因为它能理解更丰富的语言。即使说话不连贯,它都能理解我们的意思。
比如问它:明天缪尔海滩是什么天气,不对,是缪尔森林。
它会清晰地理解你的意思,并且给出正确的回答。
图片
即使我们在提问中停顿,思考一番,Siri依然能跟上我们。
在对话中,Siri还能联系上下文。比如我们接着上面说「创建日历日程,明天上午9点去那里徒步」,它立马正确地理解「那里」指的是哪里,完成了指令。
图片
如果我们不想跟Siri大声说话,现在可以直接给它打字了。
只要在屏幕下方快速轻点两下,就能让Siri快速设好闹钟,整个过程悄无声息。
跟Siri交流的过程中,我们可以在文字和语音中随时切换。
而且,现在Siri掌握了大量关于功能和设置的信息,能回答数千个问题,关于如何在iPad或Mac上进行操作。
图片
即使我们不知道某项功能的确切名称,只需要口头描述一番,Siri就能帮我们找到了!
比如直接问它:「我想现在就写好信息,然后明天发送,该怎么做?」
Siri完全明白我们说的是哪个功能,还提供了分步说明。
图片
Apple Intelligence还会为Siri带来屏幕内容感知功能,这样,它就能理解屏幕上的内容,执行相应的操作。
比如朋友发消息告诉你ta的新地址,你可以直接在信息对话中说,「把这个地址加入ta的联系人名片中」。
图片
当然,Siri也可以完成跨app操作。
比如我们可以说:「让我看看Stacey在纽约穿着粉色大衣的照片」,Siri就会把它们找出来,然后还能按照我们的指令开始修图。
图片
然后,我们还可以让Siri把这张照片加到备忘录中Stacey的简介里,它就会从照片app跳转到备忘录app中,来完成操作。
这些增强功能,也并不限于苹果开发的APP。
比如,我们可以让Siri用Moment的Pro Camera,来拍摄光轨的视频。
图片
也可以让Siri把我们备忘录里的会议摘要,分享到我们在Superhuman中给大家写的邮件里。
下面的这个功能,就更酷炫了!
通过为照片、日历日程、文件等创建语义索引,再加上往来消息和邮件的信息,比如预定酒店、音乐会门票的PDF文件、朋友分享的链接等,Siri能发现和理解的内容范围,将远超以往。
如果我们忘了资料是在邮件、信息还是在共享备忘录里,Siri都能解决。比如我们需要找到朋友之前推荐的书单,或者是填表时需要驾照号码。
图片
假如我们打算去机场接妈妈,Siri能直接帮我们规划时间。
它能同时参考妈妈在邮件里写的航班详情,以及航班的实时动态,为我们提供最新的到达时间。
而在和妈妈的闲聊中,她提到过中午订了餐厅,我们就可以直接问Siri去那家餐厅需要多久,完全不必在邮件、信息和地图中跳来跳去了!
如苹果所说,今年将成为Siri新纪元的起点。
苹果「全家桶」用上GPT-4o
以上所展示的苹果AI能力,仅是一个「起点」。它能够以极为独特的方式理解你、尊重你、支持你。
未来,苹果还将带来超多的实用功能,比如备忘录中的录音和转写功能。
图片
它能够帮你更详细地记下笔记,专心听讲,完全可以替代GoodNotes、Notability这类的学习工具。
录音/转写完成后,苹果AI还能帮你总结摘要,扫一眼便能抓住要点。
图片
与此同时,录音/转写和苹果AI结合的能力,同样适用于电话应用。
当你实时通话的时候,开启录音,所有的参与者都将会收到通知,并且通话结束后苹果AI也会生成一段摘要。
图片
Siri召唤ChatGPT
对于一些非常有用的外部AI工具,比如擅长处理某些需要广博知识,或者专业特长的任务,苹果直接将其模型纳入体验之中,而无需来回切换工具。
当然,这个工具就是行业的翘楚、市场的开拓者和领头羊—— ChatGPT。
苹果AI将用上全新的GPT-4o能力。
首先,Siri可以借助ChatGPT的专长,随时为我们所用。
比如,你想用刚钓的鱼,和自家种的菜为朋友准备一顿丰盛的大餐时,可以找Siri给些灵感。
Siri便会问你,是否召唤ChatGPT,然后直接为你呈上最丰富的答案。
图片
而且,问问题时,你还可以上传一张照片。比如,询问如何家装的建议,拍张照片然后问「这个露台种什么植物好看」?
Siri会首先确认是否会向ChatGPT分享照片,然后才会为你找寻点子,整个过程完全就是一气呵成。
图片
除了照片,你还可以询问关于文档、演示文稿,或者PDF中的相关问题。
另外,苹果AI还借用了ChatGPT的编写能力,将其融入所有系统中适用的书写任务中。
假设你想为擅长解谜的6岁女儿写一个睡前故事,初步构想是「她来到了梦幻的蝴蝶童话王国。她和一只毛毛虫成为了好友,并帮它克服重重困难,最终变成了一只蝴蝶」。
只见,ChatGPT不一会儿功夫完成了一个Annie喜欢的小故事。
图片
甚至,你还可以选中所有内容,让ChatGPT为其生成一副插画。
图片
以上所有能力,无需注册ChatGPT,便可免费使用。
对于那些订阅ChatGPT的用户们,也可以关联自己的账号,可以在使用苹果AI过程中接入付费的能力。
不过,苹果再三强调,我们的请求和个人信息不会被记录。何时使用ChatGPT,都是你说了算,再分享任何信息之前,都会征求用户的许可。
ChatGPT也将集成到这次所有更新的iOS 18、iPadOS 18、macOS Sequoia系统中,并在今年晚些时候推出。
未来,其他先进的AI模型的能力,也会集成到苹果AI之中。
不出所料,苹果AI能力仅限在iPhone15级别的手机上使用,不过对于iPad、MacBook还比较友好些,能够兼容M1芯片及以上的硬件。
图片
马老板怒了,禁止全员使用苹果
ChatGPT在苹果全家桶中无缝集成能力虽炫酷,却遭到的全网非议。
最先反对的就是马老板!
他连发多篇帖子,对ChatGPT上机苹果表示不满,甚至扬言禁止公司所有成员使用苹果的设备。
图片
我不想要这个能力。这就如同间谍软件一般,如果你们不阻止,我的公司将禁止使用任何苹果设备。
图片
另外,马斯克还单独发帖子称:
「对于公司的外部来访者,都必须在门口将他们的设备放在「法拉第笼」(Faraday cage)中」。
图片
苹果没有能力开发AI,却能够确保OpenAI会保护你的安全和隐私。一旦苹果将你的数据交给OpenAI,他们就不知道OpenAI究竟会如何处理这些数据,他们实际上是在出卖你的隐私权。
图片
图片
也有众多网友对苹果的这项能力,产生了质疑。
一位网友从底层架构图中得出,Siri可以读取手机上的所有数据(适用于选择加入的应用程序) 。
图片
图片
一家AI初创的CEO表示,
老实说,我真不理解苹果为什么要把任何东西发送给ChatGPT?这太怪异了。为什么不直接让Meta授权,然后自己部署400B的Llama模?从70B开始也可以呀...
他们口口声声强调隐私和安全,甚至声称你不应该相信任何人!结果他们却来了个180度大转弯——是的,我们正在把你的数据发送给ChatGPT。
图片
还有人配上梗图讽刺道,「当奥特曼已耗尽100%互联网训练数据时,看到十亿部手机时」。
图片
苹果AI背后模型训练过程揭秘
发布会之外,苹果还发布了一篇关于介绍苹果AI能力实现背后的基础模型的文章。
图片
博客介绍道,苹果AI是由「多个」强大的生成式AI模型组成,这些模型专用于日常任务,并根据当前活动实时调整。
他们强调,内置的基础模型针对用户体验进行了微调,比如编写和提炼文本、对通知优先排序汇总等等。
图片
接下来,苹果详细介绍了两个经过微调建模的模型:
一是,可以运行在终端设备中的30一参数模型。
另一个是,更大的基于苹果芯片加持云服务器的基础模型,可用于私有云计算。
其他模型还包括,用于编码的XCode,扩散模型(帮助用户如在Messages应用中,以视觉方式表达自我)。
预训练
苹果的基础模型,是在2023年发布的开源项目AXLearn框架之上训练的。
AXLearn建立在JAX和XLA之上,可以在各种训练硬件和云平台上高效、可扩展地训练模型,包括TPU和云端及本地GPU。
另外,苹果研究团队还采用了数据并行、张量并行、序列并行和全分片数据并行(FSDP)等组合方式,从数据、模型和序列长度等多个维度来扩展训练规模。
图片
至于数据的选用,苹果表示自己用的是授权的数据训练基础模型。
其中包括两种数据来源:一是经过精心选择,目的是提升模型的特定功能;二是,苹果网络爬虫AppleBot工具从网上公开采集的数据。
后训练
苹果团队意识到,数据质量对于模型的成功,至关重要。
因此,他们在训练过程中,采用了「混合数据策略」,即结合使用人工标注和AI生成数据,并进行了彻底的数据筛选和处理。
具体来说,研究团队在模型「后训练」阶段,开发了两种全新的算法:
(1) 拒绝抽样的微调算法,使用多个教师模型作为参考,对模型输出进行过过滤和微调
(2) 人类反馈强化学习算法,结合使用了镜像下降策略优化,以及留一法优势估计器(leave-one-out advantage estimator)新技术。
结果发现,这两种算法可以显著提升模型指令跟随的质量。
图片
优化
另外,苹果还采用了一系列创新技术,在设备端和私有云上优化模型的速度和效率。
他们对第一个token推理和扩展token推理的性能都进行了大量的优化。
无论是设备端模型还是服务器端模型,都采用了「分组查询注意力机制」(grouped-query-attention)。
苹果还使用了共享的输入和输出词表,以减少内存需求和推理成本。这些共享的嵌入张量在映射时不会产生重复。
设备端模型的词表大小为49k token,而服务器端模型的词表大小为100k token。
对于设备内推理,他们还是用了「低比特量化」(low-bit palletization)的技术,能满足所需的内存、功耗和性能要求。
为了保持模型输出质量,研究团队开发了一种新框架——使用LoRA adapter,并采用了混合2位和4位的配置策略,平均每个权重占3.5位——从而达到与未压缩模型相同的精度水平。
此外,他们还使用了一种名为「Talaria」模型,可以对模型的延迟和功耗进行交互式分析,更好地指导在不同操作中选择合适的量化精度。
苹果基础模型还采用了激活值量化和嵌入量化技术,并且开发了一种在苹果神经网络引擎上高效更新键值缓存的方法。
值得一提的是,通过以上优化,iPhone 15 Pro可实现每个提示token首次输出的延迟约为0.6毫秒,生成速率为每秒30个token。
这一性能实现,并未采用token猜测技术,如若开启,速度将会更近一步提升。
模型自适应
苹果基础模型针对用户日常任务进行了微调,并且能够根据实时任务完成动态化适应。
这一过程实现,是借助适配器,即一些可以插入到预训练模型各层的小型神经网络模块,对模型进行特定任务的微调。
通过调整适配器中注意力相关的参数和前馈网络的参数,可以让整个LLM的行为专门化到特定任务上。
图片
性能与评估
针对总结功能的评估中,苹果与微软Phi-3-mini小模型进行了对比。
可以看得出,不论是在邮件、还是通知中,苹果设备端30亿参数的模型在「优秀」和「差」的生成中更占优势。
图片
苹果还将自家模型,与开源模型(Phi-3、Gemma、Mistral、DBRX)和商业模型(GPT-3.5-Turbo、GPT-4-Turbo)进行了比较。
结果发现,人类评估者更倾向于苹果模型输出的结果。
在这个基准测试中,30亿参数设备端模型的表现甚至超过了更大的模型,如Phi-3-mini、Mistral-7B和Gemma-7B。
而服务器端模型在性能上,甚至可与DBRX-Instruct、Mixtral-8x22B和GPT-3.5-Turbo相媲美,同时效率极高。
图片
对于模型输出危害评估,苹果模型比率最低,说明输出有毒内容较少。
图片
与此同时,苹果模型在安全提示的评估中,设备端模型完全碾压Phi-3-mini、Mistral-7B,服务端模型打败了DBRX-Instruct、Mixtral-8x22B。
图片
在指令跟随(IFEval)基准上,与其他模型相比,苹果模型展现出了强大的能力。
图片
最后一个是写作基准,终端上的苹果基础模型,是性能最优的。在服务器端,作文方面的能力还是不如GPT-4 Turbo。
图片
二代VisionOS更新,苹果头显月底登陆中国
据上次发布Vision Pro和Vision OS刚刚过去4个月,苹果就又在WWDC上宣布了Vision OS的重大更新。
而且,还有让中国用户更加激动的消息——
库克在发布会上正式官宣,Vision Pro 将于6月28日登陆中国市场,将于本周五(6月14日)开始接受预定,国行价格为29999元起。
图片
Vision Pro中的照片App集成了空间计算技术,戴上就可以浏览「3D」照片,让你有走进照片、「重现过去」的感觉。
最新的iPhone 15 Pro和Max的后置镜头已经可以拍摄空间影像,苹果也和佳能合作为专业照相机开发了空间镜头。
图片
那以前拍摄的传统平面照片呢?
自然也不能落下。Vision Pro集成的机器学习模型,可以将照片从单视角变为双眼视角,还能添加图像深度,瞬间2D变3D。
图片
之前的Vision Pro已经可以和Mac集成,苹果这次决定升级Vision中的虚拟屏幕,同时提高分辨率和屏幕宽度。
今年的更新后,一个Vision Pro相当于电脑的两个4k外接屏幕,动态注视点技术让你无论从哪个角度看屏幕都无比清晰。
图片
而且,这个虚拟屏可以随时打开,比如「旅行模式」可以让你在飞机上随时大屏追剧或私密办公。
图片
Vision Pro想要变得越来越好用,让以上这些功能走入现实,不能少了开发者的App和创作者的优质内容。
目前已经有超过2000个专门为Vision Pro开发App,以及其他1.5万个兼容VisionPro的手机或平板应用。
这次Vision Pro的更新也包括了各种服务于开发者的API:
- 3D空间内的多任务处理器Volumetric(可以说是Vision Pro上的Stage Manager)
- 让应用锚定在各种平面上的TableTopKit
- Enterprise API让企业可以定制各种复杂应用
图片
比如使用TableTopKit开发棋牌游戏,让棋盘锚定在桌面上,加上显示在空间中的FaceTime的头像,下棋的体验就更加沉浸式了。
图片
去年Vision Pro发布了Apple Immersive Video,经过今年的再次更新,苹果始终萎靡不振的内容产业很可能要翻盘了。
现在它的手里掌握着各路流媒体都不具有的空间影像技术。180度视角的8k视频加上高品质的音效,达到了甚至超越3D影院的逼真体验。
图片
而且这次的发布非常垂直,打包了3D空间视频的全产业链。
对于业余爱好者,拍摄可以用iPhone或与苹果合作的佳能相机,剪辑可以用Mac自带的Final Cut Pro,观看可以用Vision OS中的Vimeo。
在专业创作领域,苹果和创意视频公司Black Magic Design合作,从摄像机到剪辑、后期软件全覆盖,今年晚些时候就会发布。
图片
此外,苹果还和多方合作,制作原创的Apple Immersive Video并发布在Apple TV中。
合作方在内容领域都是大名鼎鼎,包括顶级歌手The Weekend、奥斯卡奖导演Edward Berger,以及与红牛制作的极限运动系列。
参考资料:
https://developer.apple.com/videos/play/wwdc2024/101/
https://machinelearning.apple.com/research/introducing-apple-foundation-models