谷歌I/O大会武库尽出 剑指OpenAI 原创 精华
5 月 14 日凌晨,OpenAI 在首次「春季新品发布会」上搬出了新一代旗舰生成模型 GPT-4o、桌面 App,并展示了一系列新能力。这一次,技术颠覆了产品形态,OpenAI 用行动给全世界的科技公司上了一课。OpenAI 的首席技术官 Mira Murati主要讲三件事:
- 第一,以后 OpenAI 做产品就是要免费优先,为的就是让更多的人能使用。
- 第二,因此 OpenAI 此次发布了桌面版本的程序和更新后的 UI,其使用起来更简单,也更自然。
- 第三,GPT-4 之后,新版本的大模型来了,名字叫 GPT-4o。GPT-4o 的特别之处在于它以极为自然的交互方式为每个人带来了 GPT-4 级别的智能,包括免费用户。
ChatGPT 的这次更新以后,大模型可以接收文本、音频和图像的任意组合作为输入,并实时生成文本、音频和图像的任意组合输出 —— 这才是属于未来的交互方式。
最近,ChatGPT 不用注册也可以使用了,今天又增加了桌面程序,OpenAI 的目标就是让人们可以随时随地的无感使用它,让 ChatGPT 集成在你的工作流中, AI 现在就是生产力了。
GPT-4o 是面向未来人机交互范式的全新大模型,具有文本、语音、图像三种模态的理解力,反应极快还带有感情,也很通人性。
前一晚 OpenAI 发布了 ChatGPT-4o 后,压力就给到了 Google I/O 。如果说2023年的I/O大会是谷歌在AI领域的背水一战,今年的I/O大会上皮查虽然靠着自家的Gemini等产品逐步追上OpenAI,但形势却难称喜人。过去一年里,就算祭出免费两个月的大杀器,Gemini的用户量也不过是ChatGPT的1/5,每每有新品上市,必然被OpenAI截胡。
而 Google 则通过近 2 个小时的发布会,提了 121 次 AI ,推出了十余种新品及升级,可谓火力全面覆盖,全面对标OpenAI在AI各领域上的发展,但给人的惊喜却并不多。
我们先给大家一次性总结这场发布会的亮点,更多功能解析请接着往下看。
发布会要点:
Google Search AI:发布了 AI Overviews,加强版 AI 搜索概要功能,多步推理能力上架。
Gemini 大模型:Gemini 1.5 Flash(100 万上下文);Gemini Pro(200 万上下文)。
Gemma 大模型:发布开源多模态大模型 Pali Gemma 和 Gemma2。
AI in Google Workspace:用 Gemini 的能力和 Side Panel 的形式,将 Google 系列产品串在一起。
Gemini App:手机版的 Gemini 应用程序,即将支持和 AI 视频对话,近几周发布。
Project Astra:最新的多模态 AI 项目,包含 Imagen3、 Music AI Sandbox 和 Veo 等针对图像、音乐、视频的生成式 AI。
与OpenAI的仅半个小时,集中在产品介绍的发布会完全不同,谷歌的I/O骨子里就透着一种武库尽出,拼死一战的意思。
很多产品单看Demo还是有着不错的完成度,但整场发布会没有一点像GPT-4o带来那样的惊艳感。因为他们发布的大多数是追赶那些OpenAI已有的东西,没人会为一些别人已经做到的事情感到惊艳。连带发布和新升级的AI相关产品有14项:
首先是模型性能,谷歌通过数据和算法改进增强了其代码生成、逻辑推理和计划、多回合对话以及音频和图像理解能力。最新版本的 1.5 Pro 在多个benchmark中取得了Sota的成绩,谷歌扬眉吐气。
上下文方面,谷歌还把新Gemini 1.5 Pro 的上下文窗口从业界最高的100万token 扩展到合300本书的200万token。三个月就提升一倍,谷歌的表现证明了上下文的问题在今年看起来已经不再是什么门槛了。
在多模态支持上,Gemini Pro现在还把语音理解这个过去的短板部分进行了补齐,Gemini 1.5 Pro也进行了一轮更新。后续宣布的Gemini 1.5 Flash的主要特色——快速反应和昨天的GPT-4o完美撞车,本该有的惊艳感被完全破坏了。
从功能上看,Gemini 1.5 Flash虽然它比 1.5 Pro 轻量化,但它也能够跨大量信息进行多模态推理,并且擅长摘要、聊天、图像和视频字幕、长文档和表格的数据提取等工作。Flash 通过一种称为“蒸馏”的过程,从较大的模型中传递最重要的知识和技能到较小、更高效的模型,实现了速度的提升。
这里展示的能力是需要Agent支持的,因此谷歌的下一个重磅产品是Project Astra。谷歌将其定义为自己的Agent战略的核心。
它是一种Agent 框架:为了真正有用,Agent需要像人类一样理解和响应复杂多变的世界——并且记住它看到和听到的内容以理解上下文并采取行动。它还需要具有主动性、可教性和个性化,这样用户可以自然地与它交流而不会有滞后或延迟。低延迟的要求,让你可以把Astra理解成Gemini Light 的Agent形式。在谷歌的展示中,它的最佳形态就是个人助手。
谷歌通过持续编码视频帧、将视频和语音输入结合到事件时间线上,并缓存这些信息以实现高效回忆来更快地处理信息,就是能与视频交互,还有时间记忆。通过语音模型,谷歌还增强了Astra的声音,使Agent具有更广泛的语调,让这些Agent可以更好地理解它们所处的上下文,并在对话中快速响应。
从演示上看,Astra的视觉理解能力确实让人似曾见过。除了这两个核心模型更新外,谷歌还宣布了前一阵大火的开源模型Gemma 的2.0版本,270亿参数。并为它拓展了PaliGemma这个多模态版本。
除了文生视频模型的新公开,谷歌还推出了文生图像模型Imagen 3。从细节拟真度来看与Midjourney v6能达到同一级别,比起Dalle-3更胜一筹。而且在对细节的跟随上也要更细致。
音乐生成方面,去年惊艳众人的期货Lydia到这场发布会为止还是期货。谷歌又给他加了个新拓展 Music AI Sandbox,一套音乐 AI 工具。这些工具旨在为创意打开新的游乐场,让人们从头开始创作新的器乐部分,以新的方式转换声音等等。
最后,谷歌介绍了自己的视频生成模型——Veo 。它属于谷歌之前的一系列视频生成尝试的集大成者:融合了WALT、VideoPoet、Lumiere这几款在Sora之前发布的明星文生视频模型的长处。
Veo可以生成高质量的 1080p 分辨率视频,超过一分钟,涵盖广泛的电影和视觉风格。从示例视频上看,Veo生成的画面相当一致且连贯,具有对自然语言和视觉语义的高级理解能力,能够生成与用户创意愿景紧密匹配的视频——准确呈现详细的长提示并捕捉情感。
从质量上讲,谷歌的Veo和Sora足有一战之力。和Sora一样,Veo 只会将作为 VideoFX 内的私人预览版提供给少量创作者,一般用户可以报名加入候补队列。不过这也说明,靠着VEo,现在谷歌和OpenAI已经进入了谁能首先压缩成本,把这一技术推向toC领域的同一场竞赛了。
AI搜索可以说是谷歌的必争之地。从去年一年来看,新兴的AI搜索虽然获得了不少用户,但基本上没有动摇到谷歌搜索的根基。谷歌的AI搜索服务ESG从去年五月到现在,整整公布一年时间后总算从今天起向公众开放使用了。这个更强的AI搜索引擎被谷歌命名为AI Overview,但仅限美国,其他国家还得排队等着开。
从Demo展示来看,谷歌搜索在功能上的创新不算多,主要集中在多模态。
首先,用户将能够通过简化语言或更详细地分解来调整 AI 搜索结果概述。这个功能并不新,现在主流的AI搜索产品也会区分快捷回复和更深入的研究模式。
其次,借助 Gemini 的多步推理能力,AI 搜索可以一次性处理复杂的多步,乃至多问题。比如说,当用户寻找一个新的瑜伽或普拉提工作室,用户希望找到受当地人欢迎,方便用户的通勤,并且还提供新会员折扣的选项。
同样构建在多步推理能力之上的是AI搜索的计划能力。通过AI搜索中的计划功能,你可以直接在搜索里获得一个完整的计划。比如搜索类似“为一群人创建一个易于准备的三天餐饮计划”,您将获得一个起点,包含来自网络各处的各种食谱。这是其他搜索软件暂时还没有专精的能力。
GPT-4o生成的版本
谷歌生成的版本
最后是灵感延展功能,就是AI搜索在创建一个 AI 组织的结果页面,使您更容易探索。在问了一个问题后,谷歌搜索将会延展到其他可能你感兴趣的结果,按独特的 AI 生成标题分类,展示广泛的视角和内容类型。
这种联想搜索能力也已经是AI搜索的某种标配了,但谷歌对这个功能做了更好的结构化。靠Gemini的多模态功能,谷歌可以做到利用声音搜歌曲,利用图片搜产品。甚至可以用Circle to Secarch 功能圈出图片中的一部分去搜索。
AI还能结合视频进行搜索。谷歌举了个范例,比如用户在旧货店买了一台唱片机,但打开时无法工作,带有针头的金属部件在意外漂移。用视频搜索能节省了用户找到合适词语来描述这个问题的时间和麻烦。
模型产品还多少让人看出谷歌的保守态势。
你可以通过 Side Panel功能总结一系列邮件,可以总结你的账单,形成一个Sheet,自动回复邮件,可以从确认,回绝,搁置三种可能中选。
其他的更新,包括在聊天软件里的虚拟员工Chip,能力基本没超过前几个月我们在国内看到的各种办公软件Agent的演示。
模型产品里最重要的更新就是Gmini Live。这是一个移动对话助理性产品,通过 Gemini Live,用户可以与 Gemini 对话,并选择它可以用来回应的各种自然声音。用户甚至可以按照自己的节奏说话或在回答中途打断以提出澄清问题,就像您在任何对话中一样。
通过描述希望 Gem 做什么以及希望它如何回应,例如“你是我的跑步教练,给我一个每日跑步计划,并保持积极、乐观和激励的态度。”,Gemini 将根据这些指示进行增强,以创建一个符合您特定需求的 Gem。
去年上线的API扩展功能将再次扩大,例如正在推出的 YouTube Music 扩展、Tasks 和 Keep。全是谷歌自家的服务。就算加上这些新拓展,和其他Agent产品支持的API库也完全无法同日而语。
本次Android AI重点是介绍了Gemini的手机应用,可以和手机上正在展示的内容进行互动。比如阅读打开的PDF,从你正在看的YouTube频道反馈问题。
在这次发布会上,所有的AI模型都是由谷歌最新的TPU——Trillium TPU训练的。相较于前代,它的进步还是非常明显的。Trillium实现了每芯片峰值计算性能的 4.7 倍提升,比 TPU v5e 提高了一倍。
Trillium 配备了第三代 SparseCore,这是一种专门用于处理超大嵌入的加速器,常见于先进的排序和推荐工作负载中。Trillium TPU 使训练下一波基础模型更快,并以更低的延迟和更低的成本服务这些模型。Trillium 可以扩展到一个包含 256 个 TPU 的单个高带宽低延迟 Pod。另外,能耗上Trillium TPU 比 TPU v5e 的能源效率提高了 67% 以上,省电能力一流。
这场发布会,我们想看新的、有竞争力的产品,谷歌却在不停的播片。从创作者感受,到体验演示,就是没有产品细部的表现。甚至在很多地方是重复的,很多产品在不同位置被多次提到并展示。
我们更多的从它的搜索产品,模型产品上看到了谷歌的疲态,创新的缺失。本想看巅峰对决,但实际上昨天这场对决就已经结束了。这当然有OpenAI截胡的原因,但25分钟,三个产品的发布会,就足够破坏谷歌这两个小时里的十多个产品发布更新所带来的所有惊喜。
这说明了什么问题?
毫无疑问,谷歌的技术力还在,那些模型都很能打。但那些让人赞叹的技术突破,让人兴奋的产品演示,都没有了。有的只是可预期的表现,难超同行的功能。在一个新技术的时代,一个无比需要去开创可能性的时代中,想象力可能才是最重要的。
本文转载自公众号数字化助推器 作者:天涯咫尺TGH