“全家桶”战士归来,谷歌自我革命! 原创
编辑 | 言征
出品 | 51CTO技术栈(微信号:blog51cto)
5月与6月,旧金山硅谷各大新贵旧王正在激烈角逐,主战场无疑则是AI。
就在昨天凌晨GPT-4o发布的24小时后,Google I/O大会也交卷了。
有意思的是,谷歌掌舵人皮查伊,好像很清楚观众们所想,一开始就安排AI在后台统计了整场提及的AI次数:121,但随后又不自禁地提了3次。这124次的提及,为什么会这么多?
图片
因为这次主题演讲,实在太全面了,脉络清晰,而又让人眼花缭乱,简直让我们重新认识了一遍谷歌。
为什么说脉络清晰?很简单,AI就是这场keynote的脉络,从芯片到模型到重构应用,为什么说眼花撩乱,因为从吸睛程度上看,一系列发布都在证明谷歌在找到一个属于巨头的AI打法:少些高大上,多些接地气。
在宣传片中,我们可以听到许多场景下,用户们唱着讲出提示词,AI给出答案。有趣又贴和大众的喜好。
图片
大胆的创新应用对于谷歌而言或许不是最优解,渐进式/逐步增强现有产品,也许对于习惯于使用谷歌的大众来说,未尝不是一种通往生成式AI世界的舒适解。
整场看下来,小编感叹道:谷歌一改急追OpenAI的姿态,而是用接地气的新产品/新功能的发布,征服每一个谷歌产品用户。
一、十一年铸剑:谷歌史上最强大的TPU发布为AI加速
Sundar 会上宣布了谷歌第六代TPU Trillium,它是迄今为止性能最强、能效最高的 TPU,距离2013年,推出第一代TPU,已经过去11年。
令人印象深刻之处在于,与上一代的 TPU v5e 相比,Trillium TPU 的每芯片峰值计算性能提高了 4.7 倍,高带宽内存 (HBM) 容量和带宽增加了一倍,并将 TPU v5e 的芯片间互连 (ICI) 带宽增加了一倍。此外,Trillium还配备了一种专用加速器:第三代SparseCore,来用于处理高级排名和推荐工作负载中常见的超大嵌入。
图片
这就可以更快地训练下一波基础模型,并以更少的延迟和更低的成本为这些模型提供服务。
更难能可贵的是,在可持续性方面,Trillium TPU 的能效比 TPU v5e 高出 67% 以上。
Trillium 可以在单个高带宽、低延迟 Pod 中扩展到多达 256 个 TPU。除了这种 Pod 级可扩展性之外,借助多切片技术和Titanium 智能处理单元 (IPU ),Trillium TPU 还可以扩展到数百个 Pod,从而连接建筑物级超级计算机中的数万个芯片,这些芯片通过每秒数 PB 的速度互连数据中心网络。
据介绍,Trillium TPU 将为下一波人工智能模型和代理提供动力。例如,自动驾驶汽车公司Nuro致力于通过机器人技术通过使用 Cloud TPU 训练模型;谷歌云年度人工智能合作伙伴德勤将提供 Trillium,通过生成式人工智能实现业务转型。接下来,对 Trillium TPU 上长上下文、多模式模型的训练和服务的支持也将使Google DeepMind能够比以往更快、更高效、延迟更低地训练和服务未来几代 Gemini 模型。
二、视频生成模型Veo:长场景中的突破
这是一款非常惊艳的AI视频生成器,输出分辨率1080p,时长在一分钟以上,效果堪比Sora。
图片
据介绍,Veo 接受了大量镜头的训练。这就是生成式 AI 模型的工作原理:输入某种形式数据的一个又一个示例,模型会拾取数据中的模式,使它们能够生成新数据——在 Veo 的例子中是视频。
谷歌 AI 研发实验室 DeepMind 负责人 Demis Hassabis 在虚拟圆桌会议上对记者表示:“我们正在探索故事板和生成更长场景等功能,以了解 Veo 的功能。我们在视频方面取得了令人难以置信的进步。”
三、新模型
I/O大会上,谷歌一口气宣布了很多重磅级的模型更新,可以看出聚焦解决大家在落地大模型过程中经常要遇到的问题上,比如文本模型,聚焦在解决私有化部署的成本和延迟问题上,视觉模型方面,大家在聚焦提示词中的意图理解和图像细节的捕捉方面,当然还有较小规模的模型。
1.Gemini 1.5 Flash:专为成本和延迟敏感、大批量任务而设计
谷歌今天发布了的Gemini 1.5 Flash进一步增强了这些功能。它具有与 1.5 Pro 相同的 100 万个令牌上下文窗口,但专为成本和延迟很重要的大批量任务而设计,例如聊天应用程序、字幕、详细的视频和图像分析、从长格式文档中提取内容和数据、和更多。
对于需要更大上下文窗口的用例(例如分析任务非常重的代码库或广泛的文档库),客户将能够尝试具有多达 200 万个令牌上下文窗口的Gemini 1.5 Pro 。
图片
目前该模型尝鲜,尚需要大家提交waitinglist。
2.PaliGemma:Vertex AI 的开发人员多了一种选择
PaliGemma是 Gemma 家族(Gemini轻量版)的第一个视觉语言开放模型。 PaliGemma 针对图像字幕、视觉问答、理解图像中的文本、对象检测和对象分割等用例进行了优化。 PaliGemma 增加了开发人员可以在 Vertex AI 上访问的模型选择,以将正确的模型与正确的任务和预算要求配对。
3.Imagen 3 和 Gemma 2 模型将带来更多模型创新
除了今天提供的模型和工具外,Vertex AI 用户很快就能开始使用 Imagen 3 和 Gemma 2 模型进行创新。
Imagen 3将于今年夏天向 Vertex AI 客户推出,提供谷歌迄今为止最复杂的图像生成功能。 Imagen 3 能够理解自然语言,从而更好地理解提示背后的意图,整合较长提示中的小细节,并提高在图像中渲染文本的能力。
同时在夏天推出的还有Gemma 2,其中包括一个 27B 模型,其性能可与更大的模型相媲美,为开发人员需要开放模型的用例提供更强大的选择。
四、大模型全面走向谷歌产品你需要的只是ask
当然 Gemini 1.5pro也将走出单一的网站访问形式,可以在许多原有的谷歌产品中刷到它,出现在Google Workspace的侧面板上,出现在Gmail中,出现在Doc中。
借助新的侧面板体验(首先是 Gmail、文档、表格、幻灯片和云端硬盘),Gemini将成为用户跨多个应用的纽带,不仅能够与与其聊天,更能直接将来自电子邮件、文档等的所闻所见来总结、分析和生成内容 ,而无需离开你所在的应用程序即可完成所有操作。
图片
同时,界面会自动提供用户正在处理的对话或内容的摘要,以及上下文相关的提示来帮助新手入门。
这对于从事重复性任务和工作流程,比如总结/审查/批准/提交报告的人来说,将会成为不错的省时神器。你需要做的就是懂得如何提问。
五、谷歌布局Agent Builder
谷歌也推出了Agent Builder,思路当然也在于生态加速,即新的开源集成有助于快速跟踪代理构建。
Vertex AI Agent Builder在 Next '24 上发布,使开发人员能够通过一系列满足不同开发人员需求和专业知识水平的工具轻松构建和部署企业就绪的一代 AI 体验 ,从使用自然语言构建 AI 代理的无代码控制台,到Vertex AI 上的 LangChain等代码优先的开源编排框架。这些功能可帮助客户平衡快速实验和迭代与成本、治理和性能要求。
六、谷歌搜索:王牌中的底牌
皮查伊在主题演讲会上,提及搜索时,异常激动。
谷歌搜索是具有人类好奇心规模的生成式AI,“这是谷歌迄今为止最为激动人心的篇章”。
如果你也熬夜看了整场keynote,相信你也有这种感觉——最厉害的狠角色,还要数谷歌搜索的大革新。谷歌发布了 AI Overviews,加强版 AI 搜索概要功能,多步推理能力上架。
Google 在发布会上介绍,新面目的 Google Search,主要有三个独特的优势:
第一,Google 的实时信息包括超过一万亿个关于人、地点和事物的事实;第二,名列前茅的产品,和最好的网络服务之一;第三,Gemini 的力量。
把将这三件事结合在一起,就解锁了 Google 在搜索领域的全新能力。
比如: AI Review这样一种新功能,用户可以通过在搜索结果的顶部,获取由 AI 大模型生成的摘要,以此简化整个搜索过程,让复杂问题的检索过程,变得简单。
图片
再比如:Multi-step reasoning ,多步推理,比如你可以通过搜索栏来找到「附近最好的瑜伽馆」,随后附近所有关于瑜伽馆的评价评分、课程推荐、距离等重要信息,都会被分类成块,十分清楚地在搜索结果中显示。
图片
凭借Google自有的庞大数据库,AI 在搜索过程当中可以调用最新、最全的高质量信息,所以搜索结果的准确性和可信性也就有了更多的保障。
第三个比较贴心的功能就是planning规划能力,比如帮你重新调整膳食结构、不想在早餐、午餐和晚餐时吃通心粉和奶酪。就可以直接把需求抛给搜索框,Google Search 就能还给你一份按照要求,且合理安排的全新一周食谱。
如果你实在难以描述碰到的一些故障问题,还可以使用ask with video 的功能,诸如唱片的零部件不起作用了/相机的快门突然失灵等等,现在不用大费周折地寄回厂家售后。
图片
七、谷歌做对了一件事:让AI实用
在大模型时代,没有完美的产品,即便是谷歌和Open AI,但真并不影响大家在这个时代各尽其才,各显神通。
正如英伟达高级AI经理JimFan所评论的,昨天的OpenAI找对了方法,而今天的谷歌做对了一件事:他们终于开始认真努力将人工智能融入搜索框。我感受到了代理流程:规划、实时浏览和多模式输入,所有这些都来自着陆页。谷歌最强大的护城河是分销。
Gemini 不必是最好的模型,就可以成为世界上使用最广泛的模型。
来源: 51CTO技术栈作者:言征