万变不离AI！直击 Google Cloud Next 2024 大会更多细节，不只Gemini 1.5 Pro ！

发布于 2024-4-10 14:11

浏览

0收藏

AI显然成了谷歌Cloud Next 2024的一条主线！

这一在拉斯维加斯举行的技术大会，自周二起持续至周四，谷歌宣布了大量新的以云为中心的产品和服务，涵盖从Gemin、平台、Workspace到网络安全工具等一切内容。

Google Cloud Next 是谷歌云面向开发者、合作伙伴与客户的年度技术大会,自2017年已持续了八年。AI作为今年的绝对主角自然不容小觑，Google Cloud Next 2024紧紧围绕人工智能技术的进步，探讨将如何提高谷歌云服务的生产力、创造力、和安全性等性能。

在AI“卷得飞起”的大背景下，谷歌在云计算领域作出一系列值得一看的创新与合作承诺。现在，谷歌正像对手们做的那样——快马加鞭地推出人工智能产品，以免落后于AI大潮。面对“老对手”微软在这一轮AI竞赛的猛烈攻势，谷歌必须亮剑，见招拆招。

万变不离AI！直击 Google Cloud Next 2024 大会更多细节，不只Gemini 1.5 Pro ！-AI.x社区图片

一.Gemini 1.5 Pro全球最长上下文处理模型

Gemini 1.5 Pro，谷歌最强大的生成式AI模型，现已在其面向企业的AI开发平台Vertex AI上公开预览。

该版本专为开发人员实验而设计，与前一版本相比，提供了一个更大的上下文窗口。Gemini 1.5 Pro 是一个中等规模的多模态模型，其性能与 Gemini 1.0 Ultra 相近，它有一个标准的 128,000 个 “tokens”上下文窗口，还可将该窗口大幅增加至 100 万个 “tokens”。

一百万“tokens”有多长呢？相当于大约70万个单词（《战争与和平》不过60万字）或大约30,000行代码。这大约是Anthropic的旗舰模型Claude 3能够接受的输入数据量的四倍，也大约是OpenAI的GPT-4 Turbo最大上下文的八倍。对比国内大模型，此长度也远远超过了因开“卷”长文本功能一炮而红的Kimi。

万变不离AI！直击 Google Cloud Next 2024 大会更多细节，不只Gemini 1.5 Pro ！-AI.x社区图片

Kimi对自己处理单词量的估计

那么，一个拥有100万“tokens”上下文窗口的模型具体能做什么呢？谷歌承诺，可以进行很多事情，例如分析代码库、阅览长篇文档并与聊天机器人进行长时间对话。

由于Gemini 1.5 Pro是多模态的，因为它能够理解图像和视频，在Google Cloud Next 2024大会上还宣布了理解音频流的功能——该模型还可以分析和比较不同媒体中（如电视节目、电影、广播、电话会议记录等）的内容。100万“tokens”大约相当于一小时的视频或大约11小时的音频，这是相当惊人的文件处理能力。

得益于其音频处理能力，Gemini 1.5 Pro还可以为视频片段生成音频转录，不过转录的质量尚未得到确认。

今年早些时候的一个预先录制的演示中，谷歌展示了Gemini 1.5 Pro在阿波罗11号登月直播的文字记录（大约400页）中搜索包含笑话的引语，然后在电影镜头中找到与铅笔素描相似的场景。

X上的网友试图让Gemini 1.5 Pro判断Sora的一支关于猫的视频是否由AI生成。Gemini 1.5 Pro给出了肯定回答，并解释说尽管猫的光影比较真实，但猫眼睛大的不够“自然”且皮毛也过于完美，因此可以考虑是AI生成的视频。

万变不离AI！直击 Google Cloud Next 2024 大会更多细节，不只Gemini 1.5 Pro ！-AI.x社区图片

不过，Gemini 1.5 Pro处理一百万标记并不是一蹴而就的。在上述演示中，每次搜索都需要20秒到一分钟的时间来完成——远长于平均的ChatGPT查询。谷歌已经在着手优化回答问题的长延迟问题。

目前，Gemini 1.5 Pro的功能可以在Vertex AI平台上免费体验（虽然只开放了部分功能）。

值得注意的是，Gemini 1.5 Pro正在逐渐融入谷歌企业产品生态系统的其他部分，在大会的第一日谷歌宣布，该模型（在私人预览中）将为谷歌的生成式AI编码辅助工具Code Assist提供新功能。

二、AI工具塑造办公未来

1.Google Vids

谷歌正在寻找利用AI帮助客户开发创意内容的方法。Google Vids是一款新的AI驱动的视频创作工具，是最新添加到Google Workspace的功能。

它的工作原理是这样的：谷歌声称用户可以使用 Vids与其他Workspace工具（如Docs和Sheets）一起制作视频。从编辑、写作和制作的整个视频制作流程都在Google Vids中完成，并且支持团队的实时协作。

万变不离AI！直击 Google Cloud Next 2024 大会更多细节，不只Gemini 1.5 Pro ！-AI.x社区图片

2.Gemini Code Assist

谷歌推出的AI编程辅助工具，也是微软旗下GitHub Copilot 的直接竞争对手。谷歌Gemini Code Assist是一款以企业为中心的AI代码补全和辅助工具。谷歌此前在已停用的Duet AI中提供了类似的服务，现在该功能已经集合在Gemini里。

3.Google Workspace

Google Workspace中发布的新功能包括在移动时启动基于AI的“帮助我写作”功能的语音提示，用于Gmail。Gmail的另一个功能是利用AI对粗糙的电子邮件草稿进行润色，变成更精致的电子邮件。

谷歌似乎还计划为其Google Workspace生产力套件的两个新AI功能上取得盈利，推出了每位用户每月10美元的附加套餐。其中一个是新的AI会议和消息传递附加组件，它可以为用户记笔记，提供会议摘要并将内容翻译成69种语言。另一个是引入的AI安全套餐，它帮助管理员使Google Workspace内容更加安全。

万变不离AI！直击 Google Cloud Next 2024 大会更多细节，不只Gemini 1.5 Pro ！-AI.x社区图片

三、为企业用户提供的更多AI能力

1.备受争议的Gemini图像生成终于回来了

今年2月，谷歌宣布了一个内置于Gemini中的图像生成器。该公司在发现它会随机地将性别和种族多样性注入到有关人的提示中，例如生成了黑人版的马斯克肖像，随着大量批评的涌入谷歌撤回了这一功能。

现在，谷歌推出了增强的图像生成工具，Imagen 2。在Vertex AI开发者平台内部，Imagen 2更侧重于企业用户。Imagen 2带来了一些有趣的新功能，例如“文本到实时图像”可以从文本提示创建短小的四秒视频，提供类似于Runway、Pika等文生视频工具的服务。

2.Agent Builder

谷歌的Vertex AI Agent Builder是一个帮助公司构建AI代理的新工具。

“Vertex AI Agent Builder允许人们非常轻松快捷地构建对话代理，”谷歌云CEO Thomas Kurian说。“您可以构建并部署生产就绪的、生成式AI驱动的对话代理，并像指导人类一样指导它们，以提高模型答案的质量和正确性。”

为此，公司使用了一个称为“grounding”的过程，其中答案与被认为是可靠来源的东西联系在一起。在这种情况下，它依赖于谷歌搜索（实际上可能或可能不准确）。

3.AI让安全工具更强大

谷歌在安全工具中注入AI能力，推出了许多针对大公司的新产品和服务。这些包括威胁情报，它可以分析大量潜在恶意代码，它还允许用户使用自然语言搜索进行中的威胁或妥协指标。另一个是Chronicle，谷歌为云客户提供的网络安全 telemetry 服务，以协助进行网络安全调查。第三个是企业网络安全和风险管理套件Security Command Center。