大洋彼岸马上就要“过年”了,OpenAI和谷歌都在抢着在年前秀一秀自己压箱底的AI大作。在通向AGI的道路上,谷歌似乎已经反超了OpenAI,夺回了领先地位。前几天,两家几乎同时发布的Sora但效果上的显著差异,再次让外界看到了谷歌的实力回归。
不止视频赛道,Google 再次甩出了一个大招。今天凌晨,Google 推出 Gemini 2.0 Flash Thinking,可以说来了一波反打 OpenAI o1。
1.谷歌版o1发布,榜上第一 皮查伊:迄今为止最深思熟虑的模型
谷歌 Gemini 2.0 产品负责人 Logan Kilpatrick 表示,这个新模型“解锁了更强大的推理能力并展示了自己的思维”。
他介绍,该模型可以“以 Flash 速度解决复杂问题”,同时显示其内部规划流程(思维链),从而提高 AI 问题解决的透明度。
图片
另外,除了擅长数学、编程等复杂场景,这次谷歌版本的o1是具备多模态推理能力。
该实验模型仍处于早期阶段,但 Kilpatrick 提供了一个例子来说明其潜力,展示了它如何解决涉及视觉和文本线索的具有挑战性的难题。
大家可以看这个例子:
开发人员现在可以在 Google AI Studio 和 Gemini API 中试用该模型。“这只是我们推理之旅的第一步,很高兴看到你们的想法!”
图片
“Google 向 AIStudio 中的用户免费提供推理模型只是为了展示他们的力量。他们回来了,“X 上的一位用户评论道。
“我们迄今为止最深思熟虑的模型,”谷歌首席执行官桑达尔·皮查伊 (Sundar Pichai) 在 X 上发帖说。
来自 Chatbot Arena⚡🤔 的突发新闻@GoogleDeepMind Gemini-2.0-Flash-Thinking 在所有类别中首次亮相,跃升成为 No.1!
图片
大家都知道,三天前 Google 最近推出了 Gemini 2.0 Flash,它支持多模态输入,包括图像、视频和音频,以及多模态输出,例如本地生成的图像与文本相结合,以及可操纵的文本转语音 (TTS) 多语言音频。它还可以原生调用 Google 搜索等工具、执行代码以及集成第三方用户定义函数。
Gemini 2.0 Flash Thinking 建立在谷歌的 Gemini 系列之上,将与 OpenAI 的 o1 模型竞争,后者以其令人印象深刻的推理能力而闻名,其水平类似于物理、化学和生物学的博士生。
这一发展是在 OpenAI 发布完整版 o1 模型作为其 12 天直播的一部分的背景下发生的。除此之外,它还在 API 中发布了 o1 模型,升级了函数调用、结构化输出、推理努力控制、开发者消息和视觉输入。一些基准测试表明,o1 是迄今为止最强大的 AI 模型,在编码任务中甚至优于 Claude 3.5 Sonnet。
o1 让其他人都大吃一惊——它是推理方面的野兽,也是编码方面最好的!!
12 月 17 日的新 o1 模型在 Livebench AI 上是 #1,推理得分为 91.58!!
最后,OpenAI 在编码方面也击败了 Sonnet。🤯
2.OpenAI 的第11天发布:应用创新
谷歌现在似乎在 AGI 竞赛中领先,而 OpenAI 现在正在迎头赶上。在“OpenAI 12 天直播”的第 11 天,这家独角兽宣布对 Mac 的 ChatGPT 桌面应用程序进行更新。
这次直播发布来自 OpenAI ChatGPT 桌面团队的 John Nastos 和 Justin Rushing。
Nastos 将原生应用程序描述为“轻量级”且易于使用,而不会中断正在进行的任务。该应用程序的一个突出特点是它与用户计算机上的各种应用程序无缝集成,可以更轻松地直接从 ChatGPT 与多个工具进行交互。
图片
“我们的桌面应用程序现在可以与 Xcode、Warp、Notion、Apple 等 ~30 多个应用程序一起使用。ChatGPT 可以查看、理解和自动化您在其他应用程序中的工作——这是朝着更具代理性的 ChatGPT 迈出的一步,“OpenAI 首席产品官 Kevin Weil 说。
“我们都一直在将东西复制和粘贴到 ChatGPT 中,”Rushing 说。“此功能可以自动从您正在使用的应用程序中提取上下文,从而使这种方式更加顺畅,因此您可以专注于提出问题,剩下的交给我们。”
该应用程序的实用程序扩展到编码任务。Nastos 展示了它与 Xcode 等 IDE 集成的能力,展示了 ChatGPT 如何协助应对实时编码挑战。
该应用程序的突出功能之一是语音交互,使用户能够通过高级语音模式直接与 ChatGPT 交流,以实现更快、更自然的对话。
3.谷歌和OpenAI 12月大战阶段性总结
OpenAI Shipmas 只剩下一天了,每个人都热切期待 OpenAI 接下来将推出什么,以结束 12 天的不间断输出。然而,到目前为止,谷歌见招拆招,对 OpenAI 的一举一动都进行了无差别打击。
虽然 OpenAI 在其“OpenAI 12 天”期间一直在发布公告,但谷歌但尖货更为让人振奋,已经推出了自己的一系列创新,包括量子芯片 Willow、Gemini 2、3D 世界模型 Genie 2、Veo 2 视频生成模型、作为通用代理的 Project Astra、Project Mariner、Google Deep Research 和用于 AR/VR 开发的 Android XR,当然还有今天的推理模型thinking。
另一方面,OpenAI 公布了几项重大更新,包括改进的 OpenAI o1 推理模型、每月 200 美元的新 ChatGPT Pro 订阅以及他们的文本到视频 AI 生成器 Sora。
其他值得注意的版本包括适用于所有用户的 ChatGPT Search、用于组织聊天的新项目功能、用于协作编写和编码的 Canvas 以及 ChatGPT 的实时视频功能。
此外,OpenAI 还推出了一系列新功能,例如带有圣诞老人语音选项的高级语音模式、从固定电话拨打 ChatGPT 的 1-800 号码,以及 ChatGPT 与 Apple Intelligence 的集成。