12月8日消息,本周三谷歌发布了最新的人工智能模型Gemini。谷歌声称该模型在一系列智力测试中的表现优于OpenAI的GPT-4模型和“专家级”人类,但从技术指标来看,Gemini仅比OpenAI推出已有八个月的GPT-4模型好一点点。
在上述消息推动下,美股周四收盘,谷歌涨5.31%,报136.93美元,市值1.7万亿美元。
一年前,谷歌被OpenAI的聊天机器人ChatGPT打了个措手不及,此后就一直渴望描绘出自己在人工智能领域快速进步的画面。本周三谷歌突然提前发布了新的人工智能模型Gemini,可以发现魔术中的技巧,并在会计认证考试中取得好成绩。谷歌发布的演示视频也在社交媒体上引起了轰动,但从技术角度来看,谷歌仍然在追赶OpenAI。
从谷歌Gemini与OpenAI顶级模型GPT-4的性能对比来看,谷歌最强大的Gemini Ultra在高中物理、专业法律测试以及道德场景等大多数基准测试中都优于GPT-4。要知道,当前的人工智能竞赛几乎完全是由这些能力定义的。
但在大多数基准测试中,Gemini Ultra只比GPT-4高出几个百分点。换句话说,谷歌所谓的顶级人工智能模型较OpenAI至少一年前完成的工作效果提升有限。
如果Gemini Ultra真如谷歌所说那样在明年1月初发布,那么可能不会在顶级人工智能模型的头把交椅上呆太久时间。在谷歌努力追赶OpenAI的过程中,后者有将近一年的时间来开发新一代人工智能模型GPT-5。
谷歌发布在社交媒体X上的演示视频乍一看令人印象深刻。谷歌的人工智能模型能够追踪塑料杯下的纸球,或者在勾勒出图片轮廓之前就推断出会是一只螃蟹,这些都显示出谷歌DeepMind人工智能实验室多年来训练的强大推理能力。这是其他人工智能模型所缺少的功能。但视频中展示的许多其他功能并不是谷歌独有的,ChatGPT Plus3也可以做得到,沃顿商学院教授伊森·莫里克(Ethan Mollick)就用实验证实了这一点。
此外,谷歌也承认演示视频被编辑过。该公司在视频描述中说:“为了达到演示效果,我们缩短了延迟时间,Gemini的输出也压缩了。”这意味着模型做出响应所花费的时间实际上要比视频中展示的长。
事实上演示也不是实时的,也没有通过语音交互完成。谷歌的一位发言人在谈到这段视频时表示,这段视频是“使用视频中的静止图像帧,并通过文本提示”制作出来的。有网站展示了其他人如何通过手势、绘画或其他物体的照片与Gemini互动。换句话说,演示视频中的声音只是在解释给Gemini做了哪些人工提示,Gemini输出的依旧是静态图片。这似乎与谷歌所谓一个人可以与Gemini进行流畅对话、模型可以实时观察周围世界并做出反应的暗示完全不同。
演示视频也没有说明展示是Gemini Ultra人工智能模型。这些细节表明,谷歌更多是在进行营销,希望人们记住自己拥有世界上最大的人工智能研究团队之一,并且比其他任何人都能获得更多数据。正如谷歌在周三所做的那样,公司希望在Chrome、Android和Pixel手机上推出适用于终端设备的Gemini模型,提醒人们公司的部署网络规模有多庞大。
但在科技行业,无处不在并不总是看起来那么有优势。早期的手机霸主诺基亚(和黑莓)就经历过惨痛教训,苹果用功能更强大、更直观的iPhone抢走了它们的市场。在软件领域,商业上的成功往往来自于性能最好的系统。
几乎可以肯定的是,谷歌这番操作是为了利用OpenAI最近的动荡局势。据报道,当OpenAI董事会暂时罢免首席执行官萨姆·奥特曼(Sam Altman),使公司的未来发展受到质疑时,谷歌迅速发起了一场营销活动,说服OpenAI企业客户转向谷歌。现在,随着Gemini的发布,谷歌似乎正在利用这种不确定性。
但演示的效果有限。谷歌之前已经展示过新技术,但没有任何进展。到目前为止,谷歌的庞大架构和层叠复杂的产品经理设置使其无法像OpenAI那样灵活发布产品。随着全社会努力应对人工智能的变革性影响,谷歌的最新举措并不是一件坏事,但效果有待观察。可以肯定的是,谷歌仍然在后面努力追赶。