不仅能推理,还能明确展示自己「推理逻辑」的大模型出现了。
OpenAI 的 12 天连续发布已近尾声,但它的热度显然已经被谷歌夺去了许多。从 Gemini 2.0 Flash 到 Veo 2 到今天的 Gemini 2.0 Flash Thinking,谷歌端上来的菜真是一道比一道香。
从名字也能看出来,Gemini 2.0 Flash Thinking 基于 Gemini 2.0 Flash,只是其经过专门训练,可使用思维(thoughts)来增强其推理能力。
据 Jeff Dean 介绍,Gemini 2.0 Flash Thinking 还会明确展示其思考过程。下面是 Jeff Dean 在 X 上发布的一个 demo—— 其中,模型解答了一个物理问题并解释了自己的推理过程,整个过程耗时 1 分多钟。
虽然 Flash 版本还不是 Gemini 2.0 的满血版,但这个 Thinking 模型就已经登顶了 Chatbot Arena 排行榜。Gemini 2.0 Flash Thinking 不仅是总分第一,在编程、数学、创意写作等各项评测任务上都是第一名(有些是并列第一)。
Targum 创始人和 CEO Alex Volkov 则通过 10 个难题对 o1-2024-12-17 和 gemini-2.0-flash-thinking-exp-1219 进行了对比测试,结果发现这两个推理模型的表现相当,而后者的速度要快得多。
而根据另一位研究者 Subhash Peshwa 的测算,Gemini 2.0 Flash Thinking 的思考速度是 o1-mini 的 2 倍。
Gemini 2.0 Flash Thinking 发布后,网友们都纷纷点赞,并乐见其与 ChatGPT 和 Claude 等聊天机器人的竞争。
目前,Gemini 2.0 Flash Thinking 实验版完全可以免费使用,感兴趣的读者可访问:https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-thinking-exp-1219
表现优异,但也会犯错
首先,Gemini 2.0 Flash Thinking 在数学推理方面速度快、质量高。例如,Gemini 2.0 Flash Thinking 在 14 秒内破解了 goto 数学题,比任何其他可以解决该问题的模型快 5 倍:
在一道求解数学期望的问题上,OpenAI 的 o1 求解错误,而且推理速度很慢,而 Gemini 2.0 Flash Thinking 仅用 2/7 的时间就正确解答:
解一道简单的数学推理题:挑选数字小球,使数字总和为 30:
来源:https://x.com/OfficialLoganK/status/1869789822384255300
Gemini 2.0 Flash Thinking 迅速解答,而且给出了详细的推理过程。
DeepMind 首席科学家 Jack Rae 在纸上手写了一道数论问题,也是他的工作面试问题,Gemini 2.0 Flash Thinking 轻松解决了:
来源:https://x.com/drjwrae/status/1869806621024772096
可见,Gemini 2.0 Flash Thinking 可以准确识别视觉内容,并进行数学推理。
有时也会翻车,知道「strawberry」有 3 个「r」,但「strawberrry」就数不清了:
「9.9 和 9.11 谁大」这事还是没能解决:
顺带一提,关于现在的 LLM 难以数出 strawberry 中 r 数量的深层原因,可以参阅机器之心之前的报道《他们掰开神经元,终于让大模型 9.8 大于 9.11 了:神秘创业公司,开源 AI「洗脑」工具》。
Gemini 2.0 Flash Thinking 还有能力理解和解答非常困难的问题,比如斯坦福 NLP 的统计学家 Zitong Yang 就分享了自己的一个用来测试推理模型的问题:三赌徒问题。然后他惊喜地发现,Gemini 2.0 Flash Thinking 成为了首个正确解答该问题的模型,而他之前测试的 o1-preview、o1、r1、QwQ 模型都未能过关。
三赌徒问题:假设三个赌徒最初有 (a, b, c) 美元。每次试验都是随机选择两个玩家,让他们公平地掷一枚硬币;根据输赢,他们会正常地转手 1 美元。玩家一旦破产,就会退出。令 (S_1) 表示一名玩家破产所需的游戏局数。令 (S_2) 表示两名玩家破产所需的游戏局数。求 S_1 和 S_2 的期望。
下面是 Gemini 2.0 Flash Thinking 的部分思考过程和最终答案。
机器之心也上手进行了一番测试。考虑到网络上已有大量使用英语的测试,这里我们就仅使用汉语了。
首先来看看 Gemini 2.0 Flash Thinking 的编程能力:写一个井字棋小游戏,其中用两个不同的 emoji 标记双方的棋子。
可以看到,该模型用了 10.8s 思考,然后用 21.0s 完成了任务。测试一下,该模型生成的代码确实能正确实现功能。
这里再测试一道来自《孙子算经》的古代数学题:今有物不知其数,三三数之剩二;五五数之剩三;七七数之剩二。问物几何?
这一次,Gemini 2.0 Flash Thinking 思考了 11.1s,解答过程则用了 16.3s。有意思的是,该模型不仅正确解答了问题,也根据自己的知识库对相关信息进行了扩展说明。
Gemini 2.0 Flash Thinking 也支持输入图片和音频等模态的数据,可以帮助我们理解梗图或者解答手写的数学问题。
最后,我们来试试 Gemini 2.0 Flash Thinking 能否解读中文的验证码。
很显然,它彻底失败了,一个字都没能正确识别出来,所以暂时还不用担心被 AI 盗号了。
Gemini 2.0 Flash Thinking,着实有趣,就是名字有点长。