“年轻的”IMO选手：扫荡“围棋”后，开始扫荡“数学” 原创

发布于 2024-8-2 15:18

浏览

0收藏

谷歌称著名数学家蒂莫西·高尔斯爵士（Sir Timothy Gowers）和约瑟夫·迈尔斯（Joseph Myers）博士使用国际海事组织（IMO）的官方规则对人工智能模型的解决方案进行了评分。该公司报告称，其组合系统获得了42分中的28分，略低于29分的金牌门槛。

AlphaProof解决了两个代数问题和一个数论问题，而AlphaGeometry 2解决了几何问题。这包括在比赛中最难的问题上获得满分，谷歌声称今年只有五名人类参赛者解决了这个问题。

“年轻的”IMO选手：扫荡“围棋”后，开始扫荡“数学”-AI.x社区

图表显示了AlphaProof+AlphaGeometry 2在IMO 2024上相对于人类竞争对手的性能。AI获得28分（满分42分），达到了与比赛中银牌得主相同的水平。

1.AlphaProof

形式语言的优势在于能够验证数学证明的正确性，但由于数据稀缺，在机器学习的过程成为瓶颈。自然语言方法可以拥有更多的数据，但会产生不正确的推理步骤。AlphaProof通过微调语言模型将自然语言问题陈述转化为正式陈述来弥合这一差距，从而创建一个具有不同难度级别的大型正式问题库。

AlphaProof使用Gemini模型的微调版本，将自然语言的数学问题转换为一种称为 Lean 的正式断言，同时将预训练的语言模型与AlphaZero强化学习算法相结合。

当给定一个问题时，它会生成候选解决方案，并通过在正式断言语言Lean中搜索证明步骤来证明或反驳它们。每个经过验证的证明都用于加强AlphaProof的语言模型，从而提高其解决更具挑战性问题的能力。

该系统针对涵盖各种困难和数学主题的数百万个问题进行了训练，这些问题涉及到广泛的数据领域，且都是相当困难的问题。哪怕它在参加国际数学奥林匹克竞赛（IMO）竞赛期间也进行了循环训练。

“事实上，程序可以提出像这样不明显的结构，这非常令人印象深刻，远远超出了我的认知。” — Timothy Gowers 爵士教授，IMO 金牌得主和菲尔兹奖获得者。

在今年的比赛之前，AlphaGeometry 2可以解决过去25年中所有历史IMO几何问题的83%，而第一代只能解决53%。

对于IMO 2024，AlphaGeometry 2在收到其形式化后的19秒内解决了问题4。

“年轻的”IMO选手：扫荡“围棋”后，开始扫荡“数学”-AI.x社区

问题4要求证明∠KIL和∠XPY之和等于 180°。AlphaGeometry 2建议构造 E，即直线BI上的一个点，使∠AEB = 90°。点E有助于确定AB的中点L，从而创建许多相似三角形对，例如证明结论所需的 ABE ~ YBI和ALE ~ IPC。

2.正式的推理方法

AlphaProof训练自己用形式语言Lean来证明数学断言。它将预训练的语言模型与AlphaZero强化学习算法相结合，该算法以前自学如何掌握国际象棋、将棋和围棋的游戏。

“年轻的”IMO选手：扫荡“围棋”后，开始扫荡“数学”-AI.x社区

上图为AlphaProof的强化学习训练循环的过程信息图。大约有100万个非正式数学问题被形式化网络翻译成正式的数学语言。然后，求解器网络搜索问题的证明或反驳，通过AlphaZero算法逐步训练自身以解决更具挑战性的问题。

这项研究的意义在于通过以更扎实的方式应用逻辑和推理来解决大型语言模型的最坏趋势的前景。大型语言模型往往难以掌握基本的数学知识，也无法从逻辑上推理问题。

未来神经符号方法可以为人工智能系统提供一种方法，将问题或任务转化为一种形式，可以以一种产生可靠结果的方式进行推理。例如OpenAI正在研发代号为“草莓”的系统。

研究人员指出谷歌DeepMind不会让人类数学家失业。“我们的目标是提供一个可以证明任何事情的系统，但这并不是数学家工作的终点，”，“数学的很大一部分是提出问题，并找到要问的有趣问题。你可能会把它看作是另一种工具，类似于滑尺、计算器或计算工具。”

本文转载自鲁班模锤，作者：庞德公

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

谷歌

AlphaProof

形式语言

相关推荐

Up主已经开始鬼畜，腾讯开源「AniPortrait」让照片唱歌说话

轻薄滴假象 • 723浏览 • 0回复
初创公司如何从零开始训练出优秀的LLMs

lintoms • 1051浏览 • 0回复
加州理工华人用AI颠覆数学证明！提速5倍震惊陶哲轩，80%数学步骤全自动化

duhorse • 1213浏览 • 0回复
大模型开始进入收益递减的时代？

lintoms • 911浏览 • 0回复
从零开始，用英伟达T4、A10训练小型文生视频模型，几小时搞定！

angel • 1480浏览 • 0回复
DSARE：当传统NLP遇到LLM后的关系提取新思路

大语言模型论文跟踪 • 897浏览 • 0回复
语言模型的神秘面纱：小学数学与隐含推理过程

sbf_2000 • 445浏览 • 0回复
用ChatGPT逆向工程压缩后的Js代码，表现惊艳

Syrupup • 1901浏览 • 0回复
不要沉迷大模型的技术与理论，学习大模型的方法——从做一个小应用开始

AI探索时代 • 852浏览 • 0回复
当你研究过了900个开源大模型项目后，你能学到什么？

鱼虫子 • 535浏览 • 0回复
解读AI大模型，从了解token开始

ermulong • 887浏览 • 0回复
不要上来就大模型，从训练一个小模型开始

AI探索时代 • 605浏览 • 0回复
你对大模型认知的开始——大模型的能力问题

AI探索时代 • 506浏览 • 0回复
AI数学天才还是数字骗子？GSM-Symbolic揭秘大语言模型的数学推理能力

sbf_2000 • 673浏览 • 0回复
【智汇金秋创造季】智汇成海，致敬开发者的“超级码力”！

AI.x社区官方账号 • 32.8w浏览 • 148回复
解读AI大模型，从了解token开始

ermulong • 347浏览 • 0回复
Kimi官宣，国内首个对标OpenAI的数学模型来了

风云2002_1 • 342浏览 • 0回复
OpenAI o1 模型到来后，谈谈提示词工程的未来

Baihai_IDP • 404浏览 • 0回复
漫画 Transformer：手把手用数学公式推导

sulu637 • 397浏览 • 0回复

鲁班模锤1

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

“年轻的”IMO选手：扫荡“围棋”后，开始扫荡“数学” 原创

1.AlphaProof

2.正式的推理方法

目录