回复
OpenAI o1很强,也能被玩坏!
OpenAI草莓Q*项目终于发布了,OpenAI o1在具有挑战性的推理基准上遥遥领先于GPT-4o,即使在一些基准上超过了人类PhD水平,也能被玩坏
实线表示pass@1准确率,阴影区域表示 64 个样本的多数投票(共识)表现
OpenAI o1思考一个“句子编写”问题,足足花费92s,经历了漫长的thinking过程:
- 识别单词模式
- 映射单词关系
- 识别押韵模式
- ...
- 权衡各种模式
编写一个句子,遵循与句子 "isold bowls to bold souls" 相同的规则,其中包含四个关键词,sold、bowls、bold 和 souls,并且第1个和第3个单词的结尾相同,第2个和第4个单词的结尾相同,第1个和第4个单词的开头相同,第2个和第3个单词的开头相同。
经典问题,OpenAI o1思考了5s,9.11比9.8大,更换了提问方式后,思考了18s,9.8比9.11大,要多思考ing。
最后来一个有挑战的问题,“统计response的字数”,OpenAI o1虽然意识到这是一个悖论query,经过5个推理过程,最终回答是7个words。
- query:How many words are in your response to this prompt?
- 解决自相矛盾的问题
- 计算字数
- 识别单词模式
- 计算字数
- 澄清回应的准确性
最后一个经典问题是让OpenAI草莓项目数草莓R个数,这次终于是数对了,3个R
另外OpenAI o1给出了思考的过程,也会给出一些推理步骤,这个过程似曾相识:Reflection Llama-3.1 70B的思考过程
Reflection Llama-3.1 70B真的翻车了吗?
https://openai.com/index/learning-to-reason-with-llms/
本文转载自 PaperAgent,作者: PaperAgent
赞
收藏
回复
相关推荐