OpenAI o1很强,也能被玩坏!

发布于 2024-9-14 12:03
浏览
0收藏

OpenAI草莓Q*项目终于发布了,OpenAI o1在具有挑战性的推理基准上遥遥领先于GPT-4o,即使在一些基准上超过了人类PhD水平,也能被玩坏

实线表示pass@1准确率,阴影区域表示 64 个样本的多数投票(共识)表现

OpenAI o1很强,也能被玩坏!-AI.x社区


OpenAI o1思考一个“句子编写”问题,足足花费92s,经历了漫长的thinking过程:

  1. 识别单词模式
  2. 映射单词关系
  3. 识别押韵模式
  4. ...
  5. 权衡各种模式


编写一个句子,遵循与句子 "isold bowls to bold souls" 相同的规则,其中包含四个关键词,sold、bowls、bold 和 souls,并且第1个和第3个单词的结尾相同,第2个和第4个单词的结尾相同,第1个和第4个单词的开头相同,第2个和第3个单词的开头相同。

OpenAI o1很强,也能被玩坏!-AI.x社区


经典问题,OpenAI o1思考了5s,9.11比9.8大,更换了提问方式后,思考了18s,9.8比9.11大,要多思考ing。

OpenAI o1很强,也能被玩坏!-AI.x社区

最后来一个有挑战的问题,“统计response的字数”,OpenAI o1虽然意识到这是一个悖论query,经过5个推理过程,最终回答是7个words

  1. query:How many words are in your response to this prompt?
  2. 解决自相矛盾的问题
  3. 计算字数
  4. 识别单词模式
  5. 计算字数
  6. 澄清回应的准确性


OpenAI o1很强,也能被玩坏!-AI.x社区


最后一个经典问题是让OpenAI草莓项目数草莓R个数,这次终于是数对了,3个R

OpenAI o1很强,也能被玩坏!-AI.x社区


另外OpenAI o1给出了思考的过程,也会给出一些推理步骤,这个过程似曾相识:Reflection Llama-3.1 70B的思考过程

​Reflection Llama-3.1 70B真的翻车了吗?​


OpenAI o1很强,也能被玩坏!-AI.x社区

https://openai.com/index/learning-to-reason-with-llms/

本文转载自 PaperAgent​,作者: PaperAgent

收藏
回复
举报
回复
相关推荐