鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

OpenAI o1很强，也能被玩坏！

发布于 2024-9-14 12:03

1883浏览

0收藏

OpenAI草莓Q*项目终于发布了，OpenAI o1在具有挑战性的推理基准上遥遥领先于GPT-4o，即使在一些基准上超过了人类PhD水平，也能被玩坏

实线表示pass@1准确率，阴影区域表示 64 个样本的多数投票（共识）表现

OpenAI o1思考一个“句子编写”问题，足足花费92s，经历了漫长的thinking过程：

识别单词模式
映射单词关系
识别押韵模式
...
权衡各种模式

编写一个句子，遵循与句子 "isold bowls to bold souls" 相同的规则，其中包含四个关键词，sold、bowls、bold 和 souls，并且第1个和第3个单词的结尾相同，第2个和第4个单词的结尾相同，第1个和第4个单词的开头相同，第2个和第3个单词的开头相同。

OpenAI o1很强，也能被玩坏！-AI.x社区

经典问题，OpenAI o1思考了5s，9.11比9.8大，更换了提问方式后，思考了18s，9.8比9.11大，要多思考ing。

OpenAI o1很强，也能被玩坏！-AI.x社区

最后来一个有挑战的问题，“统计response的字数”，OpenAI o1虽然意识到这是一个悖论query，经过5个推理过程，最终回答是7个words。

query：How many words are in your response to this prompt?
解决自相矛盾的问题
计算字数
识别单词模式
计算字数
澄清回应的准确性

OpenAI o1很强，也能被玩坏！-AI.x社区

最后一个经典问题是让OpenAI草莓项目数草莓R个数，这次终于是数对了，3个R

OpenAI o1很强，也能被玩坏！-AI.x社区

另外OpenAI o1给出了思考的过程，也会给出一些推理步骤，这个过程似曾相识：Reflection Llama-3.1 70B的思考过程

Reflection Llama-3.1 70B真的翻车了吗？

https://openai.com/index/learning-to-reason-with-llms/1.

本文转载自 PaperAgent，作者： PaperAgent

标签

赞

收藏

回复

举报

回复

相关推荐

刚刚，OpenAI发布史上最强模型-o1，推理能力超人类博士！

Aceryt • 1956浏览 • 0回复
OpenAI发布突破性AI模型o1系列，推理能力大幅跃升重塑行业格局

芝士AI吃鱼 • 2092浏览 • 0回复
六个问题带你看懂什么是理工科学霸-OpenAI o1！

NLP工作站 • 2289浏览 • 0回复
OpenAI o1模型推理能力大幅提升的背后：重复采样如何提升AI推理能力

Syrupup • 2946浏览 • 0回复
OpenAI发布新模型：o1系列模型，更像理科生的模型

大语言模型论文跟踪 • 3485浏览 • 0回复
使用 OpenAI o1 的五种方法「详细指南」

51CTO技术栈 • 4816浏览 • 0回复
国内大模型厂商是如何看待突然的OpenAI o1？跟不跟是个问题！

Syrupup • 1876浏览 • 0回复
OpenAI o1推理模型基础入门

51CTO内容精选 • 1881浏览 • 0回复
被神化的o1模型，规划能力到底如何？

大语言模型论文跟踪 • 2332浏览 • 0回复
草莓OpenAI o1的规划能力怎么样？泰斗Subbarao Kambhampati给你答案！

AIGC最前线 • 2113浏览 • 0回复
开源社区离Openai o1越来越近~

NLP前沿1 • 1897浏览 • 0回复
OpenAI o1：用内部思维链进行复杂推理

shizhi02 • 2025浏览 • 0回复
阿里发布类o1模型QWQ，可自我反思纠错，实测数学推理远超o1、DS-R1，人人免费

51CTO技术栈 • 2160浏览 • 0回复
OpenAI o1 模型到来后，谈谈提示词工程的未来

Baihai_IDP • 1638浏览 • 0回复
Kimi深夜炸场：满血版多模态o1级推理模型！OpenAI外全球首次！Jim Fan：同天两款国产o1绝对不是巧合！

51CTO技术栈 • 1354浏览 • 0回复
DeepSeek R1横空出世，超越OpenAI o1，教你用Ollama跑起来

小虎哦哦 • 1.4w浏览 • 0回复
Kimik1.5、DeepSeek-V3 大战 OpenAI o1，谁能笑到最后？

智驻未来 • 4839浏览 • 0回复
DeepSeek R1 Vs OpenAI o1！全球顶级推理模型训练技术对比大解密！

51CTO技术栈 • 4026浏览 • 0回复
Vision-R1：多模态领域的DeepSeek R1-Zero，7B参数比肩OpenAI O1

Syrupup • 1270浏览 • 0回复

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

帖子

声望

粉丝

关注

最近发布

Llama4 刚开源就要被网友玩坏了！ 6天前发布
DeepSeek与Qwen组团开源了模型，冲! 2025-03-26 09:39:51发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

MCP协议之MCP-server(sse方式)实践 0回复

暴论：2025年，程序员必学技能就是 MCP 0回复

上一篇： RAG+RAU：对检索增强型语言模型（RALM）进行全面、深入综述

下一篇：一个增量式构建知识图谱的项目：iText2KG

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载