如果你因为关注格莱美奖而错过了这一消息,那么让我来告诉你:OpenAI在周日晚间宣布推出其新的“Deep Research(深度研究)”模式,令全世界为之震惊,这是一项面向ChatGPT Pro订阅计划(200美元/月)用户的AI工具,旨在通过深入且广泛地研究网络上的特定主题,并汇编出涵盖商业、科学、医学、营销等多个专业领域的高质量报告,从而为用户节省数小时的时间。
美国的ChatGPT Pro(以及即将推出的ChatGPT Plus、Team、Enterprise和Edu)用户将能够通过点击ChatGPT网站和应用程序底部提示输入/撰写栏下方的选项来访问Deep Research。
OpenAI的CEO Sam Altman在其个人社交网络X账号上发布的一系列帖子中描述这一功能“如同超能力,随叫随到的专家!”他补充道,“它真的非常出色,能够完成那些需要数小时/数天并花费数百美元的任务。”
Deep Research基于OpenAI的O系列推理模型,特别是即将发布的完整o3模型(一个更小、功能较弱的o3-mini模型已于1月31日推出)。完整的o3模型能够分析大量信息,并将文本、PDF和图像整合成一个连贯的分析。
在YouTube上发布的直播中,OpenAI前沿研究负责人Mark Chen解释称,Deep Research能够在“互联网上进行多步骤研究,它发现内容、合成内容并对这些内容进行推理,随着发现越来越多的信息,不断调整其计划。”
Chen还强调了这项创新对于OpenAI愿景的重要性:“这是我们AGI路线图的核心,我们的最终目标是打造一个能够自行发现和探索新知识的模型。”
Deep Research的推出是OpenAI官方工具中的第二个,此前本月早些时候已推出了浏览器和光标控制工具Operator。OpenAI Stargate Command任务对齐负责人Joshua Achiam在X上写道,这两个模型都有助于更好地定义“AI工具”的概念——这是一个当前在企业中流行但模糊不清的术语——其意义远超公司或这些特定用例。
“我觉得‘工具’这个词在沙漠里徘徊了一段时间,”Achiam写道,“它没有基础或示例可以指向,但Operator或Deep Research等工具为这个概念赋予了一定的形态。一个工具是一个GenAI,它为你执行一个或多个使用工具的工作流。”
OpenAI的Deep Research在“人类最后一场考试”AI基准测试中取得新最高分
Deep Research在准确性和推理方面树立了新的基准。
OpenAI研究团队成员Isa Fulford在YouTube直播中分享称,该模型在“人类最后一场考试”中取得了“26.6%准确率的新高”。“人类最后一场考试”是一个相对较新的AI基准测试,旨在成为任何AI模型(或人类)最难完成的测试,涵盖100个不同领域的3000个问题,如翻译考古发现上的古代铭文。
此外,其浏览网页、动态推理和精确引用来源的能力使其区别于早期的AI工具。
“该模型是在困难的浏览和推理任务上通过端到端的强化学习进行训练的,”Fulford说,“它学会了规划和执行多步骤轨迹,对实时信息做出反应,并在必要时回溯。”
Deep Research的一个突出特点是其处理任务的能力,这些任务否则可能需要人类花费数小时甚至数天的时间。
在宣布时,Chen解释说,“Deep Research生成的输出类似于一篇全面、充分引用的研究论文——这是该领域的分析师或专家可能会产出的内容。”
应用场景和用例
Deep Research的应用场景既多样又具有影响力。
OpenAI的官方X账号发布称,它是“为在金融、科学、政策和工程等领域从事密集知识工作并需要彻底和可靠研究的人员而构建的。”
根据OpenAI在其官方Deep Research宣布博客文章(其中包括对某人购买的最佳滑雪板的详细研究评估)中分享的示例,对于寻求个性化推荐或进行详细产品研究的消费者来说,它也显得很有价值。
Altman总结了该工具的多样性,他写道:“在你最难的工作任务上试试它,这些任务只需通过互联网就能解决,看看会发生什么。”
Deep Research的个人医疗成功案例
OpenAI政府市场拓展负责人Felipe Millon分享了一个关于Deep Research如何影响他家庭的深刻个人经历。他在X上的一系列帖子中写道,他的妻子与双侧乳腺癌抗争,而这款AI工具成为了他们意想不到的盟友。
“10月底,我的妻子被诊断出患有双侧乳腺癌,”Millon写道,“一夜之间,我们的世界天翻地覆。”
在经过双乳切除术和化疗后,这对夫妇面临了一个关键决定:是否进行放射治疗。情况充满了不确定性,因为即使他们的专家也给出了不同的建议。“对于她的具体情况,完全处于灰色地带,”Millon解释说,“我们感到束手无策。”
由于提前获得了Deep Research的预览访问权限,Millon决定上传妻子的手术病理报告,并询问放射治疗是否会有益。他写道,“接下来发生的事情令人震惊。它不仅确认了我们肿瘤学家提到的内容——而且更深入。它引用了我从未听说过的研究,并在我们补充了她的年龄和遗传因素等细节后进行了调整。”
他使用的具体提示是:
“阅读附带的手术病理报告,其中包含关于双侧乳腺癌的信息。然后研究[判断]对于该患者在6轮TCHP化疗后,根据其乳腺癌类型,是否建议进行放射治疗。我想了解该患者进行放射治疗的利弊,它降低复发可能性的概率,以及益处是否大于潜在的长期风险。”
Millon和他的妻子核实了模型引用的每一项研究,发现它们准确且高度相关。“我们很快就要去看另一位专家了,但我们已经对自己的决定更有信心了,”他写道,“它在我们最需要的时候给了我们安心。”
可用性和下一步计划?
Deep Research目前可供ChatGPT Pro用户使用,计划扩展到Plus和Team层级,随后是Enterprise和教育市场。
正如Chen所警告的,“它仍然有可能产生幻觉,所以当你制作报告时,一定要自己检查来源。”
该模型长时间自主思考的能力也使其资源密集,OpenAI目前正在努力优化其性能,以提高可访问性。
OpenAI还暗示了未来将与自定义数据集进行集成,这将使企业能够利用该工具进行专有研究。
对于Millon来说,Deep Research的影响已经显而易见。“我们经常在OpenAI内部谈论那些让你‘感受到AGI’的时刻,而这就是其中之一,”他写道,“这个东西将改变世界。”