Trump当选概率有多大？UC伯克利CAIS联手打造「AI预言家」，吊打人类分析师-51CTO.COM

LLM的神奇职能，又多了一个。

用更形象的话说，就是中国的「算命签」、欧洲的「水晶球」，可以用「超人」的能力预测未来。

去年12月，Nature就刊登了一篇研究，可以用LLM预测一个人生活中即将发生的事件，就像预测句子中的next token一样。

图片

实验结果表明，这个模型甚至能预测一个人未来4年内死亡的可能性，准确率高达78.8%。

最近，AI安全中心总监Dan Hendrycks联合加州大学伯克利分校的研究人员，开发了一个更强大的系统FiveThirtyNine，预测更宏观的社会事件，比如「Trump能否赢得2024年大选」。

图片

这个AI预测机器人基于GPT-4o构建，用户输入想查询的事件，FiveThirtyNine就能预测出发生的概率，就像天气预报中给出的下雨概率一样。

那么预测的准确度和可信度如何？

知名作家、民意调查师Nate Silver最近在一档节目上表示，AI不会很快取代人类预测分析师的能力。想看到超人的预测能力，起码要等15年。

图片

Nate Silver最新预测：Trump有64%的获胜几率

但这个项目的作者表示不服，他们表示，539的表现好过经验丰富的人类预报员单打独斗，大致和一群预报员合作的表现相当，甚至更好。

因此，分析预测市场很快就能通过AI实现自动化！

从项目Demo中也能发现，539能够预测的事件范围也很广泛，比如美国大选是政坛事件，其他领域包括生物安全、AI技术、环境健康、网络安全等也都能预测。

图片

原文地址：https://www.safe.ai/blog/forecasting

Demo地址：https://forecast.safe.ai/

除了放出博客文章和Demo，研发团队还计划出一篇详细的技术报告，虽然还没完稿，但坑位已经占上了，感兴趣的朋友可以期待下。

图片

原文地址：https://drive.google.com/file/d/1Tc_xY1NM-US4mZ4OpzxrpTudyo1W4KsE/view

为什么给这个机器人取名叫FiveThirtyNine？

原作者特地发推解释，原来是想致敬著名的民意预测员Nate Silver，但又要表示AI的能力比他强，因此本来计划取名为Nate Gold。

但没得到本人同意，只好借用他twitter名的后缀538，再+1表示「迭代」一版，就得到了539。

FiveThirtyNine工作原理

这里，简单总结下FiveThirtyNine的工作原理。

举个例子，如果向FiveThirtyNine询问「Trump会赢得2024年美国总统大选吗？」。

接收了这一Prompt的FiveThirtyNine，就如同一个AI预言家一样，会借助搜索引擎检索相关的新闻和文章，整合信息并做出预测。

基于GPT-4o的FiveThirtyNine的预测示例

Prompt的内容也是很重要的，可能是为了复现方便，作者给出了实验中使用的prompt模板。

图片

在充足的先验知识的基础上，FiveThirtyNine首先会依据事实总结归纳。

对一件事的Yes/No两方面，539会分别给出支持或反对的理由，再依据重要性分配相应的权重，可解释性拉满了。

图片

比如，预测Trump当选的论据包括：票仓强劲、支持率经常被低估、刚获得的法律豁免权、他主张的经济复苏措施等等。

图片

反面的论据也有5个，同样现实且有力，包括Harris民意调查领先、筹款优势和关键人群的支持，以及Trump本人的极化倾向和法律挑战。

总结这些论据后，FiveThirtyNine还会「酌情处理」消极新闻、抓马事件和耸人听闻的偏见，整合多重因素，给出一个初步的概率。

图片

最后，它还需要对这个概率值进行理性分析，结合推理进一步优化，并给出校准后的概率——在本例中为52%。

图片

AI预言家优于市场预测

为了测试AI预言家的表现，作者们借助Metaculus平台的问题对其进行了评估。

为了比较的公正性，AI预言家与人工预言家使用相同的信息。

值得注意的是，GPT-4o的数据仅囊括2023年10月之前的，因此研究者将新闻和文章都限定在该日期前，要求539和人类分别计算Metaculus中177个事件发生的概率。

针对这177个事件，Metaculus自身模型的预测准确率为87.0%，而FiveThirtyNine将其提升至87.7%±1.4。

相对于市场预测，AI预言家具有多种其无法比拟的优势。如，它能在几秒内快速生成预测，速度比当前市场预测高了几个数量级。

不仅速度更快，还不需要额外的奖励机制去优化预测，在精度相当的情况下，显然AI预言家更具性价比。

局限性

虽然作者放话表示，AI预言家已经优于人类预测员，但这个机器人依旧存在不少工程和性能上的局限性。

比如，539依旧会对无效查询做出回应，因为作者还没给它加上拒绝功能。

实时更新知识库这方面，也有显著的缺陷，毕竟它还没能接上推特的API。

5G冲浪的网友可以马上知道推特上的热门事件，但如果涉及到预训练所用的知识库盲区，539就一无所知。

比如，刚刚完成预训练的539还不知道Joe Biden已经退选，如果不重新过一遍知识库，依旧会傻傻地预测Biden当选的概率。

图片

尤其是对于那些迫在眉睫、即将见分晓的事件，这种迟钝的反应是完全比不上人类的。

更重要的是，当前的「AI预言家」没有经过微调，还未达到最优精度，仅仅是依据工程化的Prompt检索并撰写总结报告。

图片

可通过单击forecast.safe.ai中的齿轮图标找到它的prompt

此外，「自动化偏见」（automation bias）也是一个重要的问题，推特评论区也有网友问到。

图片

「自动化偏见」是社会心理学领域的发现，即人类倾向于过度依赖自动化系统的建议，而忽略而忽略非自动化方式产生的矛盾信息，即使这些信息是正确的。

作者表示，这个问题或许可以通过优化界面来改进或避免。

尽管机器人在广度、速度和准确性方面通常表现优异，但在某些特定方面，它依旧比不上人类。

比如在非常依赖专业知识的金融领域，539对市场的预测能力还没有被验证。

它的预测还可能忽视尾部风险，造成「自证预言」。如果改进这一缺陷，AI预言家的预测精度可能会得到极大的提升。

研究者称，最初将其称为超人，并不是指它在各个方面都无懈可击，只是想表达AI预言家的预测能力并不比人类逊色。

就像何恺明大神也会宣称PReLU网络在ImageNet上有「超人性能」一样，虽然也会犯人类不可能犯的错误，但不耽误AI在某些方面匹配甚至超越人类表现。

图片

「AI预言家」能干什么

如果说，以维基百科为代表的认知技术，推动了人类参与知情讨论、维持现实共识，以及构建共同的世界观，那么未来AI的用途，可能会走得更远。

作为中立的智能第三方，「AI预言家」或许可以改进决策和公共话语，有助于缓和极端、立场两极分化的事件。

完善聊天机器人功能

将AI预测功能集成到AI聊天机器人或个人AI助手中，可以辅助决策、规避风险。

例如，可以为政策制定者们提供值得信赖、公正的概率评估，还可以帮助量化专家规避风险。

图片

补充新闻报道

AI预言家还可用来补充新闻报道，比如帮助预测加州AI安全法案SB 1047成功签署的可能性。

图片

美国著名天文学家Carl Sagan曾说过，「如果单纯积累力量而不增长智慧，人类必定会走向自我毁灭的道路」。

不可否认，未来AI技术将不断变强，而其所具备的预测能力也有望为我们提供预警式和启发式的建议。

网友评论

「AI预言家」这个项目可以说是看点十足，很能吸引眼球，但推特上的网友大多持负面评论。

有人认为这只是给GPT-4o套了个壳、做了点提示工程，本质上是一个「新闻阅读器」的应用。

图片

还有人指责作者「路走歪了」，除了炒作，这类项目完全看不到价值或实际功用。

图片

此外，也有技术方面的质疑。

因为作者提到，在评估时允许机器人接入互联网，在有日期截断的前提下，防止它得知事件结果。

但「日期截断」这个功能完全不可靠，反例一抓一大把，因此评估结果也是靠不住的。

图片

其中的技术含量究竟有多少？所谓「超越人类表现」的评估结果到底能告诉我们什么？

看来只有等技术报告发布后才能得知了。

参考资料：

https://www.safe.ai/blog/forecasting

https://x.com/DanHendrycks/status/1833152719756116154