AI进入推理模型时代,一文带你读懂思维链

人工智能 新闻
今天这篇文章将带你了解思维链(CoT)的相关研究和技术。

这种方法类似,只是它不仅要强制选择最可能的 token,还要查看整个响应的置信度分数。

图片

评估内部置信度分数

为此,系统首先会启动一定数量 k 的初始顶部 token,然后从每个 token 生成路径。生成答案后,它会通过分析不同路径中每个 token 的概率(logit)来计算置信度分数。

返回的结果是具有最高概率的答案(或路径)。

这种方法称为 Decoding CoT,由 DeepMind 提出。这种方法的思想是查看模型对返回答案的内部置信度。

但是如果它没有回答问题的固有知识会发生什么?与 CoT-SC 一样,这种方法在很大程度上取决于模型首先是否具有正确的答案。

不过,这并不意味着我们不应该测试它。

对于所有这些技术,都有人开源了不同的实现,这个也不例外。

因此,我很容易就建立了一个系统来测试这些方法,并比较哪种方法在较小的开源模型 Llama 3 8B 上表现更好。

图片

感谢 Codelion 开源他的实现,让我可以轻松复现:https://github.com/codelion/optillm

从上面的结果可以看到,与其他方法(例如 Entropy)或仅使用贪婪解码来处理此特定模型相比,使用 Decoding CoT 显然产生了最佳结果。

更新的技术

现在的研究进展很快,很难完全跟进。这里不会过多论述,但我确实想提一下 Tree of Thoughts (ToT),特别是与蒙特卡洛搜索的结合时。

ToT 于 2023 年底由普林斯顿大学和 DeepMind 提出,但通常建立在以前的基于树的推理方法之上。

ToT 不同于具有自我一致性的思维链(CoT-SC)。ToT 不会生成多条路径,而是在生成后才对其进行评估,而是在思维推进过程中对其进行动态评估。

图片

简单演示 ToT 

我们可以将 ToT 想象为 4 个不同的人聚在一起解决问题。每一步,他们都会提出自己的想法,并共同评估哪些想法看起来最有希望。如果一个人的推理似乎有缺陷,他就会离开,其他人会继续推进他们的解决方案。

最后,推理正确的人将能够为你提供答案。

这使得模型可以动态修剪看起来乏善可陈的路径,专注于更有希望的线程,从而节省资源。

但是,有人可能会问,系统如何决定哪个线程是对的,哪个线程是错的?这是由模型本身决定的。

这也是为什么像蒙特卡洛树搜索(MCTS)这样的扩展可以提供更多无偏见的评估机制。MCTS 允许反向传播,这意味着它可以根据新信息重新审视和改进早期步骤,而简单的 ToT 只会向前移动。

在 4 个人解决问题的案例中,MCTS 会允许人们有不太理想的思维,但仍会在游戏中停留更长时间。这种情况的评估方法会有所不同。

MCTS 可以模拟多种未来路径,评估其潜力,并回溯以改进早期决策。它引入了外部指标(奖励),而不是完全依赖模型。

像 UCB(置信上限)这样的统计数据使用这些奖励来决定进一步探索或重新审视哪些想法。

MCTS 比简单的 ToT 稍微复杂一些,值得单独写一篇文章。

CoT 的经济学

所以,到目前为止,你可能会想:好吧,我们已经有一些改进,为什么不总是使用更高级的思维链形式呢?

首先,成本(以及思考时间)。

对于应用于不同模型的链,这里计算的是平均推理步数。

图片

从这个角度来看,你平均要为每个问题支付高达 8 倍的费用。对于在高级数学问题上表现最好的 Sonnet,你每 500 个问题最多要支付 15 美元。

这看起来可能不多,但是一旦你每天使用这个系统为客户服务或你的团队生成答案,那每月的消耗可达数百乃至数千。

在某些情况下,使用高级推理方法是有意义的,但并非总是如此。

现在可能存在对 CoT 进行微调的情况,可从根本上消除了多次调用的需要。

这里有一点需要权衡考虑:我们希望增加思考时间,让模型有足够的时间进行有效推理,但这样做也会增加用户的失望情绪和成本。

构建智能系统

去年 9 月,一篇题为「To CoT or not to CoT?」的论文发表,该论文认为应用 CoT 带来的大多数改进主要在数学和复杂推理方面。

我们在这里也看到了这一点,在简单的问题上,CoT 带来的提升有限。

当我们应用这些链时,我们必须等待更长时间才能得到答复。这值得吗?应该注意的是,对于简单的任务来说,所有这些策略都可能有点过头了。

但是,如果你正在构建一个需要确保答案正确的系统,那么采用某种形式的 CoT 或解码可能会大有助益。

或许,一种值得考虑的做法是:先用一个模型根据任务难度来设置前面几步,然后分析它是否有信心一开始就解答这个问题。然后让模型推理(通过链),最后用另一个模型对其响应进行评分。


责任编辑:张燕妮 来源: 机器之心
相关推荐

2021-09-13 22:34:56

区块链新基建数字化转型

2019-06-13 21:31:19

AI

2022-07-26 00:00:03

语言模型人工智能

2024-08-09 12:44:45

JavaScript原型链链条

2025-02-28 06:35:47

2023-11-20 14:58:30

人工智能AI Agents

2022-05-31 08:01:53

微前端巨石应用微服务

2020-06-05 14:15:29

可视化数据集分析

2021-03-05 09:10:19

base64编码

2023-11-26 19:31:18

2023-12-27 14:03:48

2018-11-16 10:04:14

云存储磁带存储RAID

2018-11-30 09:40:05

AI专核手机芯片

2021-08-04 16:06:45

DataOps智领云

2023-12-22 19:59:15

2023-09-17 23:09:24

Transforme深度学习

2023-12-26 14:12:12

人工智能机器学习Gen AI

2023-12-10 14:59:53

2023-10-16 23:37:56

2018-10-18 11:00:50

人工智能机器学习模型偏差
点赞
收藏

51CTO技术栈公众号