鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

LACIE：大语言模型中用于置信度校准的听众感知微调

发布于 2024-6-6 07:53

浏览

0收藏

LACIE：大语言模型中用于置信度校准的听众感知微调 -AI.x社区

LLM（大语言模型）通常存在校准不良和过度自信的问题，无论是显性的（例如，“我百分之百确定”）还是隐性的，例如提供详细信息或权威语调。

为了解决这个问题，研究人员采用了一种实用的说话者-听众多代理方法。通过多代理RSA（Rational Speech Acts）和启发式的偏好优化来实现这一点：说话者生成答案，听众根据答案的听起来如何来接受或拒绝它们。

LACIE：大语言模型中用于置信度校准的听众感知微调 -AI.x社区

人们更喜欢自信且正确或不自信且不正确的答案，不喜欢不匹配的答案。通过使用引导的偏好数据，研究人员对LLMs进行微调，使其在隐性和显性上都能够进行校准。

通过模拟听众，研究人员在校准（+20.7 AUROC，-7.8 ECE）和准确性（+18%）方面取得了突破。

LACIE：大语言模型中用于置信度校准的听众感知微调 -AI.x社区

LACIE：大语言模型中用于置信度校准的听众感知微调 -AI.x社区

LACIE：大语言模型中用于置信度校准的听众感知微调 -AI.x社区

更重要的是，这些进展对人类也是有效的，在人类评估中接受的错误答案减少了47%。关键是，LACIE不仅仅优化真实性，即对听众考虑的实用训练是关键。

LACIE：大语言模型中用于置信度校准的听众感知微调 -AI.x社区

研究人员还展示了LACIE的好处在其他数据上也是有效的，当在TriviaQA上训练时，在TruthfulQA上取得了显著的真实性提升！从定性上讲，经过LACIE微调后，模型在正确和错误答案之间的自信度有了更好的区分。

LACIE还会在模型错误时表现出更多的犹豫和详细/显性自信的答案。最后，可以观察到一些有趣的出现特性：LACIE训练导致放弃答案的显著增加，尽管在训练数据中没有这种情况。

调整还会导致模型有点刻薄。当模型自信时，它们会说一些像“当然”或“显然”的话来表达自信

论文：https://arxiv.org/abs/2405.21028

代码：https://github.com/esteng/pragmatic_calibration

本文转载自公众号AIGC最前线

原文链接：https://mp.weixin.qq.com/s/-aAbe8AVnZ09_8g8QlvBeQ

标签

大语言模型

赞

收藏

回复

举报

回复

相关推荐

检索感知微调（RAFT），提升领域RAG效果的新方法

Syrupup • 3678浏览 • 0回复
检索感知微调（RAFT），提升领域RAG效果的新方法

Syrupup • 2338浏览 • 0回复
【LLM】对大语言模型微调优化的研究

sbf_2000 • 3077浏览 • 0回复
检索增强型多模态思维链推理用于大型语言模型

AIRoobt • 2931浏览 • 0回复
你知道什么是微调吗？大模型为什么要微调？以及大模型微调的原理是什么？

AI探索时代 • 5381浏览 • 0回复
谷歌发布专用于个人健康的大语言模型PH-LLM

Aceryt • 1938浏览 • 0回复
大模型微调终极指南

NLP工作站 • 2900浏览 • 0回复
专用于理解游戏场景的开源大模型-VideoGameBunny

Aceryt • 2197浏览 • 0回复
轻松检测、校准大模型能力

Aceryt • 2140浏览 • 0回复
关于大模型微调与训练的问题，大模型训练的难点在哪里？

AI探索时代 • 1724浏览 • 0回复
Cephalo：专门用于仿生设计的多模态视觉大型语言模型

鲁班模锤1 • 2308浏览 • 0回复
微调大型语言模型（LLM）的五个技巧

51CTO内容精选 • 1806浏览 • 0回复
浅看大模型用于Text2SQL的综述

大模型自然语言处理 • 2300浏览 • 0回复
Hugging Face 发布 SmolVLM：用于设备端推理的 2B 参数视觉语言模型

Halo咯咯 • 1320浏览 • 0回复
FineMedLM-o1: 基于监督微调与测试时训练的医学推理增强型大语言模型

顿数AI • 2045浏览 • 0回复
进化搜索策略，提高LLM推理深度；学术搜索智能体，RL+PPO；LLM回答置信度

AI研究前瞻 • 1372浏览 • 0回复
多智能体微调：用多样化推理链实现语言模型的自我提升

sbf_2000 • 1674浏览 • 0回复
COSMOS：结合特征子空间分解的混合自适应优化器用于大型语言模型的内存高效训练

顿数AI • 1206浏览 • 0回复
MLLMs人类偏好增强对齐，自然图像和数据图表分离；视觉感知标记，模型自主决定感知内容

AI研究前瞻 • 1276浏览 • 0回复

LV.2

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

22

帖子

187

声望

0

粉丝

关注

最近发布

预测未来模型能力！微调揭示LLM涌现能力的关键 2024-12-09 09:10:30发布
预测未来模型能力！微调揭示LLM涌现能力的关键 2024-12-03 15:46:55发布

热门推荐

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

90%的人都中招的低效陷阱！DeepSeek这招五分钟脑图法让你少熬10夜 1回复

RAG项目必备！文档解析神器MinerU：2.5万星标！支持GPU加速，轻松应对复杂文档 0回复

暴论：2025年，程序员必学技能就是 MCP 0回复

上一篇： LLMCompiler：大模型的并行工具调用

下一篇： Clover - 通过闭环可验证的代码生成确保可信AI生成的代码

社区精华内容

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载