谷歌提出大规模ICL方法——强化和无监督

Aceryt

发布于 2024-5-15 10:35

浏览

0收藏

大语言模型在自然语言处理任务中取得了显著的突破，尤其是是在少样本学习和上下文学习（in-context learning，简称“ICL”）方面。虽然在少样本学习中表现出色，但无法探索更大规模的上下文学习潜力。

随着大模型上下文窗口的大幅度增长，例如，谷歌的Gemini 1.5 Pro模型支持100万tokens上下文，使得研究人员有机会探索更多的ICL示例，以增强大模型的学习和输出能力。

谷歌Deepmind的研究人员提出了强化和无监督两种ICL学习方法，可显著提升模型的数学问题解决、文本问答、摘要生成、算法推理、低资源机器翻译等场景能力，同时大幅度降低人工标注的成本。

论文地址：https://arxiv.org/abs/2404.11018

谷歌提出大规模ICL方法——强化和无监督-AI.x社区

强化ICL

传统的ICL主要依赖于人类生成的示例来学习新的输出模式，但这种方法受限于高质量数据的可用性。而谷歌提出的强化ICL通过使用模型生成的推理链来代替人类编写的示例输出，可有效减少对人类生成数据的依赖。

强化ICL主要通过已有的模型来生成问题解决的候选推理链，从少量或零示例的链式思考提示开始，使模型能够为每个训练问题生成多个推理链。

然后，使用一个独立的评估模块,对生成的推理链、输出对进行打分过滤,只保留高质量的部分，并将它们作为上下文示例应用在模型的学习中。

研究人员在一系列推理和问答数据集上测试了强化ICL性能,结果显示,可以在不依赖额外人工标注的情况下,持续提升模型的多ICL性能。

例如,在谷歌的GPQA数据集上,使用强化ICL产生的8192个示例,使得大模型的准确率高达67.8%,大幅超过了仅使用128个人工标注示例50.2%。

谷歌提出大规模ICL方法——强化和无监督-AI.x社区

在谷歌的GSM8K编程问题数据集上,使用500个强化ICL生成的示例,模型的准确率达到84%,而仅使用4个人工标注示例时的准确率只有78.1%。

谷歌提出大规模ICL方法——强化和无监督-AI.x社区

除了大模型的性能获得显著提升,强化ICL还显著降低了人工成本。以MATH数学题为例,生成4000个高质量的问题解答示例,纯人工标注需180人小时,而使用强化ICL生成只需10人小时，大幅度降低了18倍的人力成本。

无监督ICL

无监督ICL不依赖于传统的输入-输出示例对，而是仅通过问题本身的上下文来引导模型学习，帮助模型能够利用其在预训练阶段获得的知识，来理解和解决问题，而无需额外的示例指导。

首先，根据任务的需求，从未标注的数据中选取合适的文本片段作为上下文。这些上下文可以是单个句子、段落或者更长的文本。然后将构建好的上下文输入到大语言模型中，让模型根据上下文的内容进行推理和预测。

谷歌提出大规模ICL方法——强化和无监督-AI.x社区

最后，将模型推理的结果与真实情况进行对比，计算损失函数并更新模型的参数。但需要注意的是，由于无监督ICL没有标注任何数据，很多示例是基于某种启发式方法或者先验知识实现的。

此外，在研究过程中，研究人员还发现了一些有趣的现象，大规模ICL与少样本学习存在差异。但大模型可以克服预训练偏差，并解决具有数值输入的高维预测任务，例如，顺序奇偶预测和线性分类等。

谷歌提出大规模ICL方法——强化和无监督-AI.x社区

本文转自 AIGC开放社区，作者：AIGC开放社区

原文链接:https://mp.weixin.qq.com/s/sPITVBWr9xNlALcNm0urkg

标签

模型

谷歌

相关推荐

【LLM】提升大规模并行训练效率的方法

sbf_2000 • 2400浏览 • 0回复
监督学习、无监督学习、强化学习、深度学习等等！

parson2000 • 2201浏览 • 0回复
阿里 HPN：针对大规模 LLM 训练的万卡集群

amei2000go • 3886浏览 • 0回复
监督学习、无监督学习、强化学习、深度学习等等

parson2000 • 2698浏览 • 0回复
什么监督学习，无监督学习与深度学习？它们之间有什么区别和联系？

AI探索时代 • 5777浏览 • 0回复
大模型的训练与调优，SFT(监督微调)和RLHF(基于人类反馈的强化学习)到底是什么？

AI探索时代 • 5025浏览 • 0回复
LLaMA 3 背后的大规模 GPU 集群 RoCE 网络建设

amei2000go • 2754浏览 • 0回复
Jamba-1.5：大规模混合Transformer-Mamba模型

sbf_2000 • 1616浏览 • 0回复
大规模分布式 AI 模型训练—张量并行

amei2000go • 1562浏览 • 0回复
大规模分布式 AI 模型训练系列——流水线并行

amei2000go • 2054浏览 • 0回复
大规模分布式 AI 模型训练系列—专家并行

amei2000go • 5740浏览 • 0回复
ChatGPT 与 AI 会议同行评审：大规模监测 AI

51CTO技术栈 • 838浏览 • 0回复
大模型的训练与调优，SFT(监督微调)和RLHF(基于人类反馈的强化学习)到底是什么？

AI探索时代 • 4377浏览 • 0回复
详解大规模基础模型中的幻觉问题（幻觉检测、缓解、任务、数据集和评估指标）

angel • 2513浏览 • 0回复
谷歌提出视觉记忆方法，让大模型训练数据更灵活

Aceryt • 813浏览 • 0回复
为什么预训练大模型要使用无监督学习的方式？

AI探索时代 • 1080浏览 • 0回复
详解大规模基础模型中的幻觉问题（幻觉检测、缓解、任务、数据集和评估指标）

angel • 2402浏览 • 0回复
机器学习四大范式：监督学习、无监督学习、半监督学习和自监督学习

智驻未来 • 7827浏览 • 0回复
大规模相似性搜索：原理、技术与 Faiss 实践

柏企阅文 • 728浏览 • 0回复

Aceryt

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

谷歌提出大规模ICL方法——强化和无监督

目录