无限的场景窗口会扼杀LLM微调和RAG吗?

译文
人工智能
随着LLM支持更长的场景,人们经常提出的一个问题是,是否需要微调LLM或使用检索增强生成(RAG)。这些努力虽然非常有效和有用,但有时需要大量的工程努力。

研究表明,随着LLM支持更长的场景,需要微调LLM或使用检索增强生成(RAG)。

近几个月来,走在科技前沿的人工智能公司和研究机构在扩展大型语言模型(LLM)的场景窗口方面取得了令人印象深刻的进展。场景窗口是LLM可以处理的输入长度。场景窗口越长,可以在给定模型的提示符中放入的信息和说明就越多。

在几年内,场景窗口已经从GPT-3中的2048个令牌增加到Gemini 1.5 Pro中的100万个令牌。新技术有望进一步将LLM的内存扩展到无限个令牌。改进的注意力机制使LLM能够对很长一段文本中的非常具体的信息做出反应,也被称为“大海捞针”测试。

随着LLM支持更长的场景,人们经常提出的一个问题是,是否需要微调LLM或使用检索增强生成(RAG)。这些努力虽然非常有效和有用,但有时需要大量的工程努力。

与LLM的许多其他事情一样,其答案既是肯定的,又是否定的。LLM可以在项目的早期阶段避免许多工程工作的需要。但是,在扩展模型的使用时,开发人员将需要重新使用久经考验的优化技术。

无限场景vs微调

微调LLM需要几个阶段:首先收集并标记训练数据。然后,开发人员选择适合自己需求的模型,设置计算集群,然后编写并运行用于微调的代码。随着微调服务的出现,现在可以通过API服务对模型进行微调,而无需设置自己的GPU。但是,开发人员仍然需要控制训练过程,例如epoch的数量和模型评估。

相比之下,对于无限场景LLM,可以通过提示工程来调整模型的行为。Google DeepMind最近发布的一篇论文探讨了多镜头场景学习(ICL)的能力,这是由LLM不断增长的场景窗口实现的。基本上,通过在提示符中插入数百或数千个输入/输出示例,可以让模型完成以前需要微调的事情。

提示工程的技术入口门槛非常低,任何有权访问模型的人都可以访问。即使没有软件开发经验的人也可以使用诸如多镜头场景学习(ICL)之类的技术来根据他们的需要配置LLM。

无限场景vs检索增强生成(RAG)

检索增强生成(RAG)甚至比微调更具技术性。首先,开发人员需要将文档分解为可管理的块,计算它们的嵌入,并将它们存储在向量数据库中。然后,需要创建一个提示管道来计算用户请求的嵌入,从向量存储中检索相关文档块,并在将其传递给模型之前将其内容添加到提示中。

为了改进RAG管道,必须使用更高级的技术,例如重新排序、多跳检索和创建自定义嵌入模型。

相比之下,在无限关注的情况下,可以简单地将所有文档转储到提示中,并尝试不同的指令,使模型能够选择相关部分并将其用于响应。前沿模型现在允许将几本书的数据加载到提示符中。而且它们非常擅长为自己的答案确定特定的信息。

这意味着,例如开发人员可以将编程库的整个文档插入到提示符中,并获得模型来帮助自己使用该库编写代码。

LLM和工程任务

LLM的总体趋势是降低创建机器学习系统的入门门槛。由于LLM的零样本、少次和现在的多次学习能力,可以让它们完成以前需要几天或几周的工程任务。例如,可以使用LLM(如GPT-4或Claude 3)创建一个完整的情感分析系统,而无需训练任何模型,并且只需最少的编码。

更长的场景窗口将延续这一趋势,并消除对复杂任务的工程努力的需要。然而,长期和无限场景的LLM并不是灵丹妙药。

创建成功的产品和应用程序不仅仅依赖于创建解决问题的概念验证,它还需要创建一个可以大规模工作的系统。

例如,当开发人员在原型设计过程中处理数十或数百个推理请求时,成本和推理速度将不是太大的问题。但是,当每天处理数千万个请求时,在每个提示符中添加或删除一些令牌可能会对计算、内存和财务成本产生相当大的影响。

微调、RAG以及为支持它们而创建的所有技术和工具都可以达到这些目的。例如,低阶自适应(LoRA)使开发人员能够创建成百上千个微调的LLM,而无需为每个模型存储数十亿个参数。这些技术可以改变高使用率应用程序的游戏规则。

随着人工智能公司和研究机构继续改进LLM的功能,他们将简化人工智能应用概念的创建。产品团队将能够在不需要机器学习团队的情况下创建和迭代原型。这将加速产品适应市场的过程。但是,当超越概念验证时,不能低估良好的工程技能和有才华的团队的价值,这些团队可以创建可靠且可扩展的机器学习管道。

正如HyperWrite AI公司首席执行官Matt Shumer指出的那样,“提示是通往PMF(产品市场契合度)的方法,然后根据规模进行微调。”

原文标题:Will infinite context windows kill LLM fine-tuning and RAG?,作者:Ben Dickson

链接:https://bdtechtalks.com/2024/04/26/LLM-infinite-context-fine-tuning-rag/。

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

责任编辑:姜华 来源: 51CTO内容精选
相关推荐

2024-04-19 12:50:58

人工智能OpenAI

2024-02-23 08:58:06

AIDevSecOps监控

2024-04-30 09:48:33

LLMRAG人工智能

2024-06-06 08:25:30

2011-06-17 10:50:32

Windows 8Windows Pho

2023-06-15 15:45:42

自然语言语言模型

2023-11-21 08:00:20

AI模型

2024-03-22 16:13:42

LLMRAGXGBoost

2024-06-05 13:48:04

2020-08-21 13:22:12

GPT-3AI机器

2023-08-16 19:48:31

谷歌Project ID

2019-04-01 11:17:47

AWS开源云服务

2024-11-21 08:22:45

2023-10-16 12:51:32

2024-05-07 13:40:41

2024-09-29 10:58:56

2024-04-29 13:09:10

LLM架构性能

2024-10-07 08:49:25

2024-01-11 16:24:12

人工智能RAG

2024-05-20 08:31:33

检索增强生成LLM大型语言模型
点赞
收藏

51CTO技术栈公众号