无限的场景窗口会扼杀LLM微调和RAG吗? 原创
研究表明,随着LLM支持更长的场景,需要微调LLM或使用检索增强生成(RAG)。
近几个月来,走在科技前沿的人工智能公司和研究机构在扩展大型语言模型(LLM)的场景窗口方面取得了令人印象深刻的进展。场景窗口是LLM可以处理的输入长度。场景窗口越长,可以在给定模型的提示符中放入的信息和说明就越多。
在几年内,场景窗口已经从GPT-3中的2048个令牌增加到Gemini 1.5 Pro中的100万个令牌。新技术有望进一步将LLM的内存扩展到无限个令牌。改进的注意力机制使LLM能够对很长一段文本中的非常具体的信息做出反应,也被称为“大海捞针”测试。
随着LLM支持更长的场景,人们经常提出的一个问题是,是否需要微调LLM或使用检索增强生成(RAG)。这些努力虽然非常有效和有用,但有时需要大量的工程努力。
与LLM的许多其他事情一样,其答案既是肯定的,又是否定的。LLM可以在项目的早期阶段避免许多工程工作的需要。但是,在扩展模型的使用时,开发人员将需要重新使用久经考验的优化技术。
无限场景vs微调
微调LLM需要几个阶段:首先收集并标记训练数据。然后,开发人员选择适合自己需求的模型,设置计算集群,然后编写并运行用于微调的代码。随着微调服务的出现,现在可以通过API服务对模型进行微调,而无需设置自己的GPU。但是,开发人员仍然需要控制训练过程,例如epoch的数量和模型评估。
相比之下,对于无限场景LLM,可以通过提示工程来调整模型的行为。Google DeepMind最近发布的一篇论文探讨了多镜头场景学习(ICL)的能力,这是由LLM不断增长的场景窗口实现的。基本上,通过在提示符中插入数百或数千个输入/输出示例,可以让模型完成以前需要微调的事情。
提示工程的技术入口门槛非常低,任何有权访问模型的人都可以访问。即使没有软件开发经验的人也可以使用诸如多镜头场景学习(ICL)之类的技术来根据他们的需要配置LLM。
无限场景vs检索增强生成(RAG)
检索增强生成(RAG)甚至比微调更具技术性。首先,开发人员需要将文档分解为可管理的块,计算它们的嵌入,并将它们存储在向量数据库中。然后,需要创建一个提示管道来计算用户请求的嵌入,从向量存储中检索相关文档块,并在将其传递给模型之前将其内容添加到提示中。
为了改进RAG管道,必须使用更高级的技术,例如重新排序、多跳检索和创建自定义嵌入模型。
相比之下,在无限关注的情况下,可以简单地将所有文档转储到提示中,并尝试不同的指令,使模型能够选择相关部分并将其用于响应。前沿模型现在允许将几本书的数据加载到提示符中。而且它们非常擅长为自己的答案确定特定的信息。
这意味着,例如开发人员可以将编程库的整个文档插入到提示符中,并获得模型来帮助自己使用该库编写代码。
LLM和工程任务
LLM的总体趋势是降低创建机器学习系统的入门门槛。由于LLM的零样本、少次和现在的多次学习能力,可以让它们完成以前需要几天或几周的工程任务。例如,可以使用LLM(如GPT-4或Claude 3)创建一个完整的情感分析系统,而无需训练任何模型,并且只需最少的编码。
更长的场景窗口将延续这一趋势,并消除对复杂任务的工程努力的需要。然而,长期和无限场景的LLM并不是灵丹妙药。
创建成功的产品和应用程序不仅仅依赖于创建解决问题的概念验证,它还需要创建一个可以大规模工作的系统。
例如,当开发人员在原型设计过程中处理数十或数百个推理请求时,成本和推理速度将不是太大的问题。但是,当每天处理数千万个请求时,在每个提示符中添加或删除一些令牌可能会对计算、内存和财务成本产生相当大的影响。
微调、RAG以及为支持它们而创建的所有技术和工具都可以达到这些目的。例如,低阶自适应(LoRA)使开发人员能够创建成百上千个微调的LLM,而无需为每个模型存储数十亿个参数。这些技术可以改变高使用率应用程序的游戏规则。
随着人工智能公司和研究机构继续改进LLM的功能,他们将简化人工智能应用概念的创建。产品团队将能够在不需要机器学习团队的情况下创建和迭代原型。这将加速产品适应市场的过程。但是,当超越概念验证时,不能低估良好的工程技能和有才华的团队的价值,这些团队可以创建可靠且可扩展的机器学习管道。
正如HyperWrite AI公司首席执行官Matt Shumer指出的那样,“提示是通往PMF(产品市场契合度)的方法,然后根据规模进行微调。”
原文标题:Will infinite context windows kill LLM fine-tuning and RAG?,作者:Ben Dickson
链接:https://bdtechtalks.com/2024/04/26/LLM-infinite-context-fine-tuning-rag/。