译者 | 李睿
审校 | 重楼
数据质量、模型架构以及偏见缓解方面的专家建议开发人员可以掌握LLM微调来提高人工智能开发的性能和效率。
为什么微调至关重要
大型语言模型(LLM)配备了处理广泛任务的通用能力,包括文本生成、翻译、提取摘要和回答问题。尽管LLM的性能表现非常强大,但它们在特定的任务导向型问题或特定领域(例如医学和法律等)上仍然效果不佳。
LLM微调是指对预训练好的LLM进行进一步训练,使用更小、更具体的数据集,以增强其在特定领域任务(如理解医疗行业的术语)上的表现。无论是从头开始构建LLM还是使用额外的微调数据来扩展LLM,遵循以下这些技巧都将获得更健壮的模型。
1.优先考虑数据质量
在微调LLM时,可以将模型视为一道菜肴,数据则是其原料。正如一道美味佳肴依赖于高质量的食材一样,性能良好的模型也依赖于高质量的数据。
“垃圾进,垃圾出”原则表明,如果提供给模型的数据有缺陷,那么无论什么样的超参数调优或优化也无法挽救其性能。
以下是管理数据集的实用技巧,可以帮助你获得高质量的数据:
- 明确目标:在收集数据之前,明确应用程序的目标和期望的输出类型,然后确保只收集相关的数据。
- 质量优于数量:一个规模较小且高质量的数据集通常比一个较大却嘈杂的数据集更有效。
- 消除噪声:通过删除不相关或错误的条目来清理数据集,采用插补技术处理缺失值或删除不完整记录以保持数据完整性。数据增强技术可以增强数据集的大小和多样性,同时保持其质量。
2.选择合适的模型架构
选择合适的模型架构对于优化LLM的性能至关重要,因为不同的架构是为了处理各种类型的任务而设计的。其中,BERT和GPT是两种流行的LLM。
像GPT这样的仅解码器模型在涉及文本生成的任务中表现出色,使其成为会话代理和创意写作的理想选择,而像BERT这样的纯编码器模型更适合涉及场景理解的任务,例如文本分类或命名实体识别。
微调注意事项
考虑正确设置这些参数以进行有效的微调:
- 学习率:这是决定模型更新其权重的速度的最重要参数。虽然它是通过试错法指定的,但可以首先从他们在基础模型的研究论文中称为最优的速率开始。如果数据集小于用于基准测试的数据集,则这个最佳速率可能效果不佳。对于微调LLM,通常建议的学习率为1e-5到5e-5。
- 批量大小:批量大小指定模型在一次迭代中处理的数据样本数量。更大的批处理大小可以促进训练,但需要更多的内存。同样,较小的批量大小允许模型彻底处理每一条记录。为了获得最佳结果,批量大小的选择应与硬件能力以及数据集相匹配。
- 预热步骤:这些步骤用于将学习率从较小的初始值逐渐提高到峰值。这种方法可以稳定初始训练,并帮助模型找到更好的收敛路径。
- 周期:LLM通常只需要1~3个周期进行微调,因为它们可以从最小曝光的数据集中学习。更多训练周期可能会导致过拟合,提前停机可以防止过拟合。
像网格搜索或随机搜索等技术可用于实验不同的超参数以对其进行调优。
3.平衡计算资源
LLM的功能非常强大,但由于其庞大的规模和复杂的架构以资源密集著称。微调这些模型需要大量的计算能力,因此需要高端GPU、专用硬件加速器和广泛的分布式训练框架。
利用AWS和Google Cloud等可扩展的计算资源可以提供处理这些需求所需的能力,但会产生成本,特别是在运行多个微调迭代时。如果开发人员花费时间对自己的LLM进行微调,那么投资专用硬件可以节省训练和微调成本,并减少维持其运行的持续成本。
了解微调目标
模型参数是在训练步骤中优化的权重。对模型进行微调包括调整模型参数以优化其针对特定任务或领域的性能。
根据在微调过程中调整的参数数量,有不同类型的微调:
- 完全微调:在这种方法中,调整预训练模型的所有权重,重新校准这个新任务/域的所有参数。这种方法允许模型对新领域有更深入的理解,从而可能带来更好的性能。然而,这种方法是资源密集型的,需要适当的计算能力和内存。
- 参数高效微调:与完全微调相比,参数高效微调(PEFT)更新模型参数的一小部分,同时保持其余部分不变。这样可训练参数的数量将比原始模型少得多(在某些情况下,只有原始权重的15%~20%)。像LoRA这样的技术可以将可训练参数的数量减少1万倍,使内存需求更易于管理,非常适合节省时间,并且能够在更受限的硬件资源上运行。
模型压缩方法
剪枝、量化和知识蒸馏等技术也可以使微调过程更易于管理和高效。
- 剪枝去除了不太重要或冗余的模型参数,可以在不牺牲太多精度的情况下降低复杂性。
- 量化将模型参数转换为较低精度的格式,这可以显著减少模型的大小和计算需求。根据模型的不同,降低的浮点精度对精度几乎没有影响。
- 知识蒸馏将知识从大型复杂模型转移到较小的更高效的模型,使其更容易部署。
优化策略
采用随机梯度下降(SGD)、Adam和RMSprop等优化算法,可以实现精确的参数调整,使微调过程更加高效。
4.执行持续的评估和迭代
一旦对LLM进行了微调,就需要对其进行持续监控和定期更新,以维护其性能。需要考虑的关键因素包括数据漂移和模型漂移,数据漂移涉及输入数据统计属性的变化,而模型漂移指的是输入和输出之间关系随时间的变化。
因此,必须应用迭代微调,调整模型参数以响应这些漂移,确保模型随着时间的推移继续提供准确的结果。
为了评估模型的性能,定量和定性方法都是必不可少的。定性评估技术(例如准确性、F1分数、BLEU分数、困惑度等)可以用来衡量模型的表现。
另一方面,定性评估技术可用于评估模型在真实场景中的性能。需要由领域专家进行人工测试来评估模型的输出,并且必须根据人类反馈的强化学习技术(RLHF)迭代地将反馈应用于模型。
增量学习允许模型不断地从新数据中学习,而不需要完全重新训练,使其适应数据漂移和模型漂移。
5.解决偏见和公平问题
在微调过程中,必须确保模型不会产生任何基于性别或种族的歧视性输出,并确保模型优先考虑公平性。
造成偏见的主要原因有以下两个:
- 有偏差的数据:如果在训练过程中使用的数据不代表真实情况,那么数据可能存在偏差。这可能是由于抽样技术,其中更多的数据被馈送到某一组,而另一个组在数据中的代表性不足。这也可能是由于历史偏见造成的(历史数据中的代表性不足),例如历史偏见往往为女性通常扮演家庭主妇或设计师等角色,而相比之下,男性则更多地占据高级职位。
- 算法偏差:这是由于算法本身的固有假设和设计选择造成的。例如,如果在训练过程中赋予某个特征更大的权重,可能会导致预测有偏差。例如,贷款审批系统优先考虑来自某些地点或种族的申请者。
偏差缓解技术
- 公平感知算法:开发算法以确保微调模型在不同的人口群体中做出公平的决策。这些算法结合了公平约束,例如机会均等,即模型在所有人口统计群体中具有相同的真阳性,或概率均等,即该模型在所有群体中具有相同的假阳性率和假阴性率。这通过平衡预测来避免任何特定群体处于不利地位,从而确保结果的公平性。
- 偏见检测:定期分析训练数据和模型预测,以识别基于种族、性别或年龄等人口统计属性的偏见,并尽早解决潜在的偏见来源。
- 数据增强:增强训练数据以提高多样性和代表性,特别是对于代表性不足的群体,确保模型在更广泛的场景中得到很好的推广。
- 去偏技术:它包括重新加权、内处理和后处理等方法。重新加权平衡了模型的重点指标,并通过给予代表性不足的例子更多的权重来减少偏见。内处理在训练过程中应用去偏策略来减少偏差。后处理在训练后修改模型预测以符合公平标准。
结论
针对特定领域和其他目的对LLM进行微调,如今已经成为企业寻求利用LLM为业务和特定领域的数据集带来好处的一种趋势。微调不仅提高了自定义任务的性能,也是一种具有成本效益的解决方案。
通过选择正确的模型架构,确保高质量的数据;采用适当的方法,并致力于持续的评估和迭代,可以极大地提高微调模型的性能和可靠性。这些策略确保模型的高效执行,并符合道德标准和现实世界的要求。
在运行任何人工智能模型时,采用合适的硬件能够带来深远的影响,尤其是在医疗和法律等关键应用中。这些任务依赖于精确的工作和高速的交付,因此需要专用的高性能计算硬件。这些行业机构无法使用基于云计算的LLM,因为这会对其客户和患者的数据构成安全风险。
原文标题:5 Tips for Fine-Tuning LLMs,作者:Kevin Vu