
回复
论文笔记,LongRoPE2: Near-Lossless LLM Context Window Scaling, https://arxiv.org/pdf/2502.20082。 longrope v1的升级工作,应对长度外推的。
longrope v1简单回顾,核心思想是非均匀插值+渐进式微调:
v2 觉着 v1版本,忽略了对高维度位置编码的重点训练,传统的困惑度,是对整个文档的所有 token 计算平均值,这存在两个问题:
所以v2提出了,“针驱动” 的 困惑度,更聚焦于聚焦于长文档中需要深度上下文理解的关键 “针” (Needle) token,只计算这些 “针” token 的困惑度。从而更精准地评估模型的长上下文能力。
最后,为了解决 LongRoPE v1 中存在的短上下文性能下降问题,LongRoPE2 引入了 混合上下文窗口训练 方法。。
最后LongRoPE2 是第一个能够 在扩展上下文窗口到 128k 的同时,仍然保持超过 97% 原始短上下文性能 的 RoPE rescaling 方法。
且只需 10B tokens 的微调数据 即可将 LLaMA3-8B 的上下文窗口扩展到 128k,而 Meta 的 LLaMA3.1 扩展到 128k 需要 800B tokens 的训练。
本文转载自NLP前沿,作者:NLP前沿