Packing Analysis:LLM 样本 Padding 与 Packing 的对比
一、背景我们之前已经分享过几篇关于SamplePacking相关的文章,也提到了其中的性能优化问题。最近今天又看到一篇新的论文,这里进行简单介绍。对应的论文为:[2410.08081]PackingAnalysis:PackingIsMoreAppropriateforLargeModelsorDatasetsinSupervisedFinetuning相关工作可以参考我们之前的文章:SamplePacking:长序列LLM训练的Attention问题及优化SamplePacking综述:LLM效果与效率的TradeoffBinaryBlockMasking:加快稀疏A...