一、背景最近在看腾讯最新混元大模型的Paper时([2411.02265]HunyuanLarge:AnOpenSourceMoEModelwith52BillionActivatedParametersbyTencent[1]),看到了如下关于计算Budget的公式由于我们的工作中也会经常根据计算资源Budget评估LLM预训练时间,而该公式与我们平常的计算方式不太一致;此外,如下图所示,我们也看到很多文章中将上述公式中的第二项理解为长序列情况下Attention的额外计算开销,而将6ND>9.6ND看成Router引入的...
一、背景本文中我们简单介绍一个新的BestofN速度优化的论文,其提出了SpeculativeRejection(投机拒绝),虽然也是用于LLM推理生成加速,但是和SpeculativeDecoding(投机采样)场景、方案都很不一样。对于基于LLM进行高质量、大规模数据生成的场景比较有帮助。对应的论文:[2410.20290]FastBestofNDecodingviaSpeculativeRejection对应的代码库:GitHubZanetteLabsSpeculativeRejection:[NeurIPS2024]FastBestofNDecodingviaSp...
2024-11-07 15:07:13 386浏览 0点赞 0回复 0收藏
一、背景本文中我们继续介绍一个Intel最新的关于FP8训练相关的工作,其在一定程度上分析并解决了FP8训练中的不收敛问题,进一步推进了FP8训练落地(尤其是在H100H800GPU上)的可行性。对应的论文:[2409.12517]ScalingFP8trainingtotrilliontokenLLMs[1]二、摘要本文中,作者首次在2TToken的数据集上使用FP8精度训练了LLM,比以前的限制增加了20倍。通过这些扩展训练实验,作者发现了FP8训练中的关键不确定性,这些不确定性在早...
2024-11-01 15:37:14 226浏览 0点赞 0回复 0收藏
一、背景本文中我们介绍一种最新的KVCache共享论文KVSharer,与之前常见的层内共享不同,KVSharer主要关注跨层共享,并且是整个层的共享。对应的论文:[2410.18517]KVSharer:EfficientInferenceviaLayerWiseDissimilarKVCacheSharing对应的代码库:https:github.comyangyifei729KVSharertreemain二、摘要LLM推理过程中对GPU内存的需求不断增加,而其中Attention的KVCache占据了超过80%的空间。当前,大多数现有的KV...
2024-10-29 11:47:33 209浏览 0点赞 0回复 0收藏
一、背景本文中我们介绍一下最近被NeurIPS2024接收为OralPresentation的LLM量化工作DuQuant。这是一种令旋转变换和排列变换来更有效地缓解MassiveOutlier和NormalOutlier的新方法。其达到了4bit量化的新SOTA。具体来说:作者发现LLM的FFN模块中,在downproj的输入中存在明显的MassiveOutlier;这种Outlier不同于以往发现的Outlier,表现为绝对值大于几百的个别异常值;这些Outlier会显著限制4bit权重激活量化方法的性能。作者提...
2024-10-23 13:52:35 301浏览 0点赞 0回复 0收藏
一、背景之前看过部分MegatronLM的源码,也详细分析过对应的Dataset和DataLoader,想当然的认为在LLM预训练时会使用DocumentLevel的Mask,也就是常说的SamplePacking技术。最近我们在做长序列训练相关工作时发现并非如此,并且出现了一些很奇怪的性能问题,因此重新看了相关工作,并进行了部分实验。SamplePacking中有很多可以讨论的技术点,比如Attention的实现和优化,Sample的组合及负载均衡问题(有点类似调度问题)以及不...
2024-10-21 12:51:08 298浏览 0点赞 0回复 0收藏
一、背景我们之前已经分享过几篇关于SamplePacking相关的文章,也提到了其中的性能优化问题。最近今天又看到一篇新的论文,这里进行简单介绍。对应的论文为:[2410.08081]PackingAnalysis:PackingIsMoreAppropriateforLargeModelsorDatasetsinSupervisedFinetuning相关工作可以参考我们之前的文章:SamplePacking:长序列LLM训练的Attention问题及优化SamplePacking综述:LLM效果与效率的TradeoffBinaryBlockMasking:加快稀疏A...
2024-10-17 15:49:18 318浏览 0点赞 0回复 0收藏
一、背景前段时间Meta发布了对标OpenAISORA和快手可灵的视频生成模型MovieGen,这里我们进行相关的技术解读。本文主要聚焦在其图像和视频生成模型部分,进行详细介绍;然后对视频个性化、编辑和音频生成进行简单概述。对应的论文:MovieGen:ACastofMediaFoundationModels对应的Blog:HowMetaMovieGencouldusherinanewAIenablederaforcontentcreators更多的Video:MetaMovieGen我们在之前的文章中也详细介绍过各种文生图相关的技...
2024-10-14 15:01:46 562浏览 0点赞 0回复 0收藏
一、背景本文我们继续介绍一个针对超长上下文的LLM推理加速工作,同样是Token稀疏化的方案,来解决LLM在超长序列场景计算量大、GPU显存消耗大的问题,不过结合了ANN检索,可以实现更高的精度。对应的论文为:[2409.10516]RetrievalAttention:AcceleratingLongContextLLMInferenceviaVectorRetrieval二、摘要本文中作者提出了RetrievalAttention,无需训练就可以加速Attention计算。为了利用Attention的动态稀疏特性,RetrievalA...
2024-10-11 16:01:15 262浏览 0点赞 0回复 0收藏
一、背景我们之前的文章中介绍过Character.AI的LLM推理最佳实践,其在1年多的时间里将推理成本降低了33倍。其中一个关键技术是对KVCache的跨层共享以及与LocalAttention的结合。本文我们介绍MixAttention,其思路和上述方案完全一致,不过针对长文本场景做了更多实验和调整。对应的论文为:[2409.15012]InferenceFriendlyModelsWithMixAttentionLLM稀疏化相关工作可以参考:SnapKV:KVCache稀疏化,零微调加速长序列LLM推理...
2024-10-08 16:03:34 382浏览 0点赞 0回复 0收藏
一、背景我们在之前的文章中简单介绍了SamplePacking相关的技术方案及涉及的问题,也在看其中Attention计算带来的各种挑战。机缘巧合正好看到一篇文章试图解决相应的Attention计算问题,这里进行简单介绍。对应的论文为:[2409.15097]EfficientlyDispatchingFlashAttentionForPartiallyFilledAttentionMasks相关工作可以参考我们之前的文章:SamplePacking:长序列LLM训练的Attention问题及优化SamplePacking综述:...
2024-09-30 15:18:21 613浏览 0点赞 0回复 0收藏
本文中我们通过几篇论文来具体介绍SamplePacking相关的方案和对应的各种问题,比如GraphCore的PackedBert、Meta的InContextPretraining、智谱AI的LongAlign、Amazon的FewerTruncations以及IBM的PackingwithFlashAttention。一、背景上一篇文章(SamplePacking:长序列LLM训练的Attention问题及优化)中我们简单介绍了SamplePacking相关的问题和部分简单实验。本文中我们通过几篇论文来具体介绍SamplePacking相关的方...
2024-09-26 16:25:34 684浏览 0点赞 0回复 0收藏
一、背景幻方AI团队发布了一系列DeepSeek大模型,比如DeepSeekV2、DeepSeekMath、DeepSeekCoder等。在DeepSeekV2中提出的MLA(MultiheadLatentAttention)也广受好评。此外,DeepSeekV2在强大性能的情况下还将API定价降低到GPT4的百分之一,被称为“价格屠夫”,也由此引发大模型API的价格战。本文中我们介绍一下幻方AI训练DeepSeek系列模型使用的大规模GPU集群以及相应的各种优化手段。对应的论文为:[2408.14158]FireFlyerA...
2024-09-19 12:55:44 1478浏览 0点赞 0回复 0收藏
一、背景我们之前介绍过一些LLM模型融合或堆叠的方案,然而这些方案通常需要人工设计或者继续训练、微调,这里我们介绍一篇新的工作试图解决这些问题,其思路很有意思,为后续的模型生产提供了一条思路,也得到了意想不到的结果。需要说明的是,虽然开源了代码,单开源代码中并没有开放如何合并的代码,导致合并的细节无法获知。此外,相应的代价有多高也没有具体介绍,比如评估成本。对应的论文为:[2403.13187]EvolutionaryOp...
2024-09-12 11:34:29 497浏览 0点赞 0回复 0收藏
一、背景之前的文章中我们详细介绍了大规模分布式训练中的数据并行(DataParallelism,DP)、张量并行(TensorParallelism,TP)和流水线并行(PipelineParallelism,PP)。这篇文章中我们继续介绍MoE中经常使用的专家并行(ExpertParallelism,EP),以及EP中涉及的相关All2All操作和优化手段等。二、引言2.1标准All2AllAlltoAll是集合通信库(比如NCCL)中另一种常见的通信原语,用于多个设备之间进行数据交换。AlltoAlll操作...
2024-09-10 12:22:38 1772浏览 0点赞 0回复 0收藏
一、背景本文中我们继续介绍另一种非常常见的并行方案——流水线并行(PipelineParallelism)。二、MicrosoftPipelinedBP2.1摘要我们在之前的文章中提到过,2012:ImageNetClassificationwithDeepConvolutionalNeuralNetworks中使用TensorParallelism在2个GPU上训练AlexNet。同一年,微软的研究者开始使用PipelineParallelism训练语音识别模型CDDNNHMM(ContextDependentDeepNeuralNetworkHMM)。首先,作者提出了CDDNNHMM模型,...
2024-09-09 00:51:44 696浏览 0点赞 0回复 0收藏
一、背景本文中我们继续介绍分布式训练中的张量并行(TensorParallelism,TP),包括AlexNet、Google、Facebook、NVIDIA以及ColossalAI的一系列TensorParallelism方案。涉及1DTP,2D和3DTP,也包含行切分和列切分等。这里说的TensorParallelism和ZeroDP以及PytorchFSDP中的模型切分方式不一样,ZeroDP和FSDP中的模型切分在实际使用的时候还会将相应的参数AllGather到当前设备,使用全部的参数进行计算。而TensorParallelism中的...
2024-09-03 12:17:14 710浏览 0点赞 0回复 0收藏
一、背景模型剪枝、蒸馏是传统AI模型压缩常用的方案,尤其是模型要用于端侧部署的场景,相比模型量化,模型剪枝和蒸馏的代价比较高,而且往往在指标上也没有特别明显的优势,因此真正落地的场景要少得多。当然,也传言有些模型会蒸馏OpenAI的ChatGPT,不过主要是用其生成高质量数据。本文中,我们介绍NVIDIA最近发布的LLM剪枝和蒸馏的最佳实践。对应的论文为:[2408.11796]LLMPruningandDistillationinPractice:TheMinitronAppr...
2024-08-27 13:14:35 955浏览 0点赞 0回复 0收藏
一、背景模型越来越大,需要的GPU越来越多;与此同时GPU性能也在不断增强,配套的网络带宽也不断增加到400G(BlackwellGPU甚至需要到800Gbps)。Ranking模型还在迁移到GPU的早期阶段,但使用GPU的规模也在不断增加;而LLM通常需要使用更大规模GPU。在构建这种规模的网络的同时保持高性能GPU间通信很有挑战。Meta在其LLaMA3技术报告中简单提到用于训练LLaMA3的大规模GPU集群,不过在报告中并没有详细介绍其集群的构成以及相应的...
2024-08-20 11:26:36 1183浏览 0点赞 0回复 0收藏
一、背景之前我们已经总结过FP8的发展历程,以及其在大规模语言模型(LLM)训练和推理中的应用。如今,FP8推理几乎已经成为行业共识,许多LLM推理框架已经支持FP8推理,且多家公司也开源了相应的FP8模型。例如,Meta在最近发布的LLaMA3技术报告中就提到了FP8推理的应用。FP8推理相比INT8推理的最大优势在于其后训练量化(PTQ,PostTrainingQuantization)能够获得几乎无损的精度,同时显著提升推理速度。例如,相比FP16,在NVID...
2024-08-09 16:50:53 710浏览 0点赞 1回复 0收藏