一、背景最近“TikTok难民”涌入小红书,“小红书霸榜苹果AppStore”等话题受到广泛关注,字节跳动的Lemon8也不相上下。当然,作为一个技术公众号,我们这里并不是要讨论这一现象,而是要介绍小红书的NoteLLM,其主要用于小红书中的笔记推荐和标签生成。对应的论文为:[2403.01744]NoteLLM:ARetrievableLargeLanguageModelforNoteRecommendation[1]有关LLM在搜广推场景的应用落地也可以参考我们之前的文章:字节HLLM:大...
一、背景我们在之前的文章中详细分析过GQA相比MHA的推理优势(省显存、计算强度高),不过GQA有可能导致精度的损失,因此早期的一些不太大的LLM会使用MHA。针对这个问题有两种优化思路:将MHA转换为GQA,长短序列都适用。在长序列场景使用Token稀疏化方案或者结合投机采样策略。本文中我们介绍一个将MHA转换为GQA的工作,不过论文的实验还偏少,效果也不是非常好;此外,最新的模型基本都在预训练阶段默认采用GQA(LLaMA38B、...
2025-01-13 11:35:18 215浏览 0点赞 0回复 0收藏
一、背景在之前的文章中我们介绍了字节的HLLM方案(字节HLLM:大模型与推荐系统结合的新范式),其中也提到了Meta的HSTU,本文中我们简单介绍一些这篇论文。对应的论文为:[2402.17152]ActionsSpeakLouderthanWords:TrillionParameterSequentialTransducersforGenerativeRecommendations对应的代码库为:GitHubfacebookresearchgenerativerecommenders二、摘要大规模推荐系统具有以下特征:依赖于高基数、异质特征,...
2025-01-03 13:35:39 1045浏览 0点赞 0回复 0收藏
一、背景在之前的多篇文章中,我们曾零星提到过GPU利用率以及GPU异常引发的大规模任务失败问题。在本文中,我们将对这些内容进行更为系统的汇总,具体介绍常见的GPU监控指标及各种GPU异常情况。为了更好地说明问题,我们还将结合我们自己的实践经验以及其他相关论文中的案例进行分析和讨论。二、引言2.1MFU&HFU为了评估LLM训练时的效率,业界通常会使用ModelFLOPSUtilization(MFU)和HardwareFLOPSUtilization(HFU)两个关键...
2024-12-25 12:03:25 1056浏览 0点赞 0回复 0收藏
一、背景前段时间的文章里我们刚刚介绍过两个对LLM分布式推理场景中AllReduce的优化工作,一个是NVIDIATensorRTLLM中的MultiShot无损优化,另一个是Recogni提出的基于量化压缩实现的AllReduce加速方案。本文中我们继续介绍美团新发表的AllReduce量化压缩优化方案。对应的论文为:[2412.04964]FlashCommunication:ReducingTensorParallelizationBottleneckforFastLargeLanguageModelInference[1]二、摘要随着LLM规模的不断增长,...
2024-12-17 12:53:04 570浏览 0点赞 0回复 0收藏
一、背景前段时间的文章里我们刚刚介绍过两个对LLM分布式推理场景中AllReduce的优化工作,一个是NVIDIATensorRTLLM中的MultiShot无损优化,另一个是Recogni提出的基于量化压缩实现的AllReduce加速方案。本文中我们继续介绍美团新发表的AllReduce量化压缩优化方案。对应的论文为:[2412.04964]FlashCommunication:ReducingTensorParallelizationBottleneckforFastLargeLanguageModelInference[1]二、摘要随着LLM规模的不断增长,...
2024-12-12 13:02:40 1249浏览 0点赞 0回复 0收藏
一、背景我们在之前的文章中提到过,在A100上进行大规模LLM训练的MFU(模型浮点运算利用率)通常可以达到50%60%,而在H100上往往只有40%50%,为什么会存在这样的现象,能否进一提升对应的性能呢?比如在H100中是否可以达到60%的MFU?今天介绍一篇新的文章,其采用了一种新的双链技术,可以更好实现通信与计算的Overlap,为实现上述目标提供了更多可能。对应的论文为:[2411.15871]HidingCommunicationCostinDistributedLLMTrain...
2024-12-05 11:51:23 578浏览 0点赞 0回复 0收藏
一、背景最近在看腾讯最新混元大模型的Paper时([2411.02265]HunyuanLarge:AnOpenSourceMoEModelwith52BillionActivatedParametersbyTencent[1]),看到了如下关于计算Budget的公式由于我们的工作中也会经常根据计算资源Budget评估LLM预训练时间,而该公式与我们平常的计算方式不太一致;此外,如下图所示,我们也看到很多文章中将上述公式中的第二项理解为长序列情况下Attention的额外计算开销,而将6ND>9.6ND看成Router引入的...
2024-11-20 15:04:41 1028浏览 0点赞 0回复 0收藏
一、背景本文中我们简单介绍一个新的BestofN速度优化的论文,其提出了SpeculativeRejection(投机拒绝),虽然也是用于LLM推理生成加速,但是和SpeculativeDecoding(投机采样)场景、方案都很不一样。对于基于LLM进行高质量、大规模数据生成的场景比较有帮助。对应的论文:[2410.20290]FastBestofNDecodingviaSpeculativeRejection对应的代码库:GitHubZanetteLabsSpeculativeRejection:[NeurIPS2024]FastBestofNDecodingviaSp...
2024-11-07 15:07:13 1137浏览 0点赞 0回复 0收藏
一、背景本文中我们继续介绍一个Intel最新的关于FP8训练相关的工作,其在一定程度上分析并解决了FP8训练中的不收敛问题,进一步推进了FP8训练落地(尤其是在H100H800GPU上)的可行性。对应的论文:[2409.12517]ScalingFP8trainingtotrilliontokenLLMs[1]二、摘要本文中,作者首次在2TToken的数据集上使用FP8精度训练了LLM,比以前的限制增加了20倍。通过这些扩展训练实验,作者发现了FP8训练中的关键不确定性,这些不确定性在早...
2024-11-01 15:37:14 711浏览 0点赞 0回复 0收藏
一、背景本文中我们介绍一种最新的KVCache共享论文KVSharer,与之前常见的层内共享不同,KVSharer主要关注跨层共享,并且是整个层的共享。对应的论文:[2410.18517]KVSharer:EfficientInferenceviaLayerWiseDissimilarKVCacheSharing对应的代码库:https:github.comyangyifei729KVSharertreemain二、摘要LLM推理过程中对GPU内存的需求不断增加,而其中Attention的KVCache占据了超过80%的空间。当前,大多数现有的KV...
2024-10-29 11:47:33 877浏览 0点赞 0回复 0收藏
一、背景本文中我们介绍一下最近被NeurIPS2024接收为OralPresentation的LLM量化工作DuQuant。这是一种令旋转变换和排列变换来更有效地缓解MassiveOutlier和NormalOutlier的新方法。其达到了4bit量化的新SOTA。具体来说:作者发现LLM的FFN模块中,在downproj的输入中存在明显的MassiveOutlier;这种Outlier不同于以往发现的Outlier,表现为绝对值大于几百的个别异常值;这些Outlier会显著限制4bit权重激活量化方法的性能。作者提...
2024-10-23 13:52:35 964浏览 0点赞 0回复 0收藏
一、背景之前看过部分MegatronLM的源码,也详细分析过对应的Dataset和DataLoader,想当然的认为在LLM预训练时会使用DocumentLevel的Mask,也就是常说的SamplePacking技术。最近我们在做长序列训练相关工作时发现并非如此,并且出现了一些很奇怪的性能问题,因此重新看了相关工作,并进行了部分实验。SamplePacking中有很多可以讨论的技术点,比如Attention的实现和优化,Sample的组合及负载均衡问题(有点类似调度问题)以及不...
2024-10-21 12:51:08 821浏览 0点赞 0回复 0收藏
一、背景我们之前已经分享过几篇关于SamplePacking相关的文章,也提到了其中的性能优化问题。最近今天又看到一篇新的论文,这里进行简单介绍。对应的论文为:[2410.08081]PackingAnalysis:PackingIsMoreAppropriateforLargeModelsorDatasetsinSupervisedFinetuning相关工作可以参考我们之前的文章:SamplePacking:长序列LLM训练的Attention问题及优化SamplePacking综述:LLM效果与效率的TradeoffBinaryBlockMasking:加快稀疏A...
2024-10-17 15:49:18 1142浏览 0点赞 0回复 0收藏
一、背景前段时间Meta发布了对标OpenAISORA和快手可灵的视频生成模型MovieGen,这里我们进行相关的技术解读。本文主要聚焦在其图像和视频生成模型部分,进行详细介绍;然后对视频个性化、编辑和音频生成进行简单概述。对应的论文:MovieGen:ACastofMediaFoundationModels对应的Blog:HowMetaMovieGencouldusherinanewAIenablederaforcontentcreators更多的Video:MetaMovieGen我们在之前的文章中也详细介绍过各种文生图相关的技...
2024-10-14 15:01:46 1446浏览 0点赞 0回复 0收藏
一、背景本文我们继续介绍一个针对超长上下文的LLM推理加速工作,同样是Token稀疏化的方案,来解决LLM在超长序列场景计算量大、GPU显存消耗大的问题,不过结合了ANN检索,可以实现更高的精度。对应的论文为:[2409.10516]RetrievalAttention:AcceleratingLongContextLLMInferenceviaVectorRetrieval二、摘要本文中作者提出了RetrievalAttention,无需训练就可以加速Attention计算。为了利用Attention的动态稀疏特性,RetrievalA...
2024-10-11 16:01:15 773浏览 0点赞 0回复 0收藏
一、背景我们之前的文章中介绍过Character.AI的LLM推理最佳实践,其在1年多的时间里将推理成本降低了33倍。其中一个关键技术是对KVCache的跨层共享以及与LocalAttention的结合。本文我们介绍MixAttention,其思路和上述方案完全一致,不过针对长文本场景做了更多实验和调整。对应的论文为:[2409.15012]InferenceFriendlyModelsWithMixAttentionLLM稀疏化相关工作可以参考:SnapKV:KVCache稀疏化,零微调加速长序列LLM推理...
2024-10-08 16:03:34 1080浏览 0点赞 0回复 0收藏
一、背景我们在之前的文章中简单介绍了SamplePacking相关的技术方案及涉及的问题,也在看其中Attention计算带来的各种挑战。机缘巧合正好看到一篇文章试图解决相应的Attention计算问题,这里进行简单介绍。对应的论文为:[2409.15097]EfficientlyDispatchingFlashAttentionForPartiallyFilledAttentionMasks相关工作可以参考我们之前的文章:SamplePacking:长序列LLM训练的Attention问题及优化SamplePacking综述:...
2024-09-30 15:18:21 1635浏览 0点赞 0回复 0收藏
本文中我们通过几篇论文来具体介绍SamplePacking相关的方案和对应的各种问题,比如GraphCore的PackedBert、Meta的InContextPretraining、智谱AI的LongAlign、Amazon的FewerTruncations以及IBM的PackingwithFlashAttention。一、背景上一篇文章(SamplePacking:长序列LLM训练的Attention问题及优化)中我们简单介绍了SamplePacking相关的问题和部分简单实验。本文中我们通过几篇论文来具体介绍SamplePacking相关的方...
2024-09-26 16:25:34 1587浏览 0点赞 0回复 0收藏
一、背景幻方AI团队发布了一系列DeepSeek大模型,比如DeepSeekV2、DeepSeekMath、DeepSeekCoder等。在DeepSeekV2中提出的MLA(MultiheadLatentAttention)也广受好评。此外,DeepSeekV2在强大性能的情况下还将API定价降低到GPT4的百分之一,被称为“价格屠夫”,也由此引发大模型API的价格战。本文中我们介绍一下幻方AI训练DeepSeek系列模型使用的大规模GPU集群以及相应的各种优化手段。对应的论文为:[2408.14158]FireFlyerA...
2024-09-19 12:55:44 3268浏览 0点赞 0回复 0收藏