公众号矩阵

移动端

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

amei2000go

LV.4

这个用户很懒，还没有个人简介

帖子 46

声望 488

关注 0

粉丝 2

社区头条作者

私信

关注

主帖 46

回帖

综述 DeepSeek R1、LIMO、S1 等 6 篇文章的关键结论

社区头条

一、背景上一篇文章中我们具体介绍了DeepSeekR1系列模型的构建流程和关键技术点，考虑到最近出现了许多相关工作，也分别得出了各种不同的结论，与此同时还出现了大量的误解。本文中，我们整理了DeepSeekR1等6篇Reasoning相关文章的关键结论，以便相互验证和对比。如下图所示为这些文章中的一些关键指标：相关工作可以参考我们之前的文章：DeepSeekR1论文解读&关键技术点梳理DeepSeekV3详细解读：模型&Infra建...

9天前 324浏览 0点赞 0回复 0收藏

小红书 NoteLLM-2：用于推荐的多模态表征

一、背景本文中我们继续介绍小红书用于多模态场景笔记推荐的NoteLLM2。对应的论文为：[2405.16789]NoteLLM2:MultimodalLargeRepresentationModelsforRecommendation[1]二、摘要LLM在文本理解方面展现了卓越能力，现有研究也已探讨了其在文本Embedding任务中的应用，然而，利用LLM辅助多模态表征任务的研究尚不多见。本文作者旨在探索LLM在多模态ItemtoItem（I2I）推荐中增强多模态表征的潜力。如下图Figure1所示，一种可行的方...

2025-02-06 15:23:53 353浏览 0点赞 0回复 0收藏

小红书 NoteLLM：用于笔记推荐和标签生成的 LLM

精华

一、背景最近“TikTok难民”涌入小红书，“小红书霸榜苹果AppStore”等话题受到广泛关注，字节跳动的Lemon8也不相上下。当然，作为一个技术公众号，我们这里并不是要讨论这一现象，而是要介绍小红书的NoteLLM，其主要用于小红书中的笔记推荐和标签生成。对应的论文为：[2403.01744]NoteLLM:ARetrievableLargeLanguageModelforNoteRecommendation[1]有关LLM在搜广推场景的应用落地也可以参考我们之前的文章：字节HLLM：大...

2025-01-22 13:17:01 1748浏览 0点赞 0回复 0收藏

MHA -> GQA：提升 LLM 推理效率

一、背景我们在之前的文章中详细分析过GQA相比MHA的推理优势（省显存、计算强度高），不过GQA有可能导致精度的损失，因此早期的一些不太大的LLM会使用MHA。针对这个问题有两种优化思路：将MHA转换为GQA，长短序列都适用。在长序列场景使用Token稀疏化方案或者结合投机采样策略。本文中我们介绍一个将MHA转换为GQA的工作，不过论文的实验还偏少，效果也不是非常好；此外，最新的模型基本都在预训练阶段默认采用GQA（LLaMA38B、...

2025-01-13 11:35:18 428浏览 0点赞 0回复 0收藏

Meta HSTU：统一的生成式推荐

一、背景在之前的文章中我们介绍了字节的HLLM方案（字节HLLM：大模型与推荐系统结合的新范式），其中也提到了Meta的HSTU，本文中我们简单介绍一些这篇论文。对应的论文为：[2402.17152]ActionsSpeakLouderthanWords:TrillionParameterSequentialTransducersforGenerativeRecommendations对应的代码库为：GitHubfacebookresearchgenerativerecommenders二、摘要大规模推荐系统具有以下特征：依赖于高基数、异质特征，...

2025-01-03 13:35:39 1825浏览 0点赞 0回复 0收藏

聊聊 GPU 监控那些事：利用率 & 故障等

精华

一、背景在之前的多篇文章中，我们曾零星提到过GPU利用率以及GPU异常引发的大规模任务失败问题。在本文中，我们将对这些内容进行更为系统的汇总，具体介绍常见的GPU监控指标及各种GPU异常情况。为了更好地说明问题，我们还将结合我们自己的实践经验以及其他相关论文中的案例进行分析和讨论。二、引言2.1MFU&HFU为了评估LLM训练时的效率，业界通常会使用ModelFLOPSUtilization（MFU）和HardwareFLOPSUtilization（HFU）两个关键...

2024-12-25 12:03:25 1914浏览 0点赞 0回复 0收藏

美团 Flash Communication：LLM 推理的 AllReduce 通信优化

一、背景前段时间的文章里我们刚刚介绍过两个对LLM分布式推理场景中AllReduce的优化工作，一个是NVIDIATensorRTLLM中的MultiShot无损优化，另一个是Recogni提出的基于量化压缩实现的AllReduce加速方案。本文中我们继续介绍美团新发表的AllReduce量化压缩优化方案。对应的论文为：[2412.04964]FlashCommunication:ReducingTensorParallelizationBottleneckforFastLargeLanguageModelInference[1]二、摘要随着LLM规模的不断增长，...

2024-12-17 12:53:04 781浏览 0点赞 0回复 0收藏

美团 Flash Communication：LLM 推理的 AllReduce 通信优化

精华

2024-12-12 13:02:40 1804浏览 0点赞 0回复 0收藏

DHelix：跨 Micro-Batch 的通信隐藏，SOTA LLM 训练性能

一、背景我们在之前的文章中提到过，在A100上进行大规模LLM训练的MFU（模型浮点运算利用率）通常可以达到50%60%，而在H100上往往只有40%50%，为什么会存在这样的现象，能否进一提升对应的性能呢？比如在H100中是否可以达到60%的MFU？今天介绍一篇新的文章，其采用了一种新的双链技术，可以更好实现通信与计算的Overlap，为实现上述目标提供了更多可能。对应的论文为：[2411.15871]HidingCommunicationCostinDistributedLLMTrain...

2024-12-05 11:51:23 928浏览 0点赞 0回复 0收藏

HunYuan MoE：聊一聊 LLM 参数量、计算量和 MFU 等

一、背景最近在看腾讯最新混元大模型的Paper时（[2411.02265]HunyuanLarge:AnOpenSourceMoEModelwith52BillionActivatedParametersbyTencent[1]），看到了如下关于计算Budget的公式由于我们的工作中也会经常根据计算资源Budget评估LLM预训练时间，而该公式与我们平常的计算方式不太一致；此外，如下图所示，我们也看到很多文章中将上述公式中的第二项理解为长序列情况下Attention的额外计算开销，而将6ND>9.6ND看成Router引入的...

2024-11-20 15:04:41 1289浏览 0点赞 0回复 0收藏

Speculative Rejection：高效 Best-of-N 数据生成，16-32 倍加速

一、背景本文中我们简单介绍一个新的BestofN速度优化的论文，其提出了SpeculativeRejection（投机拒绝），虽然也是用于LLM推理生成加速，但是和SpeculativeDecoding（投机采样）场景、方案都很不一样。对于基于LLM进行高质量、大规模数据生成的场景比较有帮助。对应的论文：[2410.20290]FastBestofNDecodingviaSpeculativeRejection对应的代码库：GitHubZanetteLabsSpeculativeRejection:[NeurIPS2024]FastBestofNDecodingviaSp...

2024-11-07 15:07:13 1401浏览 0点赞 0回复 0收藏

Intel Smooth-SwiGLU：FP8 LLM 训练，34% 加速

一、背景本文中我们继续介绍一个Intel最新的关于FP8训练相关的工作，其在一定程度上分析并解决了FP8训练中的不收敛问题，进一步推进了FP8训练落地（尤其是在H100H800GPU上）的可行性。对应的论文：[2409.12517]ScalingFP8trainingtotrilliontokenLLMs[1]二、摘要本文中，作者首次在2TToken的数据集上使用FP8精度训练了LLM，比以前的限制增加了20倍。通过这些扩展训练实验，作者发现了FP8训练中的关键不确定性，这些不确定性在早...

2024-11-01 15:37:14 920浏览 0点赞 0回复 0收藏

KVSharer：基于不相似性实现跨层 KV Cache 共享

一、背景本文中我们介绍一种最新的KVCache共享论文KVSharer，与之前常见的层内共享不同，KVSharer主要关注跨层共享，并且是整个层的共享。对应的论文：[2410.18517]KVSharer:EfficientInferenceviaLayerWiseDissimilarKVCacheSharing对应的代码库：https:github.comyangyifei729KVSharertreemain二、摘要LLM推理过程中对GPU内存的需求不断增加，而其中Attention的KVCache占据了超过80%的空间。当前，大多数现有的KV...

2024-10-29 11:47:33 1031浏览 0点赞 0回复 0收藏

DuQuant：通过正交变换分散 LLM 离群值，实现 SOTA 4bit 量化

一、背景本文中我们介绍一下最近被NeurIPS2024接收为OralPresentation的LLM量化工作DuQuant。这是一种令旋转变换和排列变换来更有效地缓解MassiveOutlier和NormalOutlier的新方法。其达到了4bit量化的新SOTA。具体来说：作者发现LLM的FFN模块中，在downproj的输入中存在明显的MassiveOutlier；这种Outlier不同于以往发现的Outlier，表现为绝对值大于几百的个别异常值；这些Outlier会显著限制4bit权重激活量化方法的性能。作者提...

2024-10-23 13:52:35 1217浏览 0点赞 0回复 0收藏

Sample Packing：长序列 LLM 训练的 Attention 问题及优化

一、背景之前看过部分MegatronLM的源码，也详细分析过对应的Dataset和DataLoader，想当然的认为在LLM预训练时会使用DocumentLevel的Mask，也就是常说的SamplePacking技术。最近我们在做长序列训练相关工作时发现并非如此，并且出现了一些很奇怪的性能问题，因此重新看了相关工作，并进行了部分实验。SamplePacking中有很多可以讨论的技术点，比如Attention的实现和优化，Sample的组合及负载均衡问题（有点类似调度问题）以及不...

2024-10-21 12:51:08 994浏览 0点赞 0回复 0收藏

Packing Analysis：LLM 样本 Padding 与 Packing 的对比

一、背景我们之前已经分享过几篇关于SamplePacking相关的文章，也提到了其中的性能优化问题。最近今天又看到一篇新的论文，这里进行简单介绍。对应的论文为：[2410.08081]PackingAnalysis:PackingIsMoreAppropriateforLargeModelsorDatasetsinSupervisedFinetuning相关工作可以参考我们之前的文章：SamplePacking：长序列LLM训练的Attention问题及优化SamplePacking综述：LLM效果与效率的TradeoffBinaryBlockMasking：加快稀疏A...

2024-10-17 15:49:18 1453浏览 0点赞 0回复 0收藏

Meta Movie Gen：新的 SOTA 视频生成模型-技术报告解读

一、背景前段时间Meta发布了对标OpenAISORA和快手可灵的视频生成模型MovieGen，这里我们进行相关的技术解读。本文主要聚焦在其图像和视频生成模型部分，进行详细介绍；然后对视频个性化、编辑和音频生成进行简单概述。对应的论文：MovieGen:ACastofMediaFoundationModels对应的Blog：HowMetaMovieGencouldusherinanewAIenablederaforcontentcreators更多的Video：MetaMovieGen我们在之前的文章中也详细介绍过各种文生图相关的技...

2024-10-14 15:01:46 1742浏览 0点赞 0回复 0收藏

微软 RetrievalAttention: LLM+ANN, LLM 推理速度与精度的平衡

一、背景本文我们继续介绍一个针对超长上下文的LLM推理加速工作，同样是Token稀疏化的方案，来解决LLM在超长序列场景计算量大、GPU显存消耗大的问题，不过结合了ANN检索，可以实现更高的精度。对应的论文为：[2409.10516]RetrievalAttention:AcceleratingLongContextLLMInferenceviaVectorRetrieval二、摘要本文中作者提出了RetrievalAttention，无需训练就可以加速Attention计算。为了利用Attention的动态稀疏特性，RetrievalA...

2024-10-11 16:01:15 942浏览 0点赞 0回复 0收藏

MixAttention：跨层 KV Cache 共享 + 滑动窗口 Attention

一、背景我们之前的文章中介绍过Character.AI的LLM推理最佳实践，其在1年多的时间里将推理成本降低了33倍。其中一个关键技术是对KVCache的跨层共享以及与LocalAttention的结合。本文我们介绍MixAttention，其思路和上述方案完全一致，不过针对长文本场景做了更多实验和调整。对应的论文为：[2409.15012]InferenceFriendlyModelsWithMixAttentionLLM稀疏化相关工作可以参考：SnapKV:KVCache稀疏化，零微调加速长序列LLM推理...

2024-10-08 16:03:34 1309浏览 0点赞 0回复 0收藏

Binary Block Masking：加快稀疏 Attention 的一种新方法

一、背景我们在之前的文章中简单介绍了SamplePacking相关的技术方案及涉及的问题，也在看其中Attention计算带来的各种挑战。机缘巧合正好看到一篇文章试图解决相应的Attention计算问题，这里进行简单介绍。对应的论文为：[2409.15097]EfficientlyDispatchingFlashAttentionForPartiallyFilledAttentionMasks相关工作可以参考我们之前的文章：SamplePacking：长序列LLM训练的Attention问题及优化SamplePacking综述：...

2024-09-30 15:18:21 1952浏览 0点赞 0回复 0收藏

获得成就

已积累 2.3w 人气

获得 1 个点赞

获得 0 次收藏