amei2000go
LV.1
这个用户很懒,还没有个人简介
声望 73
关注 0
粉丝 0
私信
主帖 6
回帖
一、背景我们之前详细介绍过在千卡和万卡GPU集群中预训练LLM的挑战,其简单来说可以总结为几点:1.优化分布式策略,提升MFU;2.异步Checkpointing,增加Checkpointing频率,减少无效计算;3.完善的故障诊断及任务恢复机制;4.监控和Profiling方案。然而,在整个LLM的开发周期中,除了预训练外还有很多其他阶段,比如数据准备,微调以及模型评估等,如下图Figure1所示。这里我们介绍一篇上海AILab等团队的工作,其从整个LLM集群...
3天前 198浏览 0点赞 0回复 0收藏
一、背景LLM中KVCache占据的显存越来越大,有很多方案开始尝试跨层共享K和V,比如我们之前介绍的YOCO、CLA以及LayerCondensedKVCache等,本文介绍的方案也极其类似。对应的论文为:[2406.09297]MLKV:MultiLayerKeyValueHeadsforMemoryEfficientTransformerDecoding对应的代码库为:​​https:github.comzaydzuhripythiamlkv​​PS:感觉本文创新度明显不足,相关实验也非常少,只在一个160M模型测试,甚至没有测试7B模型。二、...
6天前 141浏览 0点赞 0回复 0收藏
一、背景我们在之前的两篇文章中详细介绍了万卡GPU集群中的网络拓扑相关信息以及在万卡GPU集群中进行大规模LLM训练面对的挑战和相应解决方案。最近又看到阿里团队在相关领域的工作,本文中我们简单对其进行总结。论文中很多基础知识没有展开介绍,强烈建议优先阅读对应的两篇文章:​​万卡GPU集群互联:硬件配置和网络设计​​​​万卡GPU集群实战:探索LLM预训练的挑战​​对应的论文为:[2406.04594]BoostingLargescaleParal...
9天前 223浏览 0点赞 0回复 0收藏
一、背景在过去的一年多里,国内在大模型领域的发展异常迅速,涌现出上百个大模型,许多模型已经迭代了多个版本,并且各种指标不断刷新。与此同时,我们也经常在国内的一些文章中看到声称“吊打LLaMA3”或“媲美GPT4”的说法。那么,国内的大模型真的已经达到对标OpenAI的水平了吗?实际上,由于大模型的评估指标种类繁多,各种文章中所对比的模型也不尽相同,甚至有时会出现一些误导信息。因此,我们决定系统性梳理一下公认性...
2024-06-07 12:36:27 307浏览 0点赞 0回复 0收藏
一、背景在LLM推理中,常常会采用KVCache来缓存之前Token的中间结果,以显著减少重复计算,从而降低自回归生成中的延迟。然而,KVCache的大小与序列长度成正比,在处理长序列时会面临极大的挑战。尤其当前许多模型开始支持几百K甚至几M的序列长度,进一步凸显了KVCache的问题,因此很多研究工作致力于降低KVCache的占用。本文中简单介绍几个最新的工作,包括SnapKV、YOCO、CLA、LayerCondensedKVCache、MiniCache以及PyramidInf...
2024-05-30 10:51:49 522浏览 0点赞 0回复 0收藏
一、背景最近Meta的研究员开发了一个新的框架来了解LLM训练中数值偏差的影响,并基于该框架评估了LLM中广泛采用的FlashAttention的数值偏差。对应的论文为:[2405.02803]IsFlashAttentionStablePS:其实论文很简单,结论也很简单:使用FlashAttention相比BaselineAttention确实会带来数值偏差。但带来的数值偏差比从FP32到FP16的数值偏差小得多,甚至小于不同初始化方法带来的偏差。吐槽一下,论文中的图都比较模糊。二、摘要LL...
2024-05-28 10:41:42 447浏览 0点赞 0回复 0收藏
获得成就
已积累 534 人气
获得 0 个点赞
获得 0 次收藏