本文介绍一种人类场景交互合成方法人类场景交互(HSI)生成对于具身人工智能、虚拟现实和机器人技术等领域的应用至关重要。虽然现有的方法能够在三维场景中合成逼真的人类动作,并生成看似合理的人与物体之间的交互,但这些方法严重依赖于包含配对的三维场景和动作捕捉数据的数据集。而在各种不同的环境和交互情况下收集这些数据既昂贵又耗时。本文介绍一种ZeroHSI,通过整合视频生成技术和神经人体技术,实现了零样本的四维人...
本篇介绍超参数(学习率)跨模型尺度的迁移规律。众所周知,完整训练一次大型LLM的成本是昂贵的,这就决定了我们不可能像以前一样直接在大型LLM上反复测试超参数。一个很自然的想法是希望可以在同结构的小模型上仔细搜索超参数,找到最优组合后直接迁移到大模型上。尽管这个想法很朴素,但要实现它并不简单,它需要我们了解常见的超参数与模型尺度之间的缩放规律,本次介绍的文MaximalUpdateParametrization,简称“muP”,正是...
2025-03-17 13:07:44 451浏览 0点赞 0回复 0收藏
本文介绍一种图像编码的方法。图像标记化推动了自回归图像生成发展,但传统2D网格标记和现有1D标记方法存在不足,如无法适应图像内在复杂性。FlexTok创新之处在于可将2D图像投影为可变长度、有序的1D标记序列,图像标记化通过提供一种比原始像素更高效、更易处理的压缩离散表示,极大地推动了自回归图像生成的发展。传统方法多采用二维网格标记化,但像TiTok这样的最新研究表明,一维标记化能够通过消除网格冗余来实现高质量的...
2025-03-03 09:37:53 721浏览 0点赞 0回复 0收藏
本篇主要总结目前三种scalinglaw:Pretrain、RL、TestTime相关的内容。现在关于scalinglaw是否“撞墙”的讨论越来越多,ChinchillaScalingLaw推断,"即使没有新数据,也并不意味着模型效果提不上去了,很简单,只要增加基座模型尺寸,效果仍然会提高,只是从付出的算力和获得的效果提升来说很不合算,性价比过低"。这也是为什么大家由PretrainScalingLaw转到RLScalingLaw和TestTimeScalingLaw的原因。本篇就来以面经的形式整理...
2025-02-27 12:50:47 1313浏览 0点赞 0回复 0收藏
本篇分享SFT和RL在大模型训练中起到的作用。监督微调(SFT)和强化学习(RL)都是目前大模型的基础模型后训练技术,像DeepSeekR1、kimi等的训练方法都将两种技术应用到了极致。如何去设计训练步骤(先SFT再RL,还是直接RL)都需要对SFT和RL的能力有较深刻的了解。本篇就以面经的形式,探讨SFT、RL两种不同的后训练范式在基于文本规则和视觉变体的情况下对模型记忆与泛化能力的作用。下面是一个快捷目录。一、SFT和RL分别对基座大...
2025-02-21 16:17:38 1148浏览 0点赞 0回复 0收藏
本文介绍一种视觉tokenizer的生成。AIGC生成模型在人工智能领域发展迅速,视觉生成主要有基于语言模型和扩散模型两种范式,而tokenizer是其核心组件。现有tokenizer分别针对图像或视频输入设计,存在应用灵活性和数据可扩展性的局限。因此需要一种联合图像视频标记器,以实现从两种数据中联合学习,缓解单模态数据稀缺问题,并提高模型的通用性和可扩展性。今天介绍一种OmniTokenizer方法,感兴趣的小伙伴可以看看原文:https:a...
2025-01-09 10:15:07 945浏览 0点赞 0回复 0收藏
本篇总结了多模态大模型的评测任务和指标。目前多模态大型语言模型(MLLMs)的研究主要集中在模型架构和训练方法上,但用于评估这些模型的基准测试的分析还比较少。另外目前评测可能还存在三大问题:目标不一致:每个模态、基准测试都有不同的目标,导致研究领域碎片化。任务饱和:多样化目标驱动的任务激增,这种饱和使得很难辨别真正创新或有影响力的基准测试,导致宝贵的资源被忽视或利用不足。指标演变与差异:曾经推出发一...
2024-12-20 14:47:59 5399浏览 0点赞 0回复 0收藏
本文将以LLaVA和MiniGPT4为例介绍多模态大模型数据构造的方式。数据质量是决定多模态模型性能的关键因素。高质量的数据能够减少噪声干扰,提高模型的学习和预测准确性。同时多模态数据的多样性直接影响模型的泛化能力。一个包含丰富多样数据的集合能够训练出更加健壮的模型,使其能够在不同的应用场景中表现良好。本文以LLaVA和MiniGPT4为例,介绍相关多模态数据的构造过程,给大家在训练或者微调自己的多模态模型提供思路。L...
2024-11-19 12:54:36 1734浏览 0点赞 0回复 0收藏
本篇总结了显卡利用率评估方法及显卡运用优化方法。本篇来总结一些显卡优化的经验,还是按照面经的形式给出,希望能给到大家一些实际训练效率优化的帮助下面是一个快捷目录。一、如何评估显卡利用率?二、如何优化显存利用率?一、如何评估显卡利用率使用deepseed时,zero3如果没有nvlink,多卡训练下会变慢很多,下面有三种方法来评估训练时发挥了多少GPU性能。1.flops比值法采用Nvidia可参考的显卡峰值计算速度进行计算gpu...
2024-11-19 12:51:31 1726浏览 0点赞 0回复 0收藏
本文介绍经典模型之SwinTransformer。SwinTransformer是一种经典的视觉Transformer架构,专为计算机视觉任务设计,通过层次化的特征表达和创新的移位窗口自注意力机制,有效地处理高分辨率图像,具有通用性和灵活性,适用于图像分类、目标检测和语义分割等多种视觉任务。感兴趣的小伙伴可以看看论文:https:arxiv.orgabs2103.14030模型介绍上图为SwinTransformer模型图。整个模型采取层次化的设计,一共包含4个Stage,...
2024-11-08 12:36:25 2401浏览 0点赞 0回复 0收藏
分布式训练指南理论篇。本篇来总结一些分布式训练的知识,还是按照面经的形式给出,希望能给到大家一些帮助。题目1训练一个LLM,需要的显存规模跟参数的关系是什么?2.如果有N张显存足够大的显卡,怎么加速训练?3.如果有N张显卡,但每个显卡显存都不足以装下一个完整的模型,应该怎么办?4.PP推理时是串行的,1个GPU计算但其他空闲,有什么其他的优化方式?5.DP、TP、PP这3种并行方式可以叠加吗?6.3D并行或者直接上多机多卡...
2024-11-04 13:56:14 1334浏览 0点赞 0回复 0收藏
本文介绍LLM大模型中其中一种思维链DoT。尽管传统的思维链方法使大型语言模型能够进行“思考”,例如思维树和思维图方法通过引入分叉结构来探索多种推理路径。然而,这些方法通常需要额外的控制机制或依赖多个模型的协同工作,这无疑增加了实现和部署的难度。清华大学的研究团队最近提出了一个新的思维链框架思维图(DiagramofThought,DoT),号称是能够超越线性思维的突破。感兴趣的小伙伴可以看看原文:https:arxiv.orgp...
2024-10-29 14:06:42 1221浏览 0点赞 0回复 0收藏
RAG工程经验面经总结。虽然RAG工程整体有很多论文、算法和方法论,但在实际使用过程中,当数据量大了RAG很容易出现不可控的问题,本篇就针对实践过程中遇到的问题总结面经进行分享,看看能不能给大家提供一些帮助。下面是一个快捷目录。一.RAG如何去优化索引结构?二.当混合检索以及基于不同大小的chunk去检索效果都不太好的时候,如何优化?三.如何通过rerank去提升RAG效果的,有哪些方案?下面是答案。一.RAG如何去优化索引...
2024-10-24 13:29:30 1516浏览 0点赞 0回复 0收藏
本文介绍视觉目标检测模型YOLOv11。2024年9月30日,在YOLOVision活动上,Ultralytics团队正式宣布发布YOLOv11。短短2年,YOLO就从YOLOv8一下子迭代到YOLOv11,可见目前AI的发展速度。感兴趣的小伙伴可以看看官方的仓库:https:github.comultralyticsultralytics模型介绍对比YOLOv8(Ultralytics前一代出品),主要有三个模型结构的变化:C3k2机制。上图为C3k的网络结构图,2是指调用时C3k其中的参数N固定设置为2。不过从结构...
2024-10-18 15:26:52 4526浏览 0点赞 0回复 0收藏
本篇将介绍MoE(MixtureofExperts,混合专家模型)相关面试题。以下是一个快捷目录:一、MoE介绍二、MoE出现的背景三、有哪些MoE模型四、介绍稀疏MoE层五、介绍门控网络或路由六、为什么门控网络要引入噪声呢七、如何均衡专家间的负载八、“专家”指什么九、专家的数量对预训练有何影响?十、什么是topK门控十一、MoE模型的主要特点十二、MoE和稠密模型的对比十三、MoE的优势十四、MoE的挑战十五、微调MoE的方法十六、MoE的并...
2024-10-17 11:31:53 1553浏览 0点赞 0回复 0收藏
本篇介绍多模态大模型中如何基于最终结果分析各模态的影响。具身智能被众多大佬看好,通往AGI的路最终肯定需要多个模态的大模型互相融合。多个模态配合好也是有可能去构建一个模拟现实的世界模型的。最近一直在研究和尝试多模态大模型在一些VQA领域的前瞻研究和实际落地部署问题,遇到一个值得思考的问题:如果当预测结果出问题的时候,怎么去溯源是哪个模态的数据出的问题呢?这个方向感觉探索的足够深入是可以发论文的。由...
2024-10-17 11:27:13 1234浏览 0点赞 0回复 0收藏
本篇介绍Langchain相关面试题。本次将会分为上下两个部分,本篇章将会介绍前三个问题,下一次在将后三个问题补充完毕。以下是一个快捷目录:什么是LangChainLangChain包含哪些部分?LangChain中ChatMessageHistory是什么?介绍一下LangChainAgentLangChain如何Embedding&vectorstore?LangChain存在哪些问题及方法方案什么是LangChainLangChain是一个基于语言模型的框架,用于构建聊天机器人、生成式问答(GQA)、...
2024-10-17 11:14:22 1350浏览 0点赞 0回复 0收藏
LoRA面经搜集总结。大家的显卡都比较吃紧,LoRA家族越来越壮大,基于LoRA出现了各种各样的改进,最近比较火的一个改进版是dora,听大家反馈口碑也不错。基于PEFT的话用409024G显存也可以进行大模型的微调,所以LoRA家族这块还是很有研究和实际落地的潜力。LoRA整个系列分为两个部分:1、LoRA总述2、LoRA家族演进本篇开始介绍第一部分:LoRA总述,尽量以面经问题的形式提出并解答,下面是一个快捷目录。一、概念1.简单介绍一下Lo...
2024-10-17 10:40:37 1718浏览 0点赞 0回复 0收藏
RAG相关理论知识与经验整理。谈到大模型在各垂直领域中的应用,一定离不开RAG,本系列开始分享一些RAG相关使用经验,可以帮助大家在效果不理想的时候找到方向排查或者优化。本系列以医疗领域为例,用面试题的形式讲解RAG相关知识,开始RAG系列的分享本篇主要是理论知识与经验;后续会结合最新的优化方法给出详细的优化代码,和实践中衍生的思考。下面是本篇的快捷目录。1.RAG思路2.RAG中的prompt模板3.检索架构设计一、RAG思...
2024-10-16 10:24:11 1865浏览 0点赞 0回复 0收藏
本篇将介绍OpenAIo1。OpenAIo1,这是一种新的大型语言模型,经过强化学习训练,可以执行复杂的推理。O1在回答之前会思考在响应用户之前,它可以产生一个很长的内部思维链。OpenAIo1在竞争性编程问题(Codeforces)中排名89百分位,在美国数学奥林匹克竞赛(AIME)资格赛中跻身美国前500名学生之列,在物理、生物和化学问题的基准(GPQA)上超过了人类博士水平的准确性。OpenAI的大规模强化学习算法教会模型如何在高度数据高效...
2024-10-16 10:21:10 1696浏览 0点赞 0回复 0收藏