本文介绍一种视觉tokenizer的生成。AIGC生成模型在人工智能领域发展迅速,视觉生成主要有基于语言模型和扩散模型两种范式,而tokenizer是其核心组件。现有tokenizer分别针对图像或视频输入设计,存在应用灵活性和数据可扩展性的局限。因此需要一种联合图像视频标记器,以实现从两种数据中联合学习,缓解单模态数据稀缺问题,并提高模型的通用性和可扩展性。今天介绍一种OmniTokenizer方法,感兴趣的小伙伴可以看看原文:https:a...
2025-01-09 10:15:07 267浏览 0点赞 0回复 0收藏
本篇总结了多模态大模型的评测任务和指标。目前多模态大型语言模型(MLLMs)的研究主要集中在模型架构和训练方法上,但用于评估这些模型的基准测试的分析还比较少。另外目前评测可能还存在三大问题:目标不一致:每个模态、基准测试都有不同的目标,导致研究领域碎片化。任务饱和:多样化目标驱动的任务激增,这种饱和使得很难辨别真正创新或有影响力的基准测试,导致宝贵的资源被忽视或利用不足。指标演变与差异:曾经推出发一...
2024-12-20 14:47:59 2440浏览 0点赞 0回复 0收藏
本文将以LLaVA和MiniGPT4为例介绍多模态大模型数据构造的方式。数据质量是决定多模态模型性能的关键因素。高质量的数据能够减少噪声干扰,提高模型的学习和预测准确性。同时多模态数据的多样性直接影响模型的泛化能力。一个包含丰富多样数据的集合能够训练出更加健壮的模型,使其能够在不同的应用场景中表现良好。本文以LLaVA和MiniGPT4为例,介绍相关多模态数据的构造过程,给大家在训练或者微调自己的多模态模型提供思路。L...
2024-11-19 12:54:36 783浏览 0点赞 0回复 0收藏
本篇总结了显卡利用率评估方法及显卡运用优化方法。本篇来总结一些显卡优化的经验,还是按照面经的形式给出,希望能给到大家一些实际训练效率优化的帮助下面是一个快捷目录。一、如何评估显卡利用率?二、如何优化显存利用率?一、如何评估显卡利用率使用deepseed时,zero3如果没有nvlink,多卡训练下会变慢很多,下面有三种方法来评估训练时发挥了多少GPU性能。1.flops比值法采用Nvidia可参考的显卡峰值计算速度进行计算gpu...
2024-11-19 12:51:31 692浏览 0点赞 0回复 0收藏
本文介绍经典模型之SwinTransformer。SwinTransformer是一种经典的视觉Transformer架构,专为计算机视觉任务设计,通过层次化的特征表达和创新的移位窗口自注意力机制,有效地处理高分辨率图像,具有通用性和灵活性,适用于图像分类、目标检测和语义分割等多种视觉任务。感兴趣的小伙伴可以看看论文:https:arxiv.orgabs2103.14030模型介绍上图为SwinTransformer模型图。整个模型采取层次化的设计,一共包含4个Stage,...
2024-11-08 12:36:25 1068浏览 0点赞 0回复 0收藏
分布式训练指南理论篇。本篇来总结一些分布式训练的知识,还是按照面经的形式给出,希望能给到大家一些帮助。题目1训练一个LLM,需要的显存规模跟参数的关系是什么?2.如果有N张显存足够大的显卡,怎么加速训练?3.如果有N张显卡,但每个显卡显存都不足以装下一个完整的模型,应该怎么办?4.PP推理时是串行的,1个GPU计算但其他空闲,有什么其他的优化方式?5.DP、TP、PP这3种并行方式可以叠加吗?6.3D并行或者直接上多机多卡...
2024-11-04 13:56:14 589浏览 0点赞 0回复 0收藏
本文介绍LLM大模型中其中一种思维链DoT。尽管传统的思维链方法使大型语言模型能够进行“思考”,例如思维树和思维图方法通过引入分叉结构来探索多种推理路径。然而,这些方法通常需要额外的控制机制或依赖多个模型的协同工作,这无疑增加了实现和部署的难度。清华大学的研究团队最近提出了一个新的思维链框架思维图(DiagramofThought,DoT),号称是能够超越线性思维的突破。感兴趣的小伙伴可以看看原文:https:arxiv.orgp...
2024-10-29 14:06:42 552浏览 0点赞 0回复 0收藏
RAG工程经验面经总结。虽然RAG工程整体有很多论文、算法和方法论,但在实际使用过程中,当数据量大了RAG很容易出现不可控的问题,本篇就针对实践过程中遇到的问题总结面经进行分享,看看能不能给大家提供一些帮助。下面是一个快捷目录。一.RAG如何去优化索引结构?二.当混合检索以及基于不同大小的chunk去检索效果都不太好的时候,如何优化?三.如何通过rerank去提升RAG效果的,有哪些方案?下面是答案。一.RAG如何去优化索引...
2024-10-24 13:29:30 656浏览 0点赞 0回复 0收藏
本文介绍视觉目标检测模型YOLOv11。2024年9月30日,在YOLOVision活动上,Ultralytics团队正式宣布发布YOLOv11。短短2年,YOLO就从YOLOv8一下子迭代到YOLOv11,可见目前AI的发展速度。感兴趣的小伙伴可以看看官方的仓库:https:github.comultralyticsultralytics模型介绍对比YOLOv8(Ultralytics前一代出品),主要有三个模型结构的变化:C3k2机制。上图为C3k的网络结构图,2是指调用时C3k其中的参数N固定设置为2。不过从结构...
2024-10-18 15:26:52 2975浏览 0点赞 0回复 0收藏
本篇将介绍MoE(MixtureofExperts,混合专家模型)相关面试题。以下是一个快捷目录:一、MoE介绍二、MoE出现的背景三、有哪些MoE模型四、介绍稀疏MoE层五、介绍门控网络或路由六、为什么门控网络要引入噪声呢七、如何均衡专家间的负载八、“专家”指什么九、专家的数量对预训练有何影响?十、什么是topK门控十一、MoE模型的主要特点十二、MoE和稠密模型的对比十三、MoE的优势十四、MoE的挑战十五、微调MoE的方法十六、MoE的并...
2024-10-17 11:31:53 654浏览 0点赞 0回复 0收藏
本篇介绍多模态大模型中如何基于最终结果分析各模态的影响。具身智能被众多大佬看好,通往AGI的路最终肯定需要多个模态的大模型互相融合。多个模态配合好也是有可能去构建一个模拟现实的世界模型的。最近一直在研究和尝试多模态大模型在一些VQA领域的前瞻研究和实际落地部署问题,遇到一个值得思考的问题:如果当预测结果出问题的时候,怎么去溯源是哪个模态的数据出的问题呢?这个方向感觉探索的足够深入是可以发论文的。由...
2024-10-17 11:27:13 540浏览 0点赞 0回复 0收藏
本篇介绍Langchain相关面试题。本次将会分为上下两个部分,本篇章将会介绍前三个问题,下一次在将后三个问题补充完毕。以下是一个快捷目录:什么是LangChainLangChain包含哪些部分?LangChain中ChatMessageHistory是什么?介绍一下LangChainAgentLangChain如何Embedding&vectorstore?LangChain存在哪些问题及方法方案什么是LangChainLangChain是一个基于语言模型的框架,用于构建聊天机器人、生成式问答(GQA)、...
2024-10-17 11:14:22 601浏览 0点赞 0回复 0收藏
LoRA面经搜集总结。大家的显卡都比较吃紧,LoRA家族越来越壮大,基于LoRA出现了各种各样的改进,最近比较火的一个改进版是dora,听大家反馈口碑也不错。基于PEFT的话用409024G显存也可以进行大模型的微调,所以LoRA家族这块还是很有研究和实际落地的潜力。LoRA整个系列分为两个部分:1、LoRA总述2、LoRA家族演进本篇开始介绍第一部分:LoRA总述,尽量以面经问题的形式提出并解答,下面是一个快捷目录。一、概念1.简单介绍一下Lo...
2024-10-17 10:40:37 857浏览 0点赞 0回复 0收藏
RAG相关理论知识与经验整理。谈到大模型在各垂直领域中的应用,一定离不开RAG,本系列开始分享一些RAG相关使用经验,可以帮助大家在效果不理想的时候找到方向排查或者优化。本系列以医疗领域为例,用面试题的形式讲解RAG相关知识,开始RAG系列的分享本篇主要是理论知识与经验;后续会结合最新的优化方法给出详细的优化代码,和实践中衍生的思考。下面是本篇的快捷目录。1.RAG思路2.RAG中的prompt模板3.检索架构设计一、RAG思...
2024-10-16 10:24:11 881浏览 0点赞 0回复 0收藏
本篇将介绍OpenAIo1。OpenAIo1,这是一种新的大型语言模型,经过强化学习训练,可以执行复杂的推理。O1在回答之前会思考在响应用户之前,它可以产生一个很长的内部思维链。OpenAIo1在竞争性编程问题(Codeforces)中排名89百分位,在美国数学奥林匹克竞赛(AIME)资格赛中跻身美国前500名学生之列,在物理、生物和化学问题的基准(GPQA)上超过了人类博士水平的准确性。OpenAI的大规模强化学习算法教会模型如何在高度数据高效...
2024-10-16 10:21:10 784浏览 0点赞 0回复 0收藏
多模态大模型最新研究综述简单版。不知道最近微软出的多模态大模型最全综述MultimodalFoundationModels:FromSpecialiststoGeneralPurposeAssistants大家有没有看包含5大主题一共119页,内容又干又多,目前网上找到的中文解读干货内容都比较全比较长,很容易迷失其中,一直难以看完。本期来给大家做一个这篇论文相对简单的导读;如果大家有想要着重了解部分或感兴趣的内容可以先针对性地看。下面是一个快捷目录。1.章节分布2.具...
2024-10-16 10:11:37 1073浏览 0点赞 0回复 0收藏
从OmniGen的训练数据、模型设计与训练策略中深度了解多模态统一生成模型。今天详细讲讲多模态大模型OmniGen之前有总结过一篇多模态大模型的研究趋势,感兴趣的小伙伴也可以具体看一下这篇介绍多模态大模型的文。OmniGen就属于统一视觉模型这个方向中,将多个特定任务转化为具备通用能力的图像生成统一模型;本篇来具体介绍OmniGen的细节,以及未来前瞻技术研究可能值得借鉴的部分。下面是一个快捷目录。一、OmniGen简介二、...
2024-10-15 14:06:17 2255浏览 0点赞 0回复 0收藏
本文介绍大模型微调方法中的QLoRA。QLoRA由华盛顿大学UWNLP小组的成员于2023年提出发,旨在进一步降低微调大模型的微调成本,因为对于上百亿参数量的模型,LoRA微调的成本还是很高。感兴趣的小伙伴可以去阅读一下原文:https:arxiv.orgpdf2305.14314模型介绍上图为QLoRA的训练过程图,QLoRA更多的是在工程上进行了量化和优化,从图中可知,主要有4个部分的改进:QLORA:是一种优化的4bit量化数据类型,专为正态分布权重设计,...
2024-10-15 14:00:33 753浏览 0点赞 0回复 0收藏
本篇主要讲RAG工程的评测方法。本篇属于RAG系列,上一篇整理了RAG的基础,没看过的小伙伴也可以参考本篇来继续介绍RAG工程如何评测。下面是一个快捷目录。一、RAG评估方法二、RAG的关键指标和能力三、RAG的评估框架一、RAG评估方法有两种方法评估RAG:独立评估和端到端1.独立评估独立评估就是对检索模块和生成模型分布评估。1)检索模块评估RAG检索模块性能的指标主要用于衡量系统(如搜索引擎、推荐系统或信息检索系统),即...
2024-10-15 13:58:25 916浏览 0点赞 0回复 0收藏
本文介绍注意力机制的变体MLA。MLA(MultiheadLatentAttention),是由杭州深度求索人工智能在DeepSeekV2提出的一种注意力机制变体。MLA主要旨在解决推理过程中由于attention机制中KVCache占用过多内存而导致的性能瓶颈问题。为此,MLA引入了低秩KV压缩技术,有效减少了KVCache的大小,从而缓解了这一问题。有兴趣小伙伴可以看官方技术报告的介绍:https:arxiv.orgpdf2405.04434v2原理介绍上图为MHA、GQA、MQA、MLA的原...
2024-10-15 13:54:09 2321浏览 0点赞 0回复 0收藏