企业培训

鸿蒙开发者社区

WOT技术大会

IT证书

公众号矩阵

移动端

短视频免费课程课程排行直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

大模型自然语言处理

LV.3

这个用户很懒，还没有个人简介

帖子 46

声望 328

关注 0

粉丝 0

社区头条作者热门内容榜上榜作者

私信

关注

主帖 46

回帖

DeepSeek-R1的方法迁移到多模态大模型-开源Vision-R1实现方法思路

原创

刚开始琢磨使用DeepSeekR1风格训练多模态R1模型，就看到这个工作，本文一起看看，供参考。先提出问题，仅靠RL是否足以激励MLLM的推理能力？结论：不能，因为如果RL能有效激励推理能力，VisionR1Zero应该表现出生成复杂CoT的能力，并在基准测试中提升准确率。如下图D和E所示：方法：从未经专门推理优化的原始MLLM（例如Qwen2.5VL7BInstruct）开始，直接应用RL训练。使用与VisionR1相同的奖励函数，即硬格式结果奖励函数（HFRRF）...

19h前 175浏览 0点赞 0回复 0收藏

多模态大模型Ovis核心技术点、训练方法、数据细节

原创

文章提出：传统的MLLMs中，文本嵌入是从LLM的嵌入查找表中索引得到的，而视觉嵌入是由视觉编码器（如：ViT）直接生成的连续向量。这种差异导致在视觉和文本信息融合时存在挑战。与传统的MLLM不同，Ovis通过在视觉编码器的过程中引入一个额外的视觉嵌入查找表来解决这个问题。这种方法使得视觉嵌入的生成过程与文本嵌入类似。效果核心创新从下面模型结构代码可以看到，Ovis和传统的LLava架构其实差不多，最大的区别就是LLava使用...

1天前 362浏览 0点赞 0回复 0收藏

PathRAG：通过图剪枝的方法优化Graph-based RAG的性能方法浅析

原创

PathRAG也是一种新型GraphbasedRAG方法，通过检索索引图中的关键关系路径，减少噪声并优化LLM提示。其核心创新在于基于流的剪枝算法和路径为基础的提示策略，特别适用于捕捉复杂数据集中的关系。（其实可以看做相比GraphRAG假如剪枝算法和路径提示策略，减少噪声并提升性能）三种GraphbasedRAG对比总结（PathRAG、GraphRAG、LightRAG）：•PathRAG：通过从索引图中检索关键的关系路径来减少冗余信息。PathRAG使用基于流的剪枝算...

2天前 381浏览 0点赞 0回复 0收藏

RAG常见13种分块策略大总结（一览表）

原创

分块策略在RAG中至关重要，目的是提高效率、相关性和上下文保持。分块能减少计算开销，增加检索相关信息的可能性，同时保持信息完整性。但也存在风险，如上下文丢失、冗余和不一致性。选择策略需考虑文档类型（结构化vs非结构化）、查询复杂性、资源可用性和期望结果（速度vs准确性vs上下文）。以下是13种独特分块策略的详细描述，按策略名称、描述、优点、缺点和实施建议。仅供参考。策略名称描述优点缺点实施建议固定长度分块...

2天前 329浏览 0点赞 0回复 0收藏

Phi-4-multimodal：图、文、音频统一的多模态大模型架构、训练方法、数据细节

原创

Phi4Multimodal是一种参数高效的多模态模型，通过LoRA适配器和模式特定路由器实现文本、视觉和语音音频的无缝集成。训练过程包括多阶段优化，确保在不同模式和任务上的性能，数据来源多样，覆盖高质量合成数据。它的设计体现了小型语言模型在多模态任务上的潜力。模型架构模型架构Phi4Multimodal的基础是Phi4Mini语言模型，这是一个3.8亿参数的模型，设计为高效处理文本任务。架构包括：Transformer层和维度：32层Transformer，...

2天前 424浏览 0点赞 0回复 0收藏

allenai开源多模态的文档智能解析大模型（OLMOCR）方法、效果浅析

原创

先说结论，实际体验一般，如果是下游rag文档的元素不是特别复杂可以用一用这个端到端的多模态模型，如果版式元素丰富，还是老实进行文档解析吧。但通过pdfparser工具结合prompt结合的方式值得一看。在线demo：https:olmocr.allenai.org开源权重地址：https:huggingface.coallenaiolmOCR7B0225previewpaper：EfficientPDFTextExtractionwithVisionLanguageModels，https:arxiv.orgpdf2502.18443v1code：https:github.comallenaio...

9天前 769浏览 0点赞 0回复 0收藏

DeepSeek的多头潜在注意力（MLA）和及其11种KV-Cache技巧演进大总结

原创

引言本文将探讨KVCache如何通过在内存使用和计算时间之间进行巧妙的权衡，使像ChatGPT和DeepSeek这样的语言模型在生成文本时更快。总结11篇最近的研究论文，归纳三大类：token选择、后处理压缩技术和架构重新设计。包括DeepSeek的多头潜在注意力（MLA），这些论文在这一基本思想的基础上，进一步提高了大型语言模型（LLM）推理的时间效率。一、思考为什么文本生成如此缓慢让我们从一个简单的类比开始。想象你在写一个故事，每写...

2025-02-25 09:44:50 874浏览 0点赞 0回复 0收藏

“RAG界的DeepSeek”开源-企业复杂私域知识理解与推理框架PIKE-RAG

原创

本文转载自PIKERAG框架的设计目标是提供一个灵活且可扩展的RAG系统，应对工业应用中复杂多样的任务需求。框架的核心是通过有效的知识提取、理解和组织，以及构建连贯的推理逻辑，解决了RAG系统在工业应用中的局限性。下面来看下微软开源的PIKERAG框架及其实现过程，供参考。PIKERAG框架PIKERAG框架主要由几个基本模块组成，包括文档解析、知识抽取、知识存储、知识检索、知识组织、以知识为中心的推理以及任务分解与协调。PIKER...

2025-02-17 09:55:02 907浏览 0点赞 0回复 0收藏

HtmlRAG：RAG系统中，HTML比纯文本效果更好

原创

HtmlRAG方法通过使用HTML而不是纯文本来增强RAG系统中的知识表示能力。通过HTML清洗和两步块树修剪方法，在保持关键信息的同时缩短了HTML文档的长度。这种方法优于现有基于纯文本的RAG的性能。方法其实主要看下围绕html提纯思路，将提纯后的Html内容送入LLM进行增强问答。1.HTML清洗由于原始HTML文档过长（每个超过80K），并且不需要考虑用户查询的语义特征，因此在这个步骤中使用基于规则的方法进行预处理。这个清洗过...

2025-02-17 09:48:35 535浏览 0点赞 0回复 0收藏

简单有效的企业多模态RAG问答框架-MuRAR

原创

企业知识库中的模态数据不止文本一个模态，传统的RAG无法解决多模态场景下的问答，问题提出：如何检索到与用户问题相关且有用的多模态数据？以及如何将这些数据整合成一个连贯的多模态答案？来看一个简单有效的多模态RAG框架MuRAR。MuRAR框架在MuRAR框架的设计中，目标是生成一个高质量的多模态答案（multimodalanswer），该答案通过整合与用户问题相关的多模态数据来提供连贯且信息丰富的内容。用户界面设计：用户输入问题；显...

2025-02-11 11:07:41 675浏览 0点赞 0回复 0收藏

DeepSeek中的多头潜在注意力（MLA）浅尝

原创

MLA是MHA的变体，因此先来看看MHA。MHA（多头注意力）MHA通过将输入向量分割成多个并行的注意力“头”，每个头独立地计算注意力权重并产生输出，然后将这些输出通过拼接和线性变换进行合并以生成最终的注意力表示。Transformer编码器块内的缩放点积注意力机制和多头注意力机制MHA计算过程MHA能够理解输入不同部分之间的关系。然而，这种复杂性是有代价的——对内存带宽的需求很大，尤其是在解码器推理期间。主要问题的关键在于...

2025-02-11 11:03:37 974浏览 0点赞 0回复 0收藏

英伟达ECLAIR-端到端的文档布局提取，并集成阅读顺序方法

原创

笔者在前期一个系列分享了各种文档智能相关的技术方法，可以参考《文档智能系列栏目》，涵盖各种常见方法。下面直接看看这个端到端的文档智能结构化方法，供参考。方法一、架构红色三部分组成的模型结构ECLAIR采用了一个较大的视觉编码器（657M参数ViTH16）和一个较轻量级的解码器（279M参数mBART）组成端到端的模型，主要为了在推理时提高效率。ECLAIR包括以下几个组件：视觉编码器（VisionEncoder）ECLAIR的视觉编码...

2025-02-11 10:51:38 637浏览 0点赞 0回复 0收藏

“几十块”从零复现deepseek-R1–zero“顿悟时刻”不可能实验验证

原创

最近各种营销号鼓吹基于qwen的模型几十块钱复现deepseekR1zero，坑坏了算法工程师，笔者实验验证下这个夸张说法，因为实验仅仅是快速的实现，无过多的优化，下面实验数据仅供参考，欢迎指正。实验过程DeepSeekR1Zero过程DeepSeekR1Zero是一个纯RL（无SFT）来探索模型推理能力的过程（基于GRPO的RL优化过程）。RewardModel是基于规则的奖励过程（RuleBaseRM），R1Zero阶段只关注数学、程序类推理问题，都是能简单通过规则判别答...

2025-02-10 09:18:59 861浏览 0点赞 0回复 0收藏

RAG范式演进及Agentic-RAG总结综述

原创

RAG的核心思想是通过实时数据检索弥补这一缺陷——在生成答案前，系统先从外部数据源（如数据库、API或互联网）动态检索相关上下文，再结合LLM的知识生成更精准、实时的响应。但它们通常在处理动态、多步推理任务、适应性和复杂工作流的协调方面仍然存在不足。rag三大组件检索器（Retriever）：从外部数据源（如向量数据库、知识图谱或网页）中搜索与查询相关的信息。相关技术：如BM25关键词匹配、密集向量搜索等。增强器（Augm...

2025-02-10 09:10:00 1340浏览 0点赞 0回复 0收藏

DeepSeek多模态大模型Janus、Janus-Pro模型架构及优化方法浅谈

原创

社区头条

deepseek开源的多模态大模型Janus再次升级，也来简单看下Janus的架构设计。核心创新点：传统的多模态模型通常使用单一视觉编码器来处理多模态理解和生成任务，这会导致任务之间的冲突，因为这两种任务对视觉信息的需求粒度不同。Janus通过将视觉编码解耦为独立的路径，分别处理多模态理解和生成任务，使两个任务得到统一，并取得了比较好的性能。多模态理解：使用SigLIP编码器提取图像的高级语义信息，适合理解任务。视觉生成：...

2025-02-10 08:42:26 1564浏览 0点赞 0回复 0收藏

多模态大模型Reyes增加batch推理方式，提升推理速度

原创

笔者在前面预训练了一个多模态大模型Reyes，详情见《【多模态&LLM】Reyes：一个从0到1开始训练的多模态大模型（技术报告）》。本文将为Reyes增加一个batch推理方式，提高Reyes的推理速度。Reyes8B开源地址：modelscope权重下载地址：https:modelscope.cnmodelsyujunhuinlpReyes8Bgithub：https:github.comyujunhuicsReyes使用方式将本仓库中的modelingreyes.py文件替换modelscrope下载的modelingreyes.py...

2025-01-16 15:35:08 725浏览 0点赞 0回复 0收藏

Reyes：一个从0到1开始训练的多模态大模型（技术报告）

原创

最近，笔者系统的看了下一些比较经典的多模态大模型实现思路，本着动手实践的态度，从零到一实现了一个多模态大模型，并命名为Reyes（睿视），R：睿，eyes：眼。Reyes的参数量为8B，视觉编码器使用的是InternViT300M448pxV25,语言模型侧使用的是Qwen2.57BInstruct，与NVLM1.0等相关多模态大模型一样，Reyes也通过一个两层MLP投影层连接视觉编码器与语言模型。最终，Reyes8B（0.447分）以更小的参数...

2025-01-14 14:28:21 783浏览 0点赞 0回复 0收藏

LLaVA系列算法架构演进：LLaVA（1.0->1.5->Next(1.6)->NeXT(Video)）

原创

社区头条

LLaVA模型架构目标是结合预训练LLM和视觉模型的能力，llava使用Vicuna作为的LLM（语言解码器），CLIP作为视觉编码器。视觉编码器：使用预训练的CLIP视觉编码器ViTL14来提取图像特征。该编码器提供视觉特征。线性层：使用一个简单的线性层将图像特征转换为语言嵌入空间。应用一个可训练的投影矩阵W将Zv转换为语言嵌入标记Hv，其维度与语言模型中的词嵌入空间相同：序列生成：通过这种方式，得到了一个视觉标记序列Hv。该投影方案...

2025-01-09 16:03:02 1665浏览 0点赞 0回复 0收藏

PPTAgent：PPT自动生成Agent框架

原创

来看一个PPT生成思路：PPTAgent。传统的PPT生成方法通常使用端到端的文本生成范式，这种方法仅关注文本内容，忽略了布局设计和PPT结构。PPTAgent采用了一种基于编辑的生成范式，解决处理空间关系和设计风格方面的挑战。传统方法的每个幻灯片S可以用以下公式表示：其中，n表示幻灯片上的元素数量，C表示由章节和图形组成的源内容。每个元素ei由其类型、内容和样式属性（如边框、大小、位置等）定义。与传统的生成方法相比，PPTAg...

2025-01-09 09:26:19 1276浏览 0点赞 0回复 0收藏

英伟达NVLM多模态大模型细节和数据集

原创

前期笔者介绍了OCRfree的多模态大模型，可以参考：【多模态&文档智能】OCRfree感知多模态大模型技术链路及训练数据细节，其更偏向于训练模型对于密集文本的感知能力。本文看一看英伟达出品的多模态大模型NVLM1.0系列，虽然暂未开源，但该文章给出了NVLM的详细细节，值得一读。NVLM1.0方法NVLM1.0包括三种不同的架构：NVLMD，一种解码器架构；NVLMX，一种基于交叉注意力（Xattention）的架构；NVLMH，一种混合架构。共享...

2024-12-19 11:22:09 1103浏览 0点赞 0回复 0收藏

获得成就

已积累 9916 人气

获得 0 个点赞

获得 0 次收藏