毛毛雨_11
LV.3
这个用户很懒,还没有个人简介
声望 281
关注 0
粉丝 0
私信
主帖 39
回帖
本文转载自PIKERAG框架的设计目标是提供一个灵活且可扩展的RAG系统,应对工业应用中复杂多样的任务需求。框架的核心是通过有效的知识提取、理解和组织,以及构建连贯的推理逻辑,解决了RAG系统在工业应用中的局限性。下面来看下微软开源的PIKERAG框架及其实现过程,供参考。PIKERAG框架PIKERAG框架主要由几个基本模块组成,包括文档解析、知识抽取、知识存储、知识检索、知识组织、以知识为中心的推理以及任务分解与协调。PIKER...
5天前 328浏览 0点赞 0回复 0收藏
​​HtmlRAG​​方法通过使用HTML而不是纯文本来增强RAG系统中的知识表示能力。通过HTML清洗和两步块树修剪方法,在保持关键信息的同时缩短了HTML文档的长度。这种方法优于现有基于纯文本的RAG的性能。方法其实主要看下围绕html提纯思路,将提纯后的Html内容送入LLM进行增强问答。1.HTML清洗由于原始HTML文档过长(每个超过80K),并且不需要考虑用户查询的语义特征,因此在这个步骤中使用基于规则的方法进行预处理。这个清洗过...
5天前 186浏览 0点赞 0回复 0收藏
企业知识库中的模态数据不止文本一个模态,传统的RAG无法解决多模态场景下的问答,问题提出:如何检索到与用户问题相关且有用的多模态数据?以及如何将这些数据整合成一个连贯的多模态答案?来看一个简单有效的多模态RAG框架MuRAR。MuRAR框架在MuRAR框架的设计中,目标是生成一个高质量的多模态答案(multimodalanswer),该答案通过整合与用户问题相关的多模态数据来提供连贯且信息丰富的内容。用户界面设计:用户输入问题;显...
2025-02-11 11:07:41 320浏览 0点赞 0回复 0收藏
MLA是MHA的变体,因此先来看看MHA。MHA(多头注意力)MHA通过将输入向量分割成多个并行的注意力“头”,每个头独立地计算注意力权重并产生输出,然后将这些输出通过拼接和线性变换进行合并以生成最终的注意力表示。Transformer编码器块内的缩放点积注意力机制和多头注意力机制MHA计算过程MHA能够理解输入不同部分之间的关系。然而,这种复杂性是有代价的——对内存带宽的需求很大,尤其是在解码器推理期间。主要问题的关键在于...
2025-02-11 11:03:37 561浏览 0点赞 0回复 0收藏
笔者在前期一个系列分享了各种文档智能相关的技术方法,可以参考《​​文档智能系列栏目​​》,涵盖各种常见方法。下面直接看看这个端到端的文档智能结构化方法,供参考。方法一、架构红色三部分组成的模型结构ECLAIR采用了一个较大的视觉编码器(657M参数ViTH16)和一个较轻量级的解码器(279M参数mBART)组成端到端的模型,主要为了在推理时提高效率。ECLAIR包括以下几个组件:视觉编码器(VisionEncoder)ECLAIR的视觉编码...
2025-02-11 10:51:38 291浏览 0点赞 0回复 0收藏
最近各种营销号鼓吹基于qwen的模型几十块钱复现deepseekR1zero,坑坏了算法工程师,笔者实验验证下这个夸张说法,因为实验仅仅是快速的实现,无过多的优化,下面实验数据仅供参考,欢迎指正。实验过程DeepSeekR1Zero过程DeepSeekR1Zero是一个纯RL(无SFT)来探索模型推理能力的过程(基于GRPO的RL优化过程)。RewardModel是基于规则的奖励过程(RuleBaseRM),R1Zero阶段只关注数学、程序类推理问题,都是能简单通过规则判别答...
2025-02-10 09:18:59 397浏览 0点赞 0回复 0收藏
RAG的核心思想是通过实时数据检索弥补这一缺陷——在生成答案前,系统先从外部数据源(如数据库、API或互联网)动态检索相关上下文,再结合LLM的知识生成更精准、实时的响应。但它们通常在处理动态、多步推理任务、适应性和复杂工作流的协调方面仍然存在不足。rag三大组件检索器(Retriever):从外部数据源(如向量数据库、知识图谱或网页)中搜索与查询相关的信息。相关技术:如BM25关键词匹配、密集向量搜索等。增强器(Augm...
2025-02-10 09:10:00 776浏览 0点赞 0回复 0收藏
deepseek开源的多模态大模型Janus再次升级,也来简单看下Janus的架构设计。核心创新点:传统的多模态模型通常使用单一视觉编码器来处理多模态理解和生成任务,这会导致任务之间的冲突,因为这两种任务对视觉信息的需求粒度不同。Janus通过将视觉编码解耦为独立的路径,分别处理多模态理解和生成任务,使两个任务得到统一,并取得了比较好的性能。多模态理解:使用SigLIP编码器提取图像的高级语义信息,适合理解任务。视觉生成:...
2025-02-10 08:42:26 1041浏览 0点赞 0回复 0收藏
笔者在前面预训练了一个多模态大模型Reyes,详情见《​​【多模态&LLM】Reyes:一个从0到1开始训练的多模态大模型(技术报告)​​》。本文将为Reyes增加一个batch推理方式,提高Reyes的推理速度。Reyes8B开源地址:modelscope权重下载地址:https:modelscope.cnmodelsyujunhuinlpReyes8Bgithub:https:github.comyujunhuicsReyes使用方式将本仓库中的​​modelingreyes.py​​​文件替换modelscrope下载的​​modelingreyes.py...
2025-01-16 15:35:08 365浏览 0点赞 0回复 0收藏
最近,笔者系统的看了下一些比较经典的多模态大模型实现思路,本着动手实践的态度,从零到一实现了一个多模态大模型,并命名为​​Reyes(睿视)​​​,R:睿,eyes:眼。Reyes的参数量为8B,视觉编码器使用的是​​InternViT300M448pxV25​​​,语言模型侧使用的是​​Qwen2.57BInstruct​​,与NVLM1.0等相关多模态大模型一样,Reyes也通过一个两层MLP投影层连接视觉编码器与语言模型。最终,Reyes8B(0.447分)以更小的参数...
2025-01-14 14:28:21 390浏览 0点赞 0回复 0收藏
LLaVA模型架构目标是结合预训练LLM和视觉模型的能力,llava使用Vicuna作为的LLM(语言解码器),CLIP作为视觉编码器。视觉编码器:使用预训练的CLIP视觉编码器ViTL14来提取图像特征。该编码器提供视觉特征。线性层:使用一个简单的线性层将图像特征转换为语言嵌入空间。应用一个可训练的投影矩阵W将Zv转换为语言嵌入标记Hv,其维度与语言模型中的词嵌入空间相同:序列生成:通过这种方式,得到了一个视觉标记序列Hv。该投影方案...
2025-01-09 16:03:02 853浏览 0点赞 0回复 0收藏
来看一个PPT生成思路:PPTAgent。传统的PPT生成方法通常使用端到端的文本生成范式,这种方法仅关注文本内容,忽略了布局设计和PPT结构。PPTAgent采用了一种基于编辑的生成范式,解决处理空间关系和设计风格方面的挑战。传统方法的每个幻灯片S可以用以下公式表示:其中,n表示幻灯片上的元素数量,C表示由章节和图形组成的源内容。每个元素ei由其类型、内容和样式属性(如边框、大小、位置等)定义。与传统的生成方法相比,PPTAg...
2025-01-09 09:26:19 658浏览 0点赞 0回复 0收藏
前期笔者介绍了OCRfree的多模态大模型,可以参考:​​【多模态&文档智能】OCRfree感知多模态大模型技术链路及训练数据细节​​,其更偏向于训练模型对于密集文本的感知能力。本文看一看英伟达出品的多模态大模型NVLM1.0系列,虽然暂未开源,但该文章给出了NVLM的详细细节,值得一读。NVLM1.0方法NVLM1.0包括三种不同的架构:NVLMD,一种解码器架构;NVLMX,一种基于交叉注意力(Xattention)的架构;NVLMH,一种混合架构。共享...
2024-12-19 11:22:09 723浏览 0点赞 0回复 0收藏
目前的一些多模态大模型的工作倾向于使用MLLM进行推理任务,然而,纯OCR任务偏向于模型的感知能力,对于文档场景,由于文字密度较高,现有方法往往通过增加图像token的数量来提升性能。这种策略在增加新的语言时,需要重新进行训练,计算开销较大,成本较高。因此,本文再来看看vary和got这两个衔接工作,看看其完整的技术链路。Vary传统的vlm做法和vary技术点:新视觉词汇表的生成:设计了一个词汇网络和一个小型解码器Transfo...
2024-12-11 20:03:01 916浏览 0点赞 0回复 0收藏
MCTS&rStar蒙特卡洛树搜索(MCTS)蒙特卡洛树搜索(MCTS)是一种用于解决复杂决策问题的算法,常用于游戏等领域。它的基本思想是通过构建一棵搜索树并模拟各种可能的行动来估计每个行动的价值。MCTS的过程可以分为四个主要步骤:选择(Selection):从根节点开始,根据某种策略(如UCT)遍历子节点,直到找到一个叶节点。UCT(UpperConfidenceBoundappliedonTrees)是一种平衡探索和利用的策略。扩展(Expansion):在叶节点,...
2024-12-11 09:24:51 763浏览 0点赞 0回复 0收藏
本文单独来看看检索部分的多模态嵌入部分。(a)传统方法;(b)本文方法局限性:现有的检索范式缺乏跨模态的统一编码过程,导致两个问题:预处理工作繁琐:需要专门的处理来应对各种文档类型和内容模态,而这些处理往往不完美。例如,HTML文件由于其多样的结构,复杂性较高,使得单一工具难以准确解析所有信息。同样,ppt和PDF通常需要OCR模型来提取文本并分别处理其他内容类型,如表格和图表。处理这些长尾问题较为复杂。破坏...
2024-12-06 14:30:46 625浏览 0点赞 0回复 0收藏
前言我们来看看大模型在text2sql上的一篇综述,大模型的发展,出现了一系列新方法,主要集中在提示工程(promptengineering)和微调(finetuning)上。这篇综述提供了LLMs在TexttoSQL任务中的全面概述,讨论了基准数据集、提示工程、微调方法和未来的研究方向。Text2SQL利用大型语言模型(LLMs)解决文本到SQL任务的方法,主要包括提示工程和微调两大类。1.提示工程提示工程通过设计结构化的提示,使LLMs能够理解任务需求并生成...
2024-12-05 14:34:49 1122浏览 0点赞 0回复 0收藏
回顾一下三种参数高效微调方法PrefixTuning、AdapterTuning、LoRAPrefixTuningPrefixTuning在prefixtuning之前的工作主要是人工设计离散的template或者自动化搜索离散template,问题在于最终的性能对人工设计的template的特别敏感:加一个词或者少一个词,或者变动位置,都会造成很大的变化,所以这种离散化的token的搜索出来的结果可能并不是最优的。PrefixTuning方法使用连续的virtualtokenembedding来代替离散的token,且与F...
2024-12-04 10:51:39 1493浏览 0点赞 0回复 0收藏
来看一个RAG比赛方案,提出了一个名为EasyRAG的框架,用于自动化网络操作的检索增强生成。该框架旨在解决网络操作中信息检索和生成效率低、准确性差的问题。研究难点包括:如何在保证准确性的前提下提高检索和生成的效率;如何实现简单快速的部署;如何在推理过程中显著减少延迟。比赛地址:competition.aiopschallenge.com方法整体包含两部分,数据处理工作流和RAG工作流EasyRAG框架数据处理工作流1.数据处理与文本分割对原始...
2024-12-04 10:39:35 791浏览 0点赞 0回复 0收藏
SFT的text2sql方法SFT使模型能够遵循输入指令并根据预定义模板进行思考和响应。如上图,、和是用于通知模型在推理过程中响应角色的角色标签。后面的内容表示模型需要遵循的指令,而后面的内容传达了当前用户对模型的需求。后面的内容代表模型的预期输出,也可以定义为模型预测的标签。在监督微调期间,模型根据和中的内容预测后面的内容,然后将其与标签进行比较以计算损失函数。标记作为结束标记,以防止模型在后续推理阶段偏...
2024-12-04 10:13:49 579浏览 0点赞 0回复 0收藏
获得成就
已积累 6142 人气
获得 0 个点赞
获得 0 次收藏