前期笔者介绍了OCRfree的多模态大模型,可以参考:【多模态&文档智能】OCRfree感知多模态大模型技术链路及训练数据细节,其更偏向于训练模型对于密集文本的感知能力。本文看一看英伟达出品的多模态大模型NVLM1.0系列,虽然暂未开源,但该文章给出了NVLM的详细细节,值得一读。NVLM1.0方法NVLM1.0包括三种不同的架构:NVLMD,一种解码器架构;NVLMX,一种基于交叉注意力(Xattention)的架构;NVLMH,一种混合架构。共享...
目前的一些多模态大模型的工作倾向于使用MLLM进行推理任务,然而,纯OCR任务偏向于模型的感知能力,对于文档场景,由于文字密度较高,现有方法往往通过增加图像token的数量来提升性能。这种策略在增加新的语言时,需要重新进行训练,计算开销较大,成本较高。因此,本文再来看看vary和got这两个衔接工作,看看其完整的技术链路。Vary传统的vlm做法和vary技术点:新视觉词汇表的生成:设计了一个词汇网络和一个小型解码器Transfo...
2024-12-11 20:03:01 314浏览 0点赞 0回复 0收藏
MCTS&rStar蒙特卡洛树搜索(MCTS)蒙特卡洛树搜索(MCTS)是一种用于解决复杂决策问题的算法,常用于游戏等领域。它的基本思想是通过构建一棵搜索树并模拟各种可能的行动来估计每个行动的价值。MCTS的过程可以分为四个主要步骤:选择(Selection):从根节点开始,根据某种策略(如UCT)遍历子节点,直到找到一个叶节点。UCT(UpperConfidenceBoundappliedonTrees)是一种平衡探索和利用的策略。扩展(Expansion):在叶节点,...
2024-12-11 09:24:51 193浏览 0点赞 0回复 0收藏
本文单独来看看检索部分的多模态嵌入部分。(a)传统方法;(b)本文方法局限性:现有的检索范式缺乏跨模态的统一编码过程,导致两个问题:预处理工作繁琐:需要专门的处理来应对各种文档类型和内容模态,而这些处理往往不完美。例如,HTML文件由于其多样的结构,复杂性较高,使得单一工具难以准确解析所有信息。同样,ppt和PDF通常需要OCR模型来提取文本并分别处理其他内容类型,如表格和图表。处理这些长尾问题较为复杂。破坏...
2024-12-06 14:30:46 280浏览 0点赞 0回复 0收藏
前言我们来看看大模型在text2sql上的一篇综述,大模型的发展,出现了一系列新方法,主要集中在提示工程(promptengineering)和微调(finetuning)上。这篇综述提供了LLMs在TexttoSQL任务中的全面概述,讨论了基准数据集、提示工程、微调方法和未来的研究方向。Text2SQL利用大型语言模型(LLMs)解决文本到SQL任务的方法,主要包括提示工程和微调两大类。1.提示工程提示工程通过设计结构化的提示,使LLMs能够理解任务需求并生成...
2024-12-05 14:34:49 426浏览 0点赞 0回复 0收藏
回顾一下三种参数高效微调方法PrefixTuning、AdapterTuning、LoRAPrefixTuningPrefixTuning在prefixtuning之前的工作主要是人工设计离散的template或者自动化搜索离散template,问题在于最终的性能对人工设计的template的特别敏感:加一个词或者少一个词,或者变动位置,都会造成很大的变化,所以这种离散化的token的搜索出来的结果可能并不是最优的。PrefixTuning方法使用连续的virtualtokenembedding来代替离散的token,且与F...
2024-12-04 10:51:39 569浏览 0点赞 0回复 0收藏
来看一个RAG比赛方案,提出了一个名为EasyRAG的框架,用于自动化网络操作的检索增强生成。该框架旨在解决网络操作中信息检索和生成效率低、准确性差的问题。研究难点包括:如何在保证准确性的前提下提高检索和生成的效率;如何实现简单快速的部署;如何在推理过程中显著减少延迟。比赛地址:competition.aiopschallenge.com方法整体包含两部分,数据处理工作流和RAG工作流EasyRAG框架数据处理工作流1.数据处理与文本分割对原始...
2024-12-04 10:39:35 389浏览 0点赞 0回复 0收藏
SFT的text2sql方法SFT使模型能够遵循输入指令并根据预定义模板进行思考和响应。如上图,、和是用于通知模型在推理过程中响应角色的角色标签。后面的内容表示模型需要遵循的指令,而后面的内容传达了当前用户对模型的需求。后面的内容代表模型的预期输出,也可以定义为模型预测的标签。在监督微调期间,模型根据和中的内容预测后面的内容,然后将其与标签进行比较以计算损失函数。标记作为结束标记,以防止模型在后续推理阶段偏...
2024-12-04 10:13:49 239浏览 0点赞 0回复 0收藏
text2sql任务是将自然语言问题转换为SQL查询。使用大模型来进行sql生成的方式也越来越常见。根据大模型用于文本到SQL生成的方式,text2sql可以分为两种场景:零样本少样本提示和微调。尽管少样本提示的大模型取得了显著进展,但仅依靠其参数知识和提示来准确处理高度复杂的SQL查询对于预训练的大型语言模型来说仍然是一个巨大的挑战。DBGPTHub侧重于微调更大的大型语言模型。框架设计DBGPT框架下提出了一个端到端大模型Text2SQL...
2024-11-28 16:53:31 424浏览 0点赞 0回复 0收藏
前言检索增强生成(RAG)系统在处理复杂推理任务方面展现出显著的潜力。然而,现有的RAG系统在面对需要复杂推理、多领域知识集成及数值计算的任务时,仍存在性能瓶颈。为了进一步提升系统的表现,本文提出了一种混合RAG系统,通过整合多种优化方法,显著增强了系统的推理能力和处理复杂任务的能力。本文介绍的RAG系统设计并实现了一个包括网页处理、属性预测、数值计算、LLM知识提取、知识图谱及推理模块在内的综合架构。该系统...
2024-11-28 16:46:33 295浏览 0点赞 0回复 0收藏
前言RAG现在工作很多,进化的也很快,再来看看一个新的RAG工作MemoRAG。文章提出,RAG在减少大模型对于垂类知识的问答幻觉上取得了不错的效果,也成为私域知识问答的一种范式。然而,传统RAG系统主要适用于明确信息需求的问答任务,但在处理涉及模糊信息需求或非结构化知识的复杂任务时表现不佳。因为,现实世界中的许多问题信息需求是模糊的,外部知识是非结构化的,例如理解书籍中主要角色之间的相互关系。因此,研究难点在于...
2024-11-28 16:37:07 351浏览 0点赞 0回复 0收藏
前言文档领域的RAG,之前的工作如ChatPDF等很多的RAG框架,文档数量一旦增加,将导致响应准确性下降,如下图;现有RAG方法在处理具有相似内容(在面对大量难以区分的文档时)和结构的文档时表现不佳;用户查询常常涉及元信息,还增加了检索和生成的复杂性,导致检索的准确性会下降,本文介绍的方法HiQA,一种用于主要解决多文档问答(MDQA)中的检索增强生成方法。数量多文档RAG对着文档数量的性能变化方法提出了HiQA框架,用于...
2024-11-26 11:17:48 259浏览 0点赞 0回复 0收藏
前言OCR技术作为文档智能解析链路中的核心组件之一,贯穿整个技术链路,包括:文字识别、表格文字识别、公式识别,参看下面这张架构图:前期介绍了很多关于文档智能解析相关核心技术及思路,本着连载的目的,本次迎来介绍整个链路中的最后一块拼图OCR。本文简要介绍OCR常见落地的算法模型DBNet、CRNN,并基于这两个模型,简单介绍文字识别在表格识别中参与的角色;并且额外介绍TrOCR这个端到端的模型,基于这个模型引入公式识别...
2024-11-26 11:03:21 351浏览 0点赞 0回复 0收藏
(a1)mR2AG带检索:这个过程包括:a)检索反思,用于确定是否需要检索;b)相关性反思,用于识别证据段落;c)对多个候选答案进行后处理。(a2)mR2AG不带检索:当不需要检索时的生成过程。(b)无反思的朴素mRAG:一种没有反思的基线方法。在基于知识的视觉问答(KnowledgebasedVQA)任务中,输入通常是一对图像和问题,并且依赖于可访问的知识库。文章提出的框架通过两个新颖的反思操作来解耦生成过程,从而提高答案的质量。...
2024-11-26 10:43:57 324浏览 0点赞 0回复 0收藏
检索增强生成(RAG)已被证明可以提高大型语言模型(LLMs)的事实准确性,但现有方法在有效使用检索到的证据方面往往存在有限的推理能力,特别是当使用开源LLMs时。引入了一个新颖的框架OPENRAG,增强基于开源大型语言模型的检索增强推理的能力,特别是处理复杂推理任务时的有限推理能力。方法1.LLMs转MOE模型转换:OPENRAG将任意密集的LLM转换为参数高效的稀疏专家混合(MoE)模型。该模型不仅能够自我反思,还能处理复杂的推...
2024-11-22 15:35:08 343浏览 0点赞 0回复 0收藏
前面很多期介绍了密集文档场景的RAG方法,今天来看看大量表格场景的RAG怎么做的。现有结合大模型的方法通常需要将整个表格作为输入,这会导致一些挑战,比如位置偏差、上下文长度限制等,尤其是在处理大型表格时。为了解决这些问题,文章提出了TableRAG框架,该框架利用查询扩展结合模式和单元格检索,以在向LLM提供信息之前精确定位关键信息。这种方法能够更高效地编码数据和精确检索,显著减少提示长度并减轻信息丢失。表提示...
2024-11-22 10:41:30 353浏览 0点赞 0回复 0收藏
文章指出,在以前的方法中,使用LLM生成三元组时,必须预定义好schema,假如schema数量很多复杂,很容易超过LLM的上下文窗口长度。并且,在某些情况下,没有可用的固定预定义schema。方法一、EDC框架EDC框架提出了一个名为提取定义规范化(EDC)的三阶段框架:先进行开放信息提取,然后定义schema,最后进行规范化。解决知识图谱构建问题。1.开放信息提取(OpenInformationExtraction):利用LLMs进行开放信息提取,通过少量的...
2024-11-22 10:37:48 158浏览 0点赞 0回复 0收藏
表格识别作为文档智能的重要组成部分,面临着复杂结构和多样化格式的挑战。【文档智能&RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路前期文章也介绍了传统视觉的方法进行表格结构识别的方法,【文档智能】轻量级级表格识别算法模型SLANet关于表格识别在这里就不做过多的介绍了。国庆期间,笔者利用一个较长的时间段,训练了一个多模态的表格识别模型,效果还不错,特此记录一下多模态的效果。训练...
2024-11-21 10:14:46 330浏览 0点赞 0回复 0收藏
前言前面文档介绍了文档智能上多种思路及核心技术实现《【文档智能&RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路》,表格识别作为文档智能的重要组成部分,面临着复杂结构和多样化格式的挑战。本文介绍的轻量级的表格识别算法模型——SLANet,旨在在保证准确率的同时提升推理速度,方便生产落地。SLANet综合了PPLCNet作为基础网络,采用CSPPAN进行特征融合,并引入Attention机制以实现结构与位置信息的精...
2024-11-20 15:33:47 473浏览 0点赞 0回复 0收藏
先说结论:这篇文章的方法和前面介绍的两个多模态RAG的工作非常相似,可以看看往期介绍:【RAG&多模态】多模态RAGColPali:使用视觉语言模型实现高效的文档检索【RAG&多模态】多模态RAGVisRAG:基于视觉的检索增强生成在多模态文档上的应用M3DOCRAG同样也指出,现有的方法要么专注于单页文档的多模态语言模型,要么依赖于基于文本的RAG方法,这些方法使用OCR等文本提取工具。然而,这些方法在实际应用中存在困...
2024-11-20 15:20:05 263浏览 0点赞 0回复 0收藏