英伟达ECLAIR-端到端的文档布局提取，并集成阅读顺序方法原创

毛毛雨_11

发布于 2025-2-11 10:51

浏览

0收藏

笔者在前期一个系列分享了各种文档智能相关的技术方法，可以参考《文档智能系列栏目》，涵盖各种常见方法。

英伟达ECLAIR-端到端的文档布局提取，并集成阅读顺序方法-AI.x社区

下面直接看看这个端到端的文档智能结构化方法，供参考。

方法

一、架构

英伟达ECLAIR-端到端的文档布局提取，并集成阅读顺序方法-AI.x社区

红色三部分组成的模型结构

ECLAIR 采用了一个较大的视觉编码器（657M 参数-ViT-H/16）和一个较轻量级的解码器（279M 参数-mBART）组成端到端的模型，主要为了在推理时提高效率。ECLAIR 包括以下几个组件：

视觉编码器（Vision Encoder）

ECLAIR 的视觉编码器是从 RADIO 模型初始化的，该模型基于 ViT-H/16 架构。

输入：视觉编码器的输入是一张图像，表示为，其中和分别是图像的高度和宽度，3 表示 RGB 通道。
输出：编码器将图像映射到一个潜在表示，其中是序列长度，是隐藏维度。

通过视觉编码器，图像被转换为一个序列化的特征向量。

颈部（Neck）

这部分主要是做降维操作，通常使用卷积或其他变换来压缩特征表示，以便更好地适应解码器的输入要求。

解码器（Decoder）

ECLAIR 使用 mBART 解码器，这是一个多语言的 Transformer 解码器。

输入：解码器通过条件化于编码器的潜在表示和上下文来预测文本标记。这里的是编码器的输出，是提示标记，是提示增强后的序列长度。
输出：解码器预测文本标记，这些标记可以是格式化的文本、边界框和语义类别。

二、提示设计

Prompt机制是用于指导模型输出特定类型信息的关键组成部分。用户可以通过提示指定模型输出的格式和内容，实现灵活的输出控制。

ECLAIR的提示是一个三元组（文章中附上了数据合成的方法，感兴趣可以看看，这里不再展开），包含三个选项，每个选项可以有八种可能的组合（忽略没有输出的情况以及请求语义类别但没有相应边界框的情况）。

提示的组成

输出格式：

<structured_text>：以 Markdown 格式输出文本，内联公式以 LaTeX 格式表示。
<plain_text>：以纯文本格式输出所有内容。
<no_text>：不输出文本。

边界框：

< bbox > ：输出文本块的边界框坐标。
<no_bbox>：不输出边界框。

语义类别：

< classes >：输出每个文本块的语义类别。
< no_classes >：不输出语义类别。

提示的组合

通过不同的组合，ECLAIR 可以生成多种类型的输出。例如：

最大信息提示（MIP）：同时输出结构化文本、边界框和语义类别。这是最详细的输出形式。
仅文本提示：只输出结构化文本或纯文本，不输出边界框和语义类别。
仅边界框提示：输出边界框和相应的文本，但不输出语义类别。
最小信息提示：只输出文本，不输出边界框和语义类别。

提示的使用

在训练过程中，ECLAIR 在预训练阶段使用最大信息提示进行训练，以确保模型能够处理所有可能的输出类型。在微调阶段，可以通过减少信息密度来适应具有部分标注的数据集。这种方法允许模型利用多样化的视觉数据进行训练，即使这些数据集的标注不完全。

实验效果

英伟达ECLAIR-端到端的文档布局提取，并集成阅读顺序方法-AI.x社区

参考文献

ECLAIR – Extracting Content and Layout with Integrated Reading Order for Documents，https://arxiv.org/pdf/2502.04223v1

注：代码未开源，基准评价数据集也未开放。

本文转载自公众号大模型自然语言处理作者：余俊晖

原文链接：https://mp.weixin.qq.com/s/eQ5h0VWPKQVfPDqlhDZDAA

标签

文档智能

多模态

大模型

已于2025-2-11 14:42:34修改

相关推荐

端侧实时运行、3B媲美7B！美团、浙大等提出MobileVLM V2：更快、更强的端侧视觉语言模型

kcoufee • 3198浏览 • 0回复
AI重塑社交，谁才是C端叙事正解？

liutao988 • 690浏览 • 0回复
击败SDXL登顶SOTA | CoMat:端到端的扩散模型微调策略

angel • 2022浏览 • 0回复
英伟达股价暴跌！或与 Llama 3 发布有关？

开发者阿橙 • 1775浏览 • 0回复
英伟达开源大模型对齐框架—NeMo-Aligner

Aceryt • 1424浏览 • 0回复
华科等提出VIMTS：零样本视频端到端识别新SOTA

duhorse • 1269浏览 • 0回复
TinyAgent：边缘端的功能调用

AIGC最前线 • 1597浏览 • 0回复
复旦和腾讯优图发布端到端人像动画生成器VividPose！

angel • 2338浏览 • 0回复
OPPO联合港中文发布基于LLM的端到端方案GlyphDraw2

angel • 1356浏览 • 0回复
LLM-based Agent在B端商业化的技术探索与实践

51CTO技术栈 • 1653浏览 • 0回复
借助HuggingFace轻松实施一个端到端项目

51CTO内容精选 • 1392浏览 • 0回复
南理工&InstantX&小红书发布CSGO:简单高效的端到端风格迁移框架

angel • 912浏览 • 0回复
英伟达提出LATTE3D：大规模高质量的Amortized文本到增强3D 合成

angel • 1031浏览 • 0回复
使用Concrete ML为模型训练和推理确保端到端隐私

51CTO内容精选 • 484浏览 • 0回复
什么是端到端(end to end)大模型，它和传统的大模型有什么区别？其优势与劣势是什么？

AI探索时代 • 1814浏览 • 0回复
AI 推理市场全景解析：战火从云端到边缘端

Syrupup • 772浏览 • 0回复
Material Anything：端到端打造任意3D物体的高质量材质！

angel • 878浏览 • 0回复
Hugging Face 发布 SmolVLM：用于设备端推理的 2B 参数视觉语言模型

Halo咯咯 • 378浏览 • 0回复
文档解析技术指南：从传统Pipeline到端到端大模型

Baihai_IDP • 408浏览 • 0回复
手把手教你在本地部署 DeepSeek R1，并集成到 Dify 中，建议收藏！

玄姐聊AGI • 2806浏览 • 0回复

毛毛雨_11

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

英伟达ECLAIR-端到端的文档布局提取，并集成阅读顺序方法原创

方法