Allenai开源多模态的文档智能解析大模型(Olmocr)方法、效果浅析

人工智能
如果是下游rag文档的元素不是特别复杂可以用一用这个端到端的多模态模型,如果版式元素丰富,还是老实进行文档解析吧。但通过pdfparser工具结合prompt结合的方式值得一看。

先说结论,实际体验一般,如果是下游rag文档的元素不是特别复杂可以用一用这个端到端的多模态模型,如果版式元素丰富,还是老实进行文档解析吧。但通过pdfparser工具结合prompt结合的方式值得一看。

  • 在线demo:https://olmocr.allenai.org/
  • 开源权重地址:https://huggingface.co/allenai/olmOCR-7B-0225-preview
  • paper:Efficient PDF Text Extraction with Vision Language Models,https://arxiv.org/pdf/2502.18443v1
  • code:https://github.com/allenai/olmocr

笔者测试case:

原图原图

OLMOCR解析后,红色框表格缺失部分OLMOCR解析后,红色框表格缺失部分

核心问题与背景

PDF文档蕴含海量高质量文本数据,但因其复杂的视觉布局(多栏、表格、公式等)和元数据缺失,传统OCR工具难以准确提取内容。现有解决方案存在以下痛点:

  • pipline系统(如Grobid)依赖多组件串联,对复杂布局泛化性差;

pipline系统pipline系统

  • 端到端模型(如Nougat)仅依赖图像输入,忽略PDF原生元数据,成本高昂(如GPT-4o处理百万页需$6,200);
  • 数据稀缺:缺乏大规模、多样化的PDF训练数据。

OLMOCR创新点

  1. DOCUMENT-ANCHORING技术

图片图片

PromptPrompt

如:原图:图片通过pdfpaser得到元数据拼接提示词得到:

图片图片

  • 兼容性:对无元数据的扫描文档仍保持高精度,仅依赖图像输入。
  • 元数据提取:通过pypdf库解析PDF结构,提取关键元素的位置信息,动态注入模型提示(Prompt)。
  • 多模态输入融合(通过提示词):同时利用PDF原生元数据(文本块坐标、图像位置)和页面图像,显著减少模型幻觉。
  1. 蒸馏模型
  • 模型架构:基于Qwen2-VL-7B-Instruct微调,支持Markdown结构化输出(公式LaTeX、表格Markdown)。
  • 训练数据:构建olmOCR-mix-0225数据集(26万页PDF),涵盖学术论文、法律文件、手册等多样化来源(表1-2)。图片

实验结果

与教师模型GPT-4o的文本对齐度达87.5%,优于GPT-4o mini(83.3%)。温度(τ=0.8)下对齐度略降(85.9%),但减少生成重复。

图片图片

在2,017份PDF的对比测试中,OLMOCR以ELO 1800+显著优于Marker、MinerU等工具(图6)。使用OLMOCR数据微调OLMo-2模型,在MMLU、ARC等基准上平均提升1.3%。

图片图片


责任编辑:武晓燕 来源: 大模型自然语言处理
相关推荐

2024-12-12 00:25:09

2025-01-08 08:21:16

2023-08-14 07:20:10

2024-03-25 12:40:19

训练模型

2024-01-22 13:59:00

模型训练

2023-05-28 23:26:16

多模态机器学习大脑

2024-10-28 08:55:19

2024-04-02 09:17:50

AI数据开源

2024-07-12 11:35:20

2024-11-13 09:39:13

2024-12-18 18:57:58

2024-09-10 12:11:18

2024-12-30 00:01:00

多模态大模型Python

2024-09-25 14:53:00

2024-05-17 16:02:00

2023-12-25 13:24:00

模型OCR页面

2023-09-28 07:24:13

KOSMOS模型文档

2024-03-25 12:30:18

AI训练开源

2024-11-11 15:11:23

点赞
收藏

51CTO技术栈公众号