鸿蒙开发者社区

WOT技术大会

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

RAG之PDF文件中多种格式数据解析实践原创

发布于 2024-7-2 11:15

1136浏览

0收藏

RAG 检索增强生成由2部分构成：一是离线对异构的数据进行数据工程处理成知识，并存储在知识库中，二是基于用户的提问进行知识库的检索增强。如下图所示：

RAG之PDF文件中多种格式数据解析实践 -AI.x社区

其中最关键的一个环节是 PDF 格式的文件如何提取成知识，下面详细剖析。

1、PDF 文件中文本数据如何提取？

能够处理文本提取的 Python 库有多个，其中较为知名的包括 pdfminer.six、PyMuPDF、PyPDF2 和 pdfplumber。在这些库中，PyMuPDF 因其出色的文本提取能力而备受推崇。特别是在处理双栏布局等复杂格式的 PDF 文件时，PyMuPDF 能够最大程度地保留 PDF 的阅读顺序，这对于确保文本内容的准确性和完整性至关重要。

下面我们将以双栏布局的 PDF 文件为例，展示使用 PyMuPDF 库进行文字提取的效果。

RAG之PDF文件中多种格式数据解析实践 -AI.x社区

进行文本提取的代码如下所示：

RAG之PDF文件中多种格式数据解析实践 -AI.x社区

打印的结果如下所示：

RAG之PDF文件中多种格式数据解析实践 -AI.x社区

2、PDF 文件中表格数据如何提取？

在处理表格提取任务时，camelot 和 tabula 是两个备受推崇的库。它们各自在提取有线表和少线表（即含有较少分隔线的表格）方面展现出了良好的效果。接下来，我将分别以有线表为例，简要介绍 camelot库的使用。

camelot 是一个强大的 Python 库，专门用于从 PDF 文件中提取表格数据。对于有线表，即表格中包含明确分隔线的表格，camelot 表现出色。通过指定 PDF 文件路径和表格所在的页面区域，camelot 能够准确地识别并提取出表格中的数据，比如有线表原始数据：

RAG之PDF文件中多种格式数据解析实践 -AI.x社区

使用 camelot 提取有线表的示例代码如下：

RAG之PDF文件中多种格式数据解析实践 -AI.x社区

表格数据的打印结果如下所示：

RAG之PDF文件中多种格式数据解析实践 -AI.x社区

3、扫描 PDF 的文本数据如何提取？

在从扫描的 PDF 文件中提取文本时，使用开源的 PaddleOCR，并且用 PPStructure 做版面的分析。我们还是以下面的 PDF 文件为例，不过这是 PDF 文件的扫描版。

RAG之PDF文件中多种格式数据解析实践 -AI.x社区

提取文本的代码如下：

RAG之PDF文件中多种格式数据解析实践 -AI.x社区

RAG之PDF文件中多种格式数据解析实践 -AI.x社区

RAG之PDF文件中多种格式数据解析实践 -AI.x社区

得到的结果如下所示：

RAG之PDF文件中多种格式数据解析实践 -AI.x社区

图中的左边是根据给出的版面分析结果画出来的，可以看出对双栏 PDF 做了正确的解析。右边是根据识别出来的文本以及文本的坐标画出来的，可以看出基本上和左边的版面以及内容是一致的。

本文转载自公众号玄姐聊AGI 作者：玄姐

原文链接：https://mp.weixin.qq.com/s/fsntWsBQMZY2hjBXKAcC2w

©著作权归作者所有，如需转载，请注明出处，否则将追究法律责任

标签

赞

收藏

回复

举报

回复

相关推荐

生成式AI大模型之提示词工程实践

数字化助推器 • 2836浏览 • 0回复
机器学习之特征工程深度解析

51CTO内容精选 • 2371浏览 • 0回复
Gptpdf：一个简单巧妙的复杂Pdf解析工具，提升RAG效果

Syrupup • 5097浏览 • 0回复
谷歌：Transformer在音乐推荐中的实践

Syrupup • 1905浏览 • 0回复
从数据仓库到数据飞轮：技术进化与实践案例解析

wx6110dd2be671e • 1950浏览 • 0回复
轻松解析本地PDF表格，基于LlamaIndex和UnstructuredIO打造RAG

小虎哦哦 • 4375浏览 • 0回复
RAG增强之路：增强PDF解析并结构化技术路线方案及思路

大模型自然语言处理 • 2105浏览 • 0回复
【多模态&RAG】多模态RAG ColPali实践

大模型自然语言处理 • 1790浏览 • 0回复
高效信息检索新方法：LangChain中Retriever的多种高级策略

Halo咯咯 • 2870浏览 • 0回复
Agent实践之如何在京东LLM落地

数字化助推器 • 1971浏览 • 0回复
高效抽取PDF文件打造RAG，从LlamaParse转向PymuPDF4llm

AI科技论谈 • 2455浏览 • 0回复
AI大模型实践之字节0-1智能客服

数字化助推器 • 1657浏览 • 0回复
大模型之深入了解Retrievers解析器

一起AI技术 • 2632浏览 • 0回复
模型训练前置处理之——数据预处理

AI探索时代 • 1344浏览 • 0回复
Transformer中的位置编码技术：从理论到实践的深度解析！

南夏的算法驿站 • 1190浏览 • 0回复
MCP协议之MCP-server(sse方式)实践

一起AI技术 • 3787浏览 • 0回复
十大PDF解析工具在不同文档类别中的比较研究

大模型自然语言处理 • 582浏览 • 0回复
打破数据孤岛！MCP协议深度解析

Halo咯咯 • 1237浏览 • 0回复
Dify Sandbox实现文件路径获取与Excel数据处理

九歌AI大模型 • 240浏览 • 0回复

这个用户很懒，还没有个人简介

觉得TA不错？点个关注精彩不错过

帖子

声望

粉丝

关注

最近发布

11张图全面总结 MCP、A2A、Function Calling 架构设计间关系 2天前发布
MCP 架构设计深度剖析 2天前发布

热门推荐

王炸！MCP 架构设计深度剖析 & 使用 Spring AI + MCP 四步教你实现 Agent 智能体开发 0回复

实操干货！MCP 全解析，手把手教你基于 MCP 开发 Agent 0回复

从 Manus 到 DeepSearcher，2025年最值得关注的十大 Agent 智能体架构设计 0回复

暴论：2025年，程序员必学技能就是 MCP 0回复

Java 开发必看！MCP Server 实战全攻略，原来这么简单 0回复

上一篇：大模型应用落地：如何选择合适的 Embedding 模型？

下一篇：新RAG架构范式！DSPy将革命性改变RAG系统架构方式！！

社区精华内容

目录

1、PDF 文件中文本数据如何提取？
2、PDF 文件中表格数据如何提取？
3、扫描 PDF 的文本数据如何提取？

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载