
RAG项目必备!文档解析神器MinerU:2.5万星标!支持GPU加速,轻松应对复杂文档 原创
我们都知道,对于RAG(检索增强生成)的项目来说,构建知识库的过程常常包含文档的解析。文档的解析效果直接影响到知识库的质量,进而影响问答系统的质量。因此,一款好的PDF解析工具对于RAG项目的成功至关重要。
今天,向大家推荐一款由上海人工智能实验室打造的智能文档处理工具——MinerU。这款工具刚刚完成了新年大升级,在GitHub上已经获得了超过2.5万星标,甚至连谷歌工程师都在安利!
获取MinerU
- MinerU官网:https://mineru.net/
- MinerU代码地址:https://github.com/opendatalab/MinerU
- MinerU 线上demo入口:https://mineru.net/OpenSourceTools/Extractor
通过以上链接,你可以访问MinerU的官方网站、获取源代码以及尝试在线演示功能。
产品介绍
支持多种类型转换
MinerU能够轻松应对各种PDF文档需求,包括考题、PPT、论文、教科书、图书、杂志、笔记、新闻、研报等,并支持其他类型的文档转换为PDF后提取,如图片、PPT和Word文档。
支持多语言识别
跨语言识别,全球通用。目前支持中文(简体和繁体)、英文、俄语、日语、韩语等多种语言。
多元素解析
精确解析多种元素,全面提取信息,包括文本、公式、表格、化学方程式、图表等。
技术介绍
删除页眉、页脚、脚注、页码等元素
精准识别版面元素,删除页眉/页脚/脚注,同时保留正文内容。
识别图片和表格,转换为多模态的Markdown
MinerU能够识别并转换图片和表格为多模态的Markdown格式。
解析数学公式、超长公式,转换为Markdown格式
无论是简单的数学公式还是复杂的超长公式,MinerU都能准确解析并转换为Markdown格式。
保留原文档的结构,包括标题、段落、列表等
MinerU能够保留原文档的结构,确保输出的内容与原文件保持一致。
支持多种输出格式
MinerU支持多种输出格式,包括多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等。
多平台支持
MinerU兼容Windows、Linux和Mac平台,支持CPU、GPU、NPU加速。
如何使用
本地运行
创建并激活Conda环境:
安装magic-pdf
及其依赖:
安装modelscope
并下载模型:
配置magic-pdf.json
: 配置文件会自动生成在用户目录下,文件名为magic-pdf.json
。你可以根据需要修改配置文件中的功能开关:
使用Docker部署
下载Dockerfile:
构建Docker镜像:
运行Docker容器:
验证安装: 在容器内运行以下命令,验证magic-pdf
是否安装成功:
注意事项
- 模型下载:
download_models.py
脚本会自动下载所需的模型文件,确保网络连接正常。 - 配置文件:
magic-pdf.json
文件中的配置项可以根据实际需求进行调整,例如关闭某些功能以节省资源。 - Docker部署:如果使用GPU,请确保主机上已安装NVIDIA驱动(大于12.1)和CUDA,并且Docker已配置为支持GPU。
本文转载自公众号AI 博物院 作者:longyunfeigu
