
RAG项目必备!文档解析神器MinerU:2.5万星标!支持GPU加速,轻松应对复杂文档 原创
我们都知道,对于RAG(检索增强生成)的项目来说,构建知识库的过程常常包含文档的解析。文档的解析效果直接影响到知识库的质量,进而影响问答系统的质量。因此,一款好的PDF解析工具对于RAG项目的成功至关重要。
今天,向大家推荐一款由上海人工智能实验室打造的智能文档处理工具——MinerU。这款工具刚刚完成了新年大升级,在GitHub上已经获得了超过2.5万星标,甚至连谷歌工程师都在安利!
获取MinerU
- MinerU官网:https://mineru.net/
- MinerU代码地址:https://github.com/opendatalab/MinerU
- MinerU 线上demo入口:https://mineru.net/OpenSourceTools/Extractor
通过以上链接,你可以访问MinerU的官方网站、获取源代码以及尝试在线演示功能。
产品介绍
支持多种类型转换
MinerU能够轻松应对各种PDF文档需求,包括考题、PPT、论文、教科书、图书、杂志、笔记、新闻、研报等,并支持其他类型的文档转换为PDF后提取,如图片、PPT和Word文档。
支持多语言识别
跨语言识别,全球通用。目前支持中文(简体和繁体)、英文、俄语、日语、韩语等多种语言。
多元素解析
精确解析多种元素,全面提取信息,包括文本、公式、表格、化学方程式、图表等。
技术介绍
删除页眉、页脚、脚注、页码等元素
精准识别版面元素,删除页眉/页脚/脚注,同时保留正文内容。
识别图片和表格,转换为多模态的Markdown
MinerU能够识别并转换图片和表格为多模态的Markdown格式。
解析数学公式、超长公式,转换为Markdown格式
无论是简单的数学公式还是复杂的超长公式,MinerU都能准确解析并转换为Markdown格式。
保留原文档的结构,包括标题、段落、列表等
MinerU能够保留原文档的结构,确保输出的内容与原文件保持一致。
支持多种输出格式
MinerU支持多种输出格式,包括多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等。
多平台支持
MinerU兼容Windows、Linux和Mac平台,支持CPU、GPU、NPU加速。
如何使用
本地运行
创建并激活Conda环境:
conda create -n MinerU python=3.10
conda activate MinerU
安装magic-pdf
及其依赖:
pip install -U "magic-pdf[full]" --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple
安装modelscope
并下载模型:
pip install modelscope
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.py
python download_models.py
配置magic-pdf.json
: 配置文件会自动生成在用户目录下,文件名为magic-pdf.json
。你可以根据需要修改配置文件中的功能开关:
{
"bucket_info": {
"bucket-name-1": [
"ak",
"sk",
"endpoint"
]
},
"models-dir": "{path}/models", # 这里的path默认会是模型下载下来的路径,也可以挪动模型,修改路径
"layoutreader-model-dir": "{path}/layoutreader",
"device-mode": "cpu", # 配置服务运行的基础环境,如果是cpu环境就配置cpu,如果是gup cuda,这里就配置为cuda
"layout-config": {
"model": "layoutlmv3" // 使用layoutlmv3请修改为“layoutlmv3"
},
"formula-config": {
"mfd_model": "yolo_v8_mfd",
"mfr_model": "unimernet_small",
"enable": true // 公式识别功能默认是开启的,如果需要关闭请修改此处的值为"false"
},
"table-config": {
"model": "rapid_table", // 表格识别默认使用"rapid_table"这个速度最快,可以切换为"tablemaster"和"struct_eqtable"
"enable": false, // 表格识别功能默认是开启的,如果需要关闭请修改此处的值为"false"
"max_time": 400
},
"config_version": "1.0.0"
}
使用Docker部署
下载Dockerfile:
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/docker/china/Dockerfile -O Dockerfile
构建Docker镜像:
docker build -t mineru:latest .
运行Docker容器:
docker run --rm -it --gpus=all mineru:latest /bin/bash -c "echo 'source /opt/mineru_venv/bin/activate' >> ~/.bashrc && exec bash"
验证安装: 在容器内运行以下命令,验证magic-pdf
是否安装成功:
magic-pdf --help
注意事项
- 模型下载:
download_models.py
脚本会自动下载所需的模型文件,确保网络连接正常。 - 配置文件:
magic-pdf.json
文件中的配置项可以根据实际需求进行调整,例如关闭某些功能以节省资源。 - Docker部署:如果使用GPU,请确保主机上已安装NVIDIA驱动(大于12.1)和CUDA,并且Docker已配置为支持GPU。
本文转载自公众号AI 博物院 作者:longyunfeigu
