RAG项目必备！文档解析神器MinerU：2.5万星标！支持GPU加速，轻松应对复杂文档原创

AI博物院

发布于 2025-3-10 08:12

浏览

1收藏

我们都知道，对于RAG（检索增强生成）的项目来说，构建知识库的过程常常包含文档的解析。文档的解析效果直接影响到知识库的质量，进而影响问答系统的质量。因此，一款好的PDF解析工具对于RAG项目的成功至关重要。

今天，向大家推荐一款由上海人工智能实验室打造的智能文档处理工具——MinerU。这款工具刚刚完成了新年大升级，在GitHub上已经获得了超过2.5万星标，甚至连谷歌工程师都在安利！

RAG项目必备！文档解析神器MinerU：2.5万星标！支持GPU加速，轻松应对复杂文档-AI.x社区

获取MinerU

MinerU官网：https://mineru.net/
MinerU代码地址：https://github.com/opendatalab/MinerU
MinerU 线上demo入口：https://mineru.net/OpenSourceTools/Extractor

通过以上链接，你可以访问MinerU的官方网站、获取源代码以及尝试在线演示功能。

产品介绍

支持多种类型转换

MinerU能够轻松应对各种PDF文档需求，包括考题、PPT、论文、教科书、图书、杂志、笔记、新闻、研报等，并支持其他类型的文档转换为PDF后提取，如图片、PPT和Word文档。

支持多语言识别

跨语言识别，全球通用。目前支持中文（简体和繁体）、英文、俄语、日语、韩语等多种语言。

多元素解析

精确解析多种元素，全面提取信息，包括文本、公式、表格、化学方程式、图表等。

技术介绍

删除页眉、页脚、脚注、页码等元素

精准识别版面元素，删除页眉/页脚/脚注，同时保留正文内容。

识别图片和表格，转换为多模态的Markdown

MinerU能够识别并转换图片和表格为多模态的Markdown格式。

解析数学公式、超长公式，转换为Markdown格式

无论是简单的数学公式还是复杂的超长公式，MinerU都能准确解析并转换为Markdown格式。

保留原文档的结构，包括标题、段落、列表等

MinerU能够保留原文档的结构，确保输出的内容与原文件保持一致。

支持多种输出格式

MinerU支持多种输出格式，包括多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等。

多平台支持

MinerU兼容Windows、Linux和Mac平台，支持CPU、GPU、NPU加速。

如何使用

本地运行

创建并激活Conda环境：

conda create -n MinerU python=3.10
conda activate MinerU1.
2.

安装magic-pdf及其依赖：

pip install -U "magic-pdf[full]" --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple1.

安装modelscope并下载模型：

pip install modelscope
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.py
python download_models.py1.
2.
3.

配置magic-pdf.json：配置文件会自动生成在用户目录下，文件名为magic-pdf.json。你可以根据需要修改配置文件中的功能开关：

{
    "bucket_info": {
        "bucket-name-1": [
            "ak",
            "sk",
            "endpoint"
        ]
    },
    "models-dir": "{path}/models", # 这里的path默认会是模型下载下来的路径，也可以挪动模型，修改路径
    "layoutreader-model-dir": "{path}/layoutreader",
    "device-mode": "cpu", # 配置服务运行的基础环境，如果是cpu环境就配置cpu，如果是gup cuda，这里就配置为cuda
    "layout-config": {
        "model": "layoutlmv3" // 使用layoutlmv3请修改为“layoutlmv3"
    },
    "formula-config": {
        "mfd_model": "yolo_v8_mfd",
        "mfr_model": "unimernet_small",
        "enable": true // 公式识别功能默认是开启的，如果需要关闭请修改此处的值为"false"
    },
    "table-config": {
        "model": "rapid_table", // 表格识别默认使用"rapid_table"这个速度最快,可以切换为"tablemaster"和"struct_eqtable"
        "enable": false, // 表格识别功能默认是开启的，如果需要关闭请修改此处的值为"false"
        "max_time": 400
    },
    "config_version": "1.0.0"
}1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.

使用Docker部署

下载Dockerfile：

wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/docker/china/Dockerfile -O Dockerfile1.

构建Docker镜像：

docker build -t mineru:latest .1.

运行Docker容器：

docker run --rm -it --gpus=all mineru:latest /bin/bash -c "echo 'source /opt/mineru_venv/bin/activate' >> ~/.bashrc && exec bash"1.

验证安装：在容器内运行以下命令，验证magic-pdf是否安装成功：

magic-pdf --help1.

注意事项

模型下载：download_models.py脚本会自动下载所需的模型文件，确保网络连接正常。
配置文件：magic-pdf.json文件中的配置项可以根据实际需求进行调整，例如关闭某些功能以节省资源。
Docker部署：如果使用GPU，请确保主机上已安装NVIDIA驱动（大于12.1）和CUDA，并且Docker已配置为支持GPU。

本文转载自公众号AI 博物院作者：longyunfeigu

原文链接：https://mp.weixin.qq.com/s/PYZFqAcDtrd6Z-tvhOEYqg

标签

RAG

已于2025-3-10 08:12:24修改

社区头条

相关推荐

MRAG：一种多头RAG，提升具有显著不同内容的多个文档复杂查询的检索准确性

PaperAgent • 3521浏览 • 0回复
RAG技术性能提升之文档分块策略方案

AIGC观察者 • 4412浏览 • 0回复
利用LlamaIndex和本地PDF文档，轻松打造知识图谱GraphRAG

小虎哦哦 • 3391浏览 • 0回复
如何利用RAG+Agent轻松解决企业复杂问题？

玄姐聊AGI • 2292浏览 • 0回复
RAG高级优化：基于问题生成的文档检索增强

恰似惊鸿 • 2430浏览 • 0回复
RAG文档解析器，核心技术剖析

小虎哦哦 • 2792浏览 • 0回复
改进RAG管道检索文档质量的五种方法

51CTO内容精选 • 2169浏览 • 0回复
边看文档边开发太慢，试试这款AI文档智能体

小虎哦哦 • 1899浏览 • 0回复
RAG 的未来 - 自动文档检索

探索AGI • 1955浏览 • 0回复
Transformers.js v3震撼发布：WebGPU加速、120种架构支持，开发者必备神器！

Syrupup • 2282浏览 • 0回复
先进的多文档问答（MDQA）框架HiQA：大幅降低区分度低的复杂多文档RAG的幻觉问题

AI博物院 • 2119浏览 • 0回复
TextIn：一款优秀的文档解析神器，提升RAG性能必备

恰似惊鸿 • 3329浏览 • 0回复
再看多模态RAG进行文档问答的方案

大模型自然语言处理 • 1817浏览 • 0回复
文档解析技术指南：从传统Pipeline到端到端大模型

Baihai_IDP • 2102浏览 • 0回复
allenai开源多模态的文档智能解析大模型（OLMOCR）方法、效果浅析

大模型自然语言处理 • 1991浏览 • 0回复
基于代理知识蒸馏技术克服文档提取和RAG策略失败问题

51CTO内容精选 • 839浏览 • 0回复
万字解析非结构化文档中的隐藏价值：多模态检索增强生成（RAG）的前景

柏企阅文 • 685浏览 • 0回复
十大PDF解析工具在不同文档类别中的比较研究

大模型自然语言处理 • 565浏览 • 0回复
Adobe首发多Agent、跨模态框架MDocAgent：复杂文档理解性能爆炸12%，错误率直降21%

CourseAI • 372浏览 • 0回复

AI博物院

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

RAG项目必备！文档解析神器MinerU：2.5万星标！支持GPU加速，轻松应对复杂文档原创

获取MinerU

产品介绍

支持多种类型转换

支持多语言识别

多元素解析

技术介绍

删除页眉、页脚、脚注、页码等元素

识别图片和表格，转换为多模态的Markdown

解析数学公式、超长公式，转换为Markdown格式

保留原文档的结构，包括标题、段落、列表等

支持多种输出格式

多平台支持

如何使用

本地运行

使用Docker部署

注意事项

目录

51CTO

51CTO博客

51CTO学堂

RAG项目必备！文档解析神器MinerU：2.5万星标！支持GPU加速，轻松应对复杂文档 原创

获取MinerU

产品介绍

支持多种类型转换

支持多语言识别

多元素解析

技术介绍

删除页眉、页脚、脚注、页码等元素

识别图片和表格，转换为多模态的Markdown

解析数学公式、超长公式，转换为Markdown格式

保留原文档的结构，包括标题、段落、列表等

支持多种输出格式

多平台支持

如何使用

本地运行

使用Docker部署

注意事项

目录

RAG项目必备！文档解析神器MinerU：2.5万星标！支持GPU加速，轻松应对复杂文档原创