RAG项目必备!文档解析神器MinerU:2.5万星标!支持GPU加速,轻松应对复杂文档 原创

发布于 2025-3-10 08:12
浏览
0收藏

我们都知道,对于RAG(检索增强生成)的项目来说,构建知识库的过程常常包含文档的解析。文档的解析效果直接影响到知识库的质量,进而影响问答系统的质量。因此,一款好的PDF解析工具对于RAG项目的成功至关重要。

今天,向大家推荐一款由上海人工智能实验室打造的智能文档处理工具——MinerU。这款工具刚刚完成了新年大升级,在GitHub上已经获得了超过2.5万星标,甚至连谷歌工程师都在安利!

RAG项目必备!文档解析神器MinerU:2.5万星标!支持GPU加速,轻松应对复杂文档-AI.x社区


获取MinerU

  • MinerU官网:https://mineru.net/
  • MinerU代码地址:https://github.com/opendatalab/MinerU
  • MinerU 线上demo入口:https://mineru.net/OpenSourceTools/Extractor

通过以上链接,你可以访问MinerU的官方网站、获取源代码以及尝试在线演示功能。

产品介绍

支持多种类型转换

MinerU能够轻松应对各种PDF文档需求,包括考题、PPT、论文、教科书、图书、杂志、笔记、新闻、研报等,并支持其他类型的文档转换为PDF后提取,如图片、PPT和Word文档。

支持多语言识别

跨语言识别,全球通用。目前支持中文(简体和繁体)、英文、俄语、日语、韩语等多种语言。

多元素解析

精确解析多种元素,全面提取信息,包括文本、公式、表格、化学方程式、图表等。

技术介绍

删除页眉、页脚、脚注、页码等元素

精准识别版面元素,删除页眉/页脚/脚注,同时保留正文内容。

识别图片和表格,转换为多模态的Markdown

MinerU能够识别并转换图片和表格为多模态的Markdown格式。

解析数学公式、超长公式,转换为Markdown格式

无论是简单的数学公式还是复杂的超长公式,MinerU都能准确解析并转换为Markdown格式。

保留原文档的结构,包括标题、段落、列表等

MinerU能够保留原文档的结构,确保输出的内容与原文件保持一致。

支持多种输出格式

MinerU支持多种输出格式,包括多模态与NLP的Markdown、按阅读顺序排序的JSON、含有丰富信息的中间格式等。

多平台支持

MinerU兼容Windows、Linux和Mac平台,支持CPU、GPU、NPU加速。

如何使用

本地运行

创建并激活Conda环境

conda create -n MinerU python=3.10
conda activate MinerU

安装magic-pdf及其依赖

pip install -U "magic-pdf[full]" --extra-index-url https://wheels.myhloli.com -i https://mirrors.aliyun.com/pypi/simple

安装modelscope并下载模型

pip install modelscope
wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/scripts/download_models.py -O download_models.py
python download_models.py

配置magic-pdf.json​​: 配置文件会自动生成在用户目录下,文件名为​​magic-pdf.json​​。你可以根据需要修改配置文件中的功能开关:

{
    "bucket_info": {
        "bucket-name-1": [
            "ak",
            "sk",
            "endpoint"
        ]
    },
    "models-dir": "{path}/models", # 这里的path默认会是模型下载下来的路径,也可以挪动模型,修改路径
    "layoutreader-model-dir": "{path}/layoutreader",
    "device-mode": "cpu", # 配置服务运行的基础环境,如果是cpu环境就配置cpu,如果是gup cuda,这里就配置为cuda
    "layout-config": {
        "model": "layoutlmv3" // 使用layoutlmv3请修改为“layoutlmv3"
    },
    "formula-config": {
        "mfd_model": "yolo_v8_mfd",
        "mfr_model": "unimernet_small",
        "enable": true // 公式识别功能默认是开启的,如果需要关闭请修改此处的值为"false"
    },
    "table-config": {
        "model": "rapid_table", // 表格识别默认使用"rapid_table"这个速度最快,可以切换为"tablemaster"和"struct_eqtable"
        "enable": false, // 表格识别功能默认是开启的,如果需要关闭请修改此处的值为"false"
        "max_time": 400
    },
    "config_version": "1.0.0"
}

使用Docker部署

下载Dockerfile

wget https://gcore.jsdelivr.net/gh/opendatalab/MinerU@master/docker/china/Dockerfile -O Dockerfile

构建Docker镜像

docker build -t mineru:latest .

运行Docker容器

docker run --rm -it --gpus=all mineru:latest /bin/bash -c "echo 'source /opt/mineru_venv/bin/activate' >> ~/.bashrc && exec bash"

验证安装: 在容器内运行以下命令,验证​​magic-pdf​​是否安装成功:

magic-pdf --help

注意事项

  • 模型下载:​​download_models.py​​脚本会自动下载所需的模型文件,确保网络连接正常。
  • 配置文件:​​magic-pdf.json​​文件中的配置项可以根据实际需求进行调整,例如关闭某些功能以节省资源。
  • Docker部署:如果使用GPU,请确保主机上已安装NVIDIA驱动(大于12.1)和CUDA,并且Docker已配置为支持GPU。


本文转载自公众号AI 博物院 作者:longyunfeigu

原文链接:​​https://mp.weixin.qq.com/s/PYZFqAcDtrd6Z-tvhOEYqg​

©著作权归作者所有,如需转载,请注明出处,否则将追究法律责任
标签
已于2025-3-10 08:12:24修改
收藏
回复
举报
回复
相关推荐