MinerU一款全能、开源的文档与网页数据提取工具

开源
MinerU 是一款强大且多功能的数据提取工具,它能够帮助用户从各种文档中提取高质量的数据,特别适合于AI研究和大数据模型训练。尽管存在一些局限性,但其开源特性和持续的社区支持使其成为一个值得关注和尝试的工具。​

MinerU 是一款由上海人工智能实验室OpenDataLab团队发布的全能、开源的文档与网页数据提取工具。它能够将包含图片、表格、公式等元素的多模态PDF文档转化为清晰、易于分析的Markdown格式,同时也支持从包含广告等干扰信息的网页中快速解析、抽取正式内容,并将其批量转化为Markdown格式。

图片

一、主要特点

多功能性:MinerU 包含两个主要部分:Magic-PDF和Magic-Doc,分别负责PDF文档提取和网页与电子书提取。

多模态处理:Magic-PDF能够处理PDF中的图像、表格、公式等多种内容类型,并保留原文档的结构和格式。

高质量解析:MinerU使用了先进的模型,如LayoutLMv3、YOLOv8、UniMERNet和PaddleOCR,以确保数据提取的高准确度。

广泛的应用场景:适用于学术、财务、法律等多个领域,并支持多达176种语言的准确识别。

跨平台支持:能够在Windows、Linux和Mac平台上运行,并支持CPU和GPU环境。

图片

二、使用场景

MinerU 适用于需要从复杂格式的文档中提取数据的场景,尤其适合于AI研究和大模型训练中处理大量非结构化数据的需求。

三、技术细节

图片

PDF文档提取:MinerU的PDF提取过程包括PDF文档分类预处理、模型解析和管线处理等环节。它能够识别和处理文本型、图层型和扫描版的PDF文档,并通过一系列深度学习模型进行版面分析、OCR和公式识别。

网页与电子书提取:Magic-Doc能够从多种类型的网页和电子书中提取信息,支持包括epub、mobi在内的多种格式,并能够处理文章、论坛、音乐、视频等内容类型。

图片

四、快速安装与使用

CPU Demo

# 1. 安装依赖
conda create -n MinerU pythnotallow=3.10
conda activate MinerU
pip install -U magic-pdf[full] --extra-index-url https://wheels.myhloli.com -i https://pypi.tuna.tsinghua.edu.cn/simple


# 2. 下载模型权重文件
# 根据官方文档(https://github.com/opendatalab/MinerU/blob/master/docs/how_to_download_models_en.md)指示操作


# 3. 配置Magic-PDF
cp magic-pdf.template.json ~/magic-pdf.json
# 编辑 ~/magic-pdf.json,设置正确的模型文件路径


# 4. 开始使用
magic-pdf --help
magic-pdf -p {some_pdf} -o {some_output_dir} -m auto

Docker 快速部署

# 检查您的设备是否支持Docker上的CUDA加速。
docker run --rm --gpus=all nvidia/cuda:12.1.0-base-ubuntu22.04 nvidia-smi


# 运行 docker 部署
wget https://github.com/opendatalab/MinerU/raw/master/Dockerfile
docker build -t mineru:latest .
docker run --rm -it --gpus=all mineru:latest /bin/bash
magic-pdf --help

更多使用方式,请查阅如下提供地址

总结

MinerU 是一款强大且多功能的数据提取工具,它能够帮助用户从各种文档中提取高质量的数据,特别适合于AI研究和大数据模型训练。尽管存在一些局限性,但其开源特性和持续的社区支持使其成为一个值得关注和尝试的工具。

体验链接: https://opendatalab.com/OpenSourceTools/Extractor/PDF

开源仓库:https://github.com/opendatalab/MinerU/

MinerU开源模型(PDF-Extract-Kit): https://modelscope.cn/models/OpenDataLab/PDF-Extract-Kit

责任编辑:庞桂玉 来源: 顶层架构领域
相关推荐

2023-06-08 08:46:37

Motrix下载工具

2020-02-17 07:20:22

SSH远程连接工具Linux

2023-07-11 08:30:56

2024-02-23 08:13:25

Excalidraw白板工具开源

2015-09-23 17:39:52

Github开源工具

2015-09-28 09:56:17

Github开源工具编程

2021-06-09 09:52:29

开源Pyroscope代码

2015-08-07 09:44:36

开源数据中心

2016-12-15 15:08:38

HTML文档工具

2024-03-06 08:26:29

2024-08-16 08:31:05

2021-07-23 16:50:19

httpJava框架

2022-09-08 09:00:38

Ansible开源

2019-08-02 14:45:22

阿里Java命令

2016-02-15 11:44:23

源码开源项目watch

2020-02-28 10:10:07

开源技术 工具

2013-12-19 14:53:01

2010-12-01 11:14:46

snort嗅探器数据包记录器

2013-12-18 17:16:29

2022-05-24 15:03:44

开源工具可视化
点赞
收藏

51CTO技术栈公众号