颠覆传统OCR轻松搞定复杂PDF的工具

发布于 2024-9-18 14:48
浏览
0收藏

LLM 辅助 OCR 项目是一个先进的系统,旨在显著提高光学字符识别 (OCR) 输出的质量。通过利用尖端的自然语言处理技术和大型语言模型 (LLM),将原始 OCR 文本转换为高度准确、格式良好且可读的文档成为可能。本篇文章将介绍一款在github上拥有1.7k star的开源实现工具LLM-Aided OCR。

颠覆传统OCR轻松搞定复杂PDF的工具-AI.x社区


特征

本项目支持以下功能:

  • PDF 到图像转换
  • 使用 Tesseract 进行 OCR
  • 使用 LLM(本地或基于 API)进行高级错误更正
  • 智能文本分块,高效处理
  • Markdown 格式选项
  • 抑制页眉和页码(可选)
  • 最终输出的质量评估
  • 支持本地 LLM和基于云的 API 提供商(OpenAI、Anthropic)
  • 异步处理以提高性能
  • 用于流程跟踪和调试的详细日志记录
  • 用于本地 LLM 推理的 GPU 加速

工作原理

LLM 辅助 OCR 项目采用多步骤流程将原始 OCR 输出转换为高质量、可读的文本:

  1. PDF 转换:使用将输入的 PDF 转换为图像​​pdf2image​​。
  2. OCR:应用 Tesseract OCR 从图像中提取文本。
  3. 文本分块:将原始 OCR 输出分成可管理的块进行处理。
  4. 错误更正:每个块都经过基于 LLM 的处理,以纠正 OCR 错误并提高可读性。
  5. Markdown 格式(可选):将更正后的文本重新格式化为干净、一致的 Markdown。
  6. 质量评估:基于 LLM 的评估将最终输出质量与原始 OCR 文本进行比较。

代码优化

  • 并发处理:使用基于 API 的模型时,会并发处理块以提高速度。
  • 上下文保存:每个块与前一个块有小的重叠,以维持上下文。
  • 自适应token管理:系统根据输入大小和模型约束动态调整用于 LLM 请求的token数量。

效果展示

原始文档

颠覆传统OCR轻松搞定复杂PDF的工具-AI.x社区

OCR识别结果

颠覆传统OCR轻松搞定复杂PDF的工具-AI.x社区

LLM 校正的 Markdown 输出

颠覆传统OCR轻松搞定复杂PDF的工具-AI.x社区


项目地址:

https://github.com/Dicklesworthstone/llm_aided_ocr

相比传统的处理流程,需要使用大量的时间进行格式校对、格式调整;用了该工作后,直接一步到位了,轻松很多。代码全开源,跑起来吧。


本文转载自公众号哎呀AIYA

原文链接:​​https://mp.weixin.qq.com/s/PzwUBn_scPE20Ap9nQuVLA​


收藏
回复
举报
回复
相关推荐