用 Python 进行 OCR 图像识别

开发 后端
手动将文字提取出来,要耗费很大的工作量。例如下图,某楼盘的一房一价表,怎么样发现单价低位的房子?光凭肉眼很难发现吧,能否让计算机进行文字的识别,然后再对这些数值型信息进行数据分析。

[[392205]]

本文转载自微信公众号「Python中文社区」,作者杨炳。转载本文请联系Python中文社区公众号。  

数据采集就怕遇到图片,只能看不能复制怎么办。手动将文字提取出来,要耗费很大的工作量。例如下图,某楼盘的一房一价表,怎么样发现单价低位的房子?光凭肉眼很难发现吧,能否让计算机进行文字的识别,然后再对这些数值型信息进行数据分析。

首先把图片中的单价提取出来,

进而生成图像:

用python就可以实现,采用现在流行的OCR图像识别。主要思路是使用机器学习模式,通过已有图片手动训练出一个图像识别模型,具体步骤如下:

一、将图片预处理,更方便计算机识别

(一)把图像灰化

使用open-cv库对图片进行处理。

使用灰化后的图片,如下图,排除干扰信息,能让识别更加稳定。

(二)把图片分割

将图片分割成小方块,一是提高识别精度,二是方便将数据储存为表格形式。可以设定好参数,根据坐标系把图片裁剪成一个个小方块,如下图,储存为jpg格式。

二、建立图像识别模型

(一)将分割好的小方块图片合并成tiff文件

下载jTessBoxEditor,打开jTessBoxEditor.jar,使用tools下的merge tiff工具,将图片合并成tiff文件。

(二)使用已有模型对tiff文件进行初识别

下载并安装tesseract,并配置好环境变量,将Tesseract-OCR和tessdata的路径加入到环境变量下的path下面。Tesseract自带图像识别的模型,例如中文简体汉字识别模型chi_sim.traineddata,英文识别模型eng.traineddata,这些模型可以网上下载,放到tessdata里面即可使用。

然后进入tiff所在文件夹。在命令窗口,输入:tesseract ***.tif *** -l +++ -psm 7 batch.nochop makebox,按回车生成box文件。其中***为tif的文件名,+++为要生成的traindata的文件名。

(三)使用jTessBoxEditor对tiff和box文件进行调整

打开jTessBoxEditor.jar,在box editor中的open按钮,打开要编辑的tif文件。编辑之后保存,生成box文件。保存在同一个文件夹里。

(四)使用tiff和box文件生成模型

在tiff和box的文件中,在命令窗口输入以下代码,最终生成模型(traindata文件)

上述脚本也可以写在bat文件中,运行脚本来生成traindata,最终仅需要将traindata复制到tessdata里面,即可使用该模型。

三、应用图像识别模型

安装完,训练完模型之后,就要在python中使用模型了。安装pytesseract,找到pytesseract.py文件,打开编辑,将其中的“tesseract_cmd = 'tesseract'”,改成tesseract的安装路径(如C:\Program Files\Tesseract-OCR\\tesseract)。

因为模型是采用灰化后的图片训练的,所以在识别时也要使用灰化。

四、优化图像识别模型

在使用中,如果有错误,可以存下来,加入训练库,优化图像识别模型。在一般是识别错误的图片,积攒一阵子后。累积做成tif文件。注意:同类错误选择几个记号了,训练库尽量小而精。

作者:杨炳,心理学者在银行写代码。

责任编辑:武晓燕 来源: Python中文社区
相关推荐

2018-04-24 10:45:00

Python人工智能图像识别

2024-06-07 11:24:20

2022-10-20 09:33:35

2017-09-08 13:30:32

深度学习图像识别卷积神经网络

2022-10-11 23:35:28

神经网络VGGNetAlexNet

2024-06-18 08:16:49

2024-11-11 07:00:00

Python图像识别

2023-11-24 09:26:29

Java图像

2022-10-19 07:42:41

图像识别神经网络

2016-12-01 14:23:32

iosandroid

2023-11-30 09:55:27

鸿蒙邻分类器

2014-01-14 17:43:37

NEC图像识别

2015-12-03 16:01:18

Google人像识别API

2021-07-22 08:16:02

人工智能AI

2023-09-25 10:13:59

Java识别

2022-09-09 14:42:17

应用开发ETS

2019-11-20 12:30:21

Python编程语言语音识别

2019-08-13 11:39:29

编程语言技术Python

2017-11-06 16:50:38

人工智能图像识别数据逻辑

2022-02-25 11:07:19

计算机图像识别深度学习
点赞
收藏

51CTO技术栈公众号