【Python】【OpenCV】OCR识别（三）——字符识别

2024-01-12 20:01 由 VanGoghpeng 发表于 #后端开发

　　通过上一篇博客，我们成功将有角度的图片进行“摆正”，接下来我们来提取图片中的文字。

　　我们使用Tesseract来处理图片并提取文字，相关下载安装请参考：Python下Tesseract Ocr引擎及安装介绍 - 黯然销魂掌2015 - 博客园 (cnblogs.com)

　　同时我们需要下载第三方Lib——pytesseract，使用pip下载好后，我们进入Lib\site-packages\pytesseract然后打开pytesseract.py，修改“tesseract_cmd”变量，更改为安装好的Tesseract目录文件夹下的tesseract.exe。

　　以下是我的路径：

　　　　tesseract安装路径——D:\soft\tesseract-OCR

　　　　pytesseract路径——D:\soft\Python\virtualenvs\Cameo\venv\Lib\site-packages\pytesseract

　　　　修改“tesseract_cmd”变量，赋值为 = r'D:\soft\tesseract-OCR\tesseract.exe'

　　然后我们就可以在程序中开始调用pytesseract库了，上代码：

import pytesseract
from PIL import Image

res = pytesseract.image_to_string(Image.fromarray(img))
print(res)

　　先导入pytesseract和PIL库，然后使用image_to_string()方法来提取图片中的文字，其中我们使用了Image.fromarray这个方法，因为我们在使用OpenCV处理图像的时候，是以数组的形式，但是image_to_string需要的是图像，所以我们需要把数组转换成图像再传入。

运行输出：

a

wee TAX 000 BAL 101.33

WHOLE
FOODS
Cm AR KE TY

WHOLE FOODS MARKET - WESTPORT. CT 06880
399 POST RD WEST - (203) 227-6858

365 BACONLS NP 4.99
365 BACONLS NP 4.99
365 BACON LS NP 4.99
365 BACONLS NP 4.99
BROTH CHIC NP = 2.19

FLOUR ALMOND NP..11.99

CHKN BRST BNLSS SK NP 18.80
HEAVY CREAM NP = 3.39
BALSMC REDUCT NP 6.49

BEEF GRND 85/15 NP 5.04
JUICE COF CASHEW C NP 8.99
DOCS PINT ORGANIC NP 14,49
HNY ALMOND BUTTER NP 9.99

“TABATA AAA Tra

View Code

可以看到运行结果还是较为准确的，如果需要识别中文，则需要相关的中文语料，这里就不过多赘述了。

热门相关：盛世娇宠之名门闺香霸宠天下：腹黑帝君妖娆后霸宠天下：腹黑帝君妖娆后布衣官道扑倒老公大人：龙总，我爱你！

相关文章

用Python写的自动答题脚本，正确率99%，刷课必备

咱们上学的时候，有些课程，不是很重要所以没去看，但是又要刷题，这时候，自动答题脚本就很关键，全程全自动，正确率还嘎嘎高！所以咱们今天来用Python写一个自动答题脚本，正确率99%！话不多说直接开始准备工作使用的环境 Python 3.10 解释器 Pycharm 编辑器模块使用 from ...阅读全文

python 处理pdf加密文件

近期有同事需要提取加密的pdf文件，截取其中的信息，并且重构pdf文件。网上没有搜到相关的pdf操作，于是咨询了chatgpt，给出了pypdf2的使用案例。但是时间比较久远了，很多库内的调用接口都已经更新了。于是自行到官方的库内学习相关接口使用。整理的处理代码如下： # -*- coding: ...阅读全文

Python多线程编程全解析：基础到高级用法

Python中有多线程的支持。Python的threading模块提供了多线程编程的基本工具。在下面，我将列举一些基础的多线程用法和一些高级用法，并提供相应的源代码，其中包含中文注释。基础用法：创建和启动线程 import threading import time # 定义一个简单的线程类 c ...阅读全文

Python教程(22)——Python面向对象的属性和方法

在Python面向对象编程中，属性和方法是类及其对象的重要组成部分。如果说封装、继承和多态是面向对象编程中的思想，那么类的属性和方法就是骨架，因为有属性和方法，面向对象编程才变的有血有肉。属性属性是类或对象所拥有的数据，它用于描述对象的特征和状态。属性可以是实例属性（对象特有的属性）或类属性（属 ...阅读全文

在Python中利用内置SQLite3模块进行数据库操作的完整指南

在Python中，使用SQLite非常方便，Python内置了 SQLite3 模块，无需额外安装。SQLite 是一个轻量级的嵌入式数据库，适用于小型项目和单用户应用。以下是一个简单的示例，演示如何在 Python 中使用 SQLite，并提供了常见的查询、增加、修改和删除功能。首先，确保你的 ...阅读全文

【python可视化大屏】使用python实现可拖拽数据可视化大屏

介绍：我在前几期分享了关于爬取weibo评论的爬虫，同时也分享了如何去进行数据可视化的操作。但是之前的可视化都是单独的，没有办法在一个界面上展示的。这样一来呢，大家在看的时候其实是很不方便的，就是没有办法一目了然的看到数据的规律。为了解决这个问题我使用pyecharts实现了一个可视化的大屏。接下 ...阅读全文

Python教程(21)——面向对象编程的三大特性

Python教程(21)——面向对象编程的三大特性在Python中，面向对象编程是一种核心的编程思想。Python被称为“一切皆对象”的语言，因为在Python中，几乎所有的数据都被视为对象。这包括数字、字符串、列表、函数等基本类型，还有自定义的类和对象。 Python中的面向对象编程提供了类（C ...阅读全文

python中的json操作总结

json.loads() / json.dumps() vs json.load() / json.dump() 的区别：s 代表 string ，前两个用于字符串转换，后两个用于读取/写入.json文件 json(dict) 与字符(str)转换 str转json：json.loads() jso ...阅读全文

这些常见的python编码习惯，你都会吗

本文分享自华为云社区《不得不知的十个常见PY编码习惯》，作者：码乐。简介语言在发展和变化，编码习惯也在发生改变。这里简单聊聊 17个python中常见的编码习惯或者风格。 1,可变数据结构：注意在函数变量不要使用它 def foo(x=[]): x.append(1) print(x) >>> ...阅读全文

[python]常用配置读取方法

前言常见的应用配置方式有环境变量和配置文件，对于微服务应用，还会从配置中心加载配置，比如nacos、etcd等，有的应用还会把部分配置写在数据库中。此处主要记录从环境变量、.env文件、.ini文件、.yaml文件、.toml文件、.json文件读取配置。 ini文件 ini文件格式一般如下： [ ...阅读全文