Java 实现OCR扫描/识别图片文字

2024-04-01 14:32 由 E-iceblue 发表于 #后端开发

图片内容一般无法编辑，如果想要读取图片中的文本，我们需要用到OCR工具。本文将介绍如何在Java中实现OCR识别读取图片中的文字。

所需工具：

IDEA
Spire.OCR for Java - Java OCR组件，支持识别多种语言、字体，可读取JPG、PNG、GIF、BMP 和 TIFF 等常用图片中的文本信息。

产品包下载链接：https://www.e-iceblue.cn/Downloads/Spire-OCR-JAVA.html

或从Maven仓库导入：

<repositories>
    <repository>
        <id>com.e-iceblue</id>
        <name>e-iceblue</name>
        <url>https://repo.e-iceblue.cn/repository/maven-public/</url>
    </repository>
</repositories>
<dependencies>
    <dependency>
        <groupId>e-iceblue</groupId>
        <artifactId>spire.ocr</artifactId>
        <version>1.9.0</version>
    </dependency>
</dependencies>

其余依赖文件。按操作系统下载对应文件后，解压缩至指定的文件路径。

　Linux

　　 Windows x64

Java OCR识别图片文本的实现步骤

1. 在IDEA中新建一个项目并导入Spire.OCR.jar。

2. 将刚才下载解压缩后的 “dependencies” 文件夹复制到IDEA项目目录下。

3.确保导入以上所需依赖后，运行以下代码实现扫描读取图片中的文本。

import com.spire.ocr.OcrScanner;
import java.io.*;
 
public class ReadImage {
    public static void main(String[] args) throws Exception {
        //指定依赖文件的路径
        String dependencies = "F:\\dependencies\\";
        //指定要需要扫描的图片的路径
        String imageFile = "图片.png";
        //指定输出文件的路径
        String outputFile = "读取图片.txt";
 
        //创建OcrScanner对象，并设置其依赖文件路径
        OcrScanner scanner = new OcrScanner();
        scanner.setDependencies(dependencies);
 
        //扫描指定的图像文件
        scanner.scan(imageFile);
 
        //获取扫描的文本内容
        String scannedText = scanner.getText().toString();
 
        //创建输出文件对象
        File output = new File(outputFile);
        //如果输出文件已经存在，则将其删除
        if (output.exists()) {
            output.delete();
        }
        //创建BufferedWriter对象来将扫描的文本内容写入输出文件
        BufferedWriter writer = new BufferedWriter(new FileWriter(outputFile));
        writer.write(scannedText);
        writer.close();
    }
}

示例图片：

OCR图片扫描结果：

关于JDK21控制台字符集编码问题

关于JDK21控制台字符集编码问题前言：某日尝试JDK21，idea控制台字符集编码一直乱码，后将idea所有能配置UTF-8的配置都配了一遍，无果，后搜索JDK21字符集编码相关后解决 1.配置项目字符集点击菜单 File - > settings -> appearence , 将字体设置 ...阅读全文

一个现代化轻量级的跨平台Redis桌面客户端

大家好，我是 Java陈序员。 Redis 作为一款高性能的非关系型数据库，可是深受开发者的喜爱，无论是什么开发，都能看到 Redis 的身影。今天，给大家介绍一款跨平台的 Redis 客户端连接工具，功能强大，界面美观！关注微信公众号：【Java陈序员】，获取开源项目分享、AI副业分享、超20 ...阅读全文

这 Java 程序员简历一看就是包装的。。

大家好，我是R哥。最近做 Java 面试辅导，看了许多小伙伴的简历，有的人的简历一看就知道是包装的，比如这位，他自己都承认了：包装过的简历，作为多年面试官，我一眼就能看出来，相信其他面试官也会有同样的感觉，这也是为什么很多人的简历都是已读不回的状态。下面我简单说说包装的简历的特点。 1、技术栈 ...阅读全文

SpringBoot多环境配置

写在前面在实际项目的开发过程中，我们程序往往需要在不同环境中运行。例如：开发环境、测试环境和生产环境。每个环境中的配置参数可能都会有所不同，例如数据库连接信息、文件服务器等等。 Spring Boot 提供了非常方便的方式来管理这些不同环境的配置。一、Spring Profile 介绍 Spr ...阅读全文

python str.format高级用法

在 Python 2 中，str.format() 函数可以使用一些高级的格式化选项，下面是一些常用的高级用法： 1. 格式化数字可以使用格式化选项来控制数字的显示方式，例如： # 将数字格式化为带千位分隔符的字符串 n = 1234567 s = "{:,}".format(n) print(s ...阅读全文

Druid监控踩坑指南

概述最近项目组在准备接入各种指标监控系统，笔者负责的部分刚好涉及到了 Druid，故记录一下在过程中遇到的各种情况和坑。 1. 直接使用 Druid 直接使用 Druid 的监控功能，需要直接将它提供的 Servlet 配置到 Web 容器中。具体可以直接参照官方文档。配置信息采集：https: ...阅读全文

C++原子操作与内存序 1

问题 #include<iostream> #include<thread> int main() { int sum = 0; auto f = [&sum]() { for (int i = 0; i < 10000; i++) sum += 1; }; std::thread t1(f); s ...阅读全文

【GUI软件】抖音评论采集：自动采集10000多条，含二级评论、展开评论！

一、背景说明 1.1 效果演示用python开发的dy爬虫采集软件，可自动抓取抖音评论数据，并且含二级评论！为什么有了源码还开发界面软件呢？方便不懂编程代码的小白用户使用，无需安装python、无需懂代码，双击打开即用！软件界面截图：爬取结果截图：以上。 1.2 演示视频软件运行演示：【 ...阅读全文

MySQL 索引失效场景总结

查询条件有 or 假设在 customer_name 字段设置了普通索引，执行以下 sql： # type: ref, possible_keys: idx_customer_name, key: idx_customer_name # idx_customer_name 索引生效 explain ...阅读全文

文件系统 FTP Ubuntu 安装入门介绍

FTP 环境: Ubuntu 14.04 blog zh_CN ubuntu14.04 Install 全新安装：apt-get install vsftpd 重新安装:apt-get --reinstall install vsftpd 卸载并清除配置文件：apt-get --purge remo ...阅读全文