如何免费提取PDF里的图片-pdfimages使用教程

2024-07-24 12:09 由 winddevil 发表于 #其他

写在前面

本随笔是非常菜的菜鸡写的。如有问题请及时提出。

可以联系：[email protected]

GitHhub：https://github.com/WindDevil （目前啥也没有

动机

由于WPS的提取图片需要收费,作为穷鬼的我直接在bing,键入open source software get picture form pdf.

找到这个项目:VR51/Batch-PDF-Image-Extractor: Extract images from PDF documents. Works on multiple and single PDF files (github.com)

看到这个项目的Requirements:
This script reqires pdfimages to be installed. The script will check for pdfimages and prompt for its installation if not found.

显示需要pdfimages这个工具.

安装

于是继续搜索pdfimages,得到这个网站.

我们可以看到这个库可以直接通过apt-get得到.这里由于需要用到Linux,我使用的是虚拟机的方法可以参考这篇博客.

于是在虚拟机里键入sudo apt-get install poppler-utils,注意它的名字是poppler-utils.

使用方法

直接键入pdfimages -h尝试查找它的教程:

pdfimages version 22.02.0
Copyright 2005-2022 The Poppler Developers - http://poppler.freedesktop.org
Copyright 1996-2011 Glyph & Cog, LLC
Usage: pdfimages [options] <PDF-file> <image-root>
  -f <int>       : first page to convert
  -l <int>       : last page to convert
  -png           : change the default output format to PNG
  -tiff          : change the default output format to TIFF
  -j             : write JPEG images as JPEG files
  -jp2           : write JPEG2000 images as JP2 files
  -jbig2         : write JBIG2 images as JBIG2 files
  -ccitt         : write CCITT images as CCITT files
  -all           : equivalent to -png -tiff -j -jp2 -jbig2 -ccitt
  -list          : print list of images instead of saving
  -opw <string>  : owner password (for encrypted files)
  -upw <string>  : user password (for encrypted files)
  -p             : include page numbers in output file names
  -q             : don't print any messages or errors
  -v             : print copyright and version info
  -h             : print usage information
  -help          : print usage information
  --help         : print usage information
  -?             : print usage information

很容易看出使用方法是pdfimages [options] <PDF-file> <image-root>,也即pdfimages+选项+PDF文件路径+输出图片路径.

这里比较重点地点出,如果直接使用指令,默认生成格式不是jpg或者png,需要在输入指令的时候选项部分输入-png或者-j,这个指令就可以把pdffile.pdf的图片提取到当前目录下:

pdfimages -j pdffile.pdf ./

实验

在Downloads文件夹下创建files,把主机PDF文件拷贝到虚拟机.

cd ~/Downloads
mkdir files
cd files

我直接用VScode的SSH把文件拖进去的.

写在前面

本随笔是非常菜的菜鸡写的。如有问题请及时提出。

可以联系：[email protected]

GitHhub：https://github.com/WindDevil （目前啥也没有

动机

由于WPS的提取图片需要收费,作为穷鬼的我直接在bing,键入open source software get picture form pdf.

找到这个项目:VR51/Batch-PDF-Image-Extractor: Extract images from PDF documents. Works on multiple and single PDF files (github.com)

看到这个项目的Requirements:
This script reqires pdfimages to be installed. The script will check for pdfimages and prompt for its installation if not found.

显示需要pdfimages这个工具.

安装

于是继续搜索pdfimages,得到这个网站.

我们可以看到这个库可以直接通过apt-get得到.这里由于需要用到Linux,我使用的是虚拟机的方法可以参考这篇博客.

于是在虚拟机里键入sudo apt-get install poppler-utils,注意它的名字是poppler-utils.

使用方法

直接键入pdfimages -h尝试查找它的教程:

pdfimages version 22.02.0
Copyright 2005-2022 The Poppler Developers - http://poppler.freedesktop.org
Copyright 1996-2011 Glyph & Cog, LLC
Usage: pdfimages [options] <PDF-file> <image-root>
  -f <int>       : first page to convert
  -l <int>       : last page to convert
  -png           : change the default output format to PNG
  -tiff          : change the default output format to TIFF
  -j             : write JPEG images as JPEG files
  -jp2           : write JPEG2000 images as JP2 files
  -jbig2         : write JBIG2 images as JBIG2 files
  -ccitt         : write CCITT images as CCITT files
  -all           : equivalent to -png -tiff -j -jp2 -jbig2 -ccitt
  -list          : print list of images instead of saving
  -opw <string>  : owner password (for encrypted files)
  -upw <string>  : user password (for encrypted files)
  -p             : include page numbers in output file names
  -q             : don't print any messages or errors
  -v             : print copyright and version info
  -h             : print usage information
  -help          : print usage information
  --help         : print usage information
  -?             : print usage information

很容易看出使用方法是pdfimages [options] <PDF-file> <image-root>,也即pdfimages+选项+PDF文件路径+输出图片路径.

这里比较重点地点出,如果直接使用指令,默认生成格式不是jpg或者png,需要在输入指令的时候选项部分输入-png或者-j,这个指令就可以把pdffile.pdf的图片提取到当前目录下:

pdfimages -j pdffile.pdf ./

实验

在Downloads文件夹下创建files,把主机PDF文件拷贝到虚拟机.

cd ~/Downloads
mkdir files
cd files

我直接用VScode的SSH把文件拖进去的.

然后执行pdfimages -j LDO.pdf ./,使用ls指令看一下生成了什么:

-000.ppm  -001.ppm  -002.ppm  -003.ppm  -004.ppm  -005.ppm  LDO.pdf

很奇怪地没用生成.jpg而是.ppm,挠头.

改为执行pdfimages -png LDO.pdf ./,使用ls指令看一下生成了什么:

-000.png  -000.ppm  -001.png  -001.ppm  -002.png  -002.ppm  -003.png  -003.ppm  -004.png  -004.ppm  -005.png  -005.ppm  LDO.pdf

确实可以生成.png文件.

然后只需要把图片从虚拟机拷出来就行了.

然后执行pdfimages -j LDO.pdf ./,使用ls指令看一下生成了什么:

-000.ppm  -001.ppm  -002.ppm  -003.ppm  -004.ppm  -005.ppm  LDO.pdf

很奇怪地没用生成.jpg而是.ppm,挠头.

改为执行pdfimages -png LDO.pdf ./,使用ls指令看一下生成了什么:

-000.png  -000.ppm  -001.png  -001.ppm  -002.png  -002.ppm  -003.png  -003.ppm  -004.png  -004.ppm  -005.png  -005.ppm  LDO.pdf

确实可以生成.png文件.

然后只需要把图片从虚拟机拷出来就行了.

热门相关：我会一直喜欢你战神无双完美隐婚完美再遇龙组兵王

相关文章

2. 两数相加

class Solution { public ListNode addTwoNumbers(ListNode l1, ListNode l2) { ListNode curr = new ListNode(0); ListNode head = curr; int plus =0; while ( ...阅读全文

全球电脑蓝屏崩溃，为何中国没事？周鸿祎：因 90% 用 360 软件！

导致这次故障的罪魁祸首正是全球知名的安全软件公司 Crowdstrike，它在全球范围内被广泛用于管理 Windows PC 和服务器的安全。 ...阅读全文

CC爬虫攻击测试与防护

本文章旨在对最基本的CC攻击进行测试与防护，本次测试的所有站点均为本人自建，没有也不会去攻击其他站点。希望各位读者能够遵循当地法律法规，不要做危害他人计算机的行为 ...阅读全文

比赛获奖的武林秘籍：08 一文速通光电设计大赛，电子人必看

比赛获奖的武林秘籍：08 一文速通光电设计大赛，电子人必看摘要本文主要介绍了光电设计大赛的简介、比赛形式、备赛方向，并结合往年题目进行了分析和总结。正文部分大赛简介全国大学生光电设计竞赛是一项面向全国各高校各专业学生的科技竞赛活动。这项活动旨在推动高等学校的教学改革，加强教育与产业之间的联 ...阅读全文

论文图谱当如是：用200篇图计算论文打个样

试想在你刚接触一个陌生的技术领域时，如果有办法以“上帝视角”看到该领域完整的历史发展轨迹，是否可以让自己的技术探索更有的放矢，胸有成竹呢？是的，你没猜错，这个玩意儿叫论文图谱。我通过“人肉扫描”了200多篇图计算系统的论文，整理了心中理想的“图计算论文图谱”原型，大家可以“类比想象”一下当下关注技术... ...阅读全文

论文图谱当如是：用200篇图系统论文打个样

试想在你刚接触一个陌生的技术领域时，如果有办法以“上帝视角”看到该领域完整的历史发展轨迹，是否可以让自己的技术探索更有的放矢，胸有成竹呢？是的，你没猜错，这个玩意儿叫论文图谱。我通过“人肉扫描”了200多篇图计算系统的论文，整理了心中理想的“图计算论文图谱”原型，大家可以“类比想象”一下当下关注技术... ...阅读全文

解锁Nginx日志的宝藏：GoAccess——你的实时、交互式Web日志分析神器！

在当今数字化的时代，网站的流量和用户行为数据就像是一座蕴藏着无尽秘密的宝藏。而如何有效地挖掘和分析这些数据，成为了许多网站管理者和开发者头疼的问题。GoAccess，一款开源的实时Web日志分析工具，或许能为我们提供一扇窥探这些秘密的窗口。 ...阅读全文

架构演化思考总结（1）

架构是什么？答：架构是对依赖的统一管理。什么是依赖？分为几种？我们为什么要对它进行管理。依赖就是持有对象，或者说是持有一个非空的引用。单向依赖正如项目开发中，对象和对象之间都会有相互持有、相互调用的需求的。而对象间的持有就是一种依赖。A想要完成一个逻辑处理，需要调用B的一个方法来实现，那么 ...阅读全文

[Unity]通用倒计时接口

1.介绍游戏开发时还是蛮经常会遇到与时间有关的功能，最近整理了下把游戏在线的倒计时抽出了一个接口。在线游戏的倒计时通用需求一般有： 1).倒计时的时间，比如树的重生长时间为3分钟，角色死亡复活倒计时需要30秒.. 2).可以暂停的功能，比如单机游戏点开设置，那么树的重生长倒计时应该停止；也可以不 ...阅读全文

使用示波器测试正弦信号步骤介绍

示波器测试正弦信号是电子工程中的一项基础且重要的工作，它能够帮助工程师了解信号的频率、幅度、相位等关键参数。使用示波器测试正弦信号的步骤可以归纳如下：一、准备阶段 1. 准备工具和设备： 1. 数字示波器（或模拟示波器，但数字示波器因其精确度和便捷性更常用）。 2. 信号发生器，用于输出正弦信号。 ...阅读全文