python 处理pdf加密文件

2024-01-11 11:15 由冻雨冷雾发表于 #后端开发

近期有同事需要提取加密的pdf文件，截取其中的信息，并且重构pdf文件。网上没有搜到相关的pdf操作，于是咨询了chatgpt，给出了pypdf2的使用案例。但是时间比较久远了，很多库内的调用接口都已经更新了。

于是自行到官方的库内学习相关接口使用。整理的处理代码如下：

# -*- coding: utf-8 -*-
"""
Created on Thu Jan 11 10:36:17 2024

@author: xm AZHE
"""

import PyPDF2
file=r'C:\Users\xm\Downloads\xxx1.pdf'
# 打开PDF文件
pdf_file = open(file, 'rb')

# 创建一个PDF阅读器对象
pdf_reader = PyPDF2.PdfReader(pdf_file)

# 创建一个新的PDF写入器对象
pdf_writer = PyPDF2.PdfWriter()

# 截取第0，第101到108页
page = pdf_reader.pages[0]
pdf_writer.add_page(page)
for i in range(101,109):
    page = pdf_reader.pages[i]
    pdf_writer.add_page(page)
    # 顺便导出下每页的图片
    count = 0
    for image_file_object in page.images:
        with open(str(count) + image_file_object.name, "wb") as fp:
            fp.write(image_file_object.data)
            count += 1
    # 打印下下每页的文字
    page.extract_text(0)
    
# 处理的文件加个密
pdf_writer.encrypt("123456")

# 创建一个新的PDF文件并将页面写入其中
out_file=file.replace('.pdf','_remake.pdf')
output_file = open(out_file, 'wb')
pdf_writer.write(output_file)

# 关闭文件
output_file.close()
pdf_file.close()

PS: 解密用

if reader.is_encrypted:
    reader.decrypt("123456")

40. 干货系列从零用Rust编写负载均衡及代理，websocket的实现

wenmeng库当前已支持HTTP1.1/HTTP2/WEBSOCKET，在浏览器的环境中websocket是必不可缺少的存在，当然有很多原生的服务中用的都是socket，下一章中，我们将实现websocket与tcp的互转，以便一些tcp的程序可以服务web的服务。 ...阅读全文

C/C++函数参数声明解析：int fun() 与 int fun(void) 的差异揭秘

概述：在C和C++中，int fun()和int fun(void)的区别在于函数参数的声明方式。前者默认允许任意参数，而后者明确表示没有参数。通过清晰的实例源代码，详细解释了它们在函数声明和调用中的不同之处。在C和C++中，int fun()和int fun(void)的区别在于函数的参数声明方 ...阅读全文

Python多线程编程全解析：基础到高级用法

Python中有多线程的支持。Python的threading模块提供了多线程编程的基本工具。在下面，我将列举一些基础的多线程用法和一些高级用法，并提供相应的源代码，其中包含中文注释。基础用法：创建和启动线程 import threading import time # 定义一个简单的线程类 c ...阅读全文

系统架构设计师-第1章计算机组成与体系结构

第1章计算机组成与体系结构 1. 计算机系统组成计算机系统是一个硬件和软件的综合体，可以把它看成按功能划分的多级层次结构。系统软件支持应用软件的运行，为用户开发应用软件提供平台，用户可以使用它，但不能随意修改它。常用的系统软件有操作系统、语言处理程序、连接程序、诊断程序和数据库管理系统等。 1. ...阅读全文

C 语言文件读取全指南：打开、读取、逐行输出

C 语言中的文件读取要从文件读取，可以使用 r 模式： FILE *fptr; // 以读取模式打开文件 fptr = fopen("filename.txt", "r"); 这将使 filename.txt 打开以进行读取。在 C 中读取文件需要一点工作。坚持住！我们将一步一步地指导您。接下 ...阅读全文

使用KubeSphere轻松部署Bookinfo应用

Bookinfo 应用这个示例部署了一个用于演示多种 Istio 特性的应用，该应用由四个单独的微服务构成。如安装了 Istio，说明已安装 Bookinfo。这个应用模仿在线书店的一个分类，显示一本书的信息。页面上会显示一本书的描述，书籍的细节（ISBN、页数等），及书评。 Bookinf ...阅读全文

系统架构设计师-第2章-操作系统

第2章-操作系统 2.1. 操作系统的类型与结构计算机系统由硬件和软件两部分组成。操作系统是计算机系统中最基本的系统软件，它既管理计算机系统的软、硬件资源，又控制程序的执行。操作系统随着计算机研究和应用的发展逐步形成并日趋成熟，它为用户使用计算机提供了一个良好的环境，从而使用户能充分利用计算 ...阅读全文

delphi JSON序列化（五）

关于TJSONConverters的使用 unit Unit1; interface uses Winapi.Windows, Winapi.Messages, System.SysUtils, System.Variants, System.Classes, Vcl.Graphics, Vcl.C ...阅读全文

delphi JSON序列化（四）

涉及的重要类 REST.Json，REST.JsonReflect，REST.Json.Interceptors, REST.Json.Types单元中。一、TJson类最简单的一个类，提供了JSON -> OBJECT和OBJECT -> JSON几个方法，方法有TJsonOptions参数， ...阅读全文

高并发扣款，如何保证结果一致性

转载至我的博客，公众号：架构成长指南在金融系统中，我们会跟钱打交道，而保证在高并发下场景下，对账户余额操作的一致性，是非常重要的，如果代码写的时候没考虑并发一致性，就会导致资损，本人在金融行业干了 8 年多，对这块稍微有点经验，所以这篇聊一下，如何在并发场景下，保证账户余额的一致性 1. 扣款流 ...阅读全文