PyPDF2 库中 PDF 文档处理的九个基本操作指南

开发
本文将详细介绍使用PyPDF2进行PDF处理的九个基本操作,并通过实际代码示例帮助你快速上手。

PyPDF2是一个非常实用的Python库,用于读取、分割、合并、裁剪以及执行其他PDF文档操作。它非常适合自动化处理PDF文件的任务。本文将详细介绍使用PyPDF2进行PDF处理的九个基本操作,并通过实际代码示例帮助你快速上手。

安装PyPDF2

首先,你需要安装PyPDF2库。打开命令行工具,输入以下命令:

pip install pypdf2

安装完成后,你可以通过以下方式导入PyPDF2库:

from PyPDF2 import PdfReader, PdfWriter

读取PDF文件

读取PDF文件是任何PDF处理任务的第一步。这里有一个简单的示例:

# 导入必要的库
from PyPDF2 import PdfReader

# 创建PdfReader对象
reader = PdfReader("example.pdf")

# 获取PDF的页数
num_pages = len(reader.pages)
print(f"Number of pages: {num_pages}")

# 获取第一页的内容
first_page = reader.pages[0]
text = first_page.extract_text()
print(f"First page text:\n{text}")

这段代码首先创建了一个PdfReader对象来读取名为example.pdf的文件,然后获取了该PDF的总页数并打印出来。接着,它提取了第一页的内容并将其打印出来。

分割PDF文件

有时我们需要将一个大的PDF文件拆分成多个小文件。下面是一个如何实现这一目标的例子:

from PyPDF2 import PdfReader, PdfWriter

def split_pdf(input_pdf, output_prefix):
    # 创建PdfReader对象
    reader = PdfReader(input_pdf)

    # 遍历每一页
    for i in range(len(reader.pages)):
        writer = PdfWriter()

        # 添加当前页
        writer.add_page(reader.pages[i])

        # 写入新的PDF文件
        with open(f"{output_prefix}_{i + 1}.pdf", "wb") as f:
            writer.write(f)

split_pdf("large_document.pdf", "part")

这段代码定义了一个函数split_pdf,它接受两个参数:一个是输入的PDF文件名,另一个是输出文件的前缀。对于输入PDF中的每一页,它都会创建一个新的PDF文件并保存下来。

合并多个PDF文件

合并多个PDF文件也非常简单。下面是一个示例:

from PyPDF2 import PdfReader, PdfWriter

def merge_pdfs(inputs, output):
    writer = PdfWriter()

    for input_pdf in inputs:
        reader = PdfReader(input_pdf)
        for page in reader.pages:
            writer.add_page(page)

    with open(output, "wb") as f:
        writer.write(f)

merge_pdfs(["doc1.pdf", "doc2.pdf"], "merged.pdf")

这个函数接收一个包含多个PDF文件名的列表作为输入,并将它们合并成一个PDF文件。每添加一页时,它都会调用add_page方法将页面添加到最终的PDF文档中。

旋转PDF页面

如果你需要调整PDF文件中某些页面的方向,可以使用rotate_clockwise或rotate_counter_clockwise方法轻松实现:

from PyPDF2 import PdfReader, PdfWriter

def rotate_pages(input_pdf, output_pdf, angle):
    reader = PdfReader(input_pdf)
    writer = PdfWriter()

    for page in reader.pages:
        if angle == 90:
            page.rotate_clockwise(90)
        elif angle == -90:
            page.rotate_counter_clockwise(90)
        else:
            raise ValueError("Angle must be 90 or -90.")

        writer.add_page(page)

    with open(output_pdf, "wb") as f:
        writer.write(f)

rotate_pages("example.pdf", "rotated.pdf", 90)

此函数根据指定的角度(90度或-90度)旋转PDF中的所有页面,并将结果保存到新的PDF文件中。

加密PDF文件

加密PDF文件可以保护文件内容不被未经授权的人访问。下面是一个简单的加密示例:

from PyPDF2 import PdfReader, PdfWriter

def encrypt_pdf(input_pdf, output_pdf, password):
    reader = PdfReader(input_pdf)
    writer = PdfWriter()

    for page in reader.pages:
        writer.add_page(page)

    # 设置密码
    writer.encrypt(password)

    # 写入加密后的PDF文件
    with open(output_pdf, "wb") as f:
        writer.write(f)

encrypt_pdf("example.pdf", "encrypted.pdf", "secret")

这段代码定义了一个函数encrypt_pdf,它接受三个参数:输入的PDF文件名、输出的PDF文件名和密码。它遍历输入PDF中的每一页并将其添加到writer对象中,然后使用encrypt方法设置密码,并将加密后的PDF文件写入到新的文件中。

解密PDF文件

如果要读取已加密的PDF文件,需要先对其进行解密。下面是一个简单的解密示例:

from PyPDF2 import PdfReader, PdfWriter

def decrypt_pdf(input_pdf, output_pdf, password):
    reader = PdfReader(input_pdf)

    # 检查是否已加密
    if reader.is_encrypted:
        try:
            reader.decrypt(password)
        except Exception as e:
            print(f"Error: {e}")
            return

    writer = PdfWriter()

    for page in reader.pages:
        writer.add_page(page)

    # 写入解密后的PDF文件
    with open(output_pdf, "wb") as f:
        writer.write(f)

decrypt_pdf("encrypted.pdf", "decrypted.pdf", "secret")

这段代码定义了一个函数decrypt_pdf,它接受三个参数:输入的PDF文件名、输出的PDF文件名和密码。它首先检查输入PDF是否已加密,如果是,则尝试使用提供的密码进行解密。如果解密成功,它会将PDF文件中的每一页添加到writer对象中,并将解密后的PDF文件写入到新的文件中。

添加水印

在PDF文件中添加水印可以帮助标识文档的所有权或提醒读者注意版权问题。下面是一个简单的添加水印示例:

from PyPDF2 import PdfReader, PdfWriter

def add_watermark(input_pdf, watermark_pdf, output_pdf):
    reader = PdfReader(input_pdf)
    watermark_reader = PdfReader(watermark_pdf)
    writer = PdfWriter()

    # 获取水印页面
    watermark_page = watermark_reader.pages[0]

    for page in reader.pages:
        page.merge_page(watermark_page)
        writer.add_page(page)

    # 写入带有水印的PDF文件
    with open(output_pdf, "wb") as f:
        writer.write(f)

add_watermark("example.pdf", "watermark.pdf", "watermarked.pdf")

这段代码定义了一个函数add_watermark,它接受三个参数:输入的PDF文件名、水印PDF文件名和输出的PDF文件名。它首先创建一个watermark_page对象来表示水印页面,然后遍历输入PDF中的每一页,并使用merge_page方法将水印页面添加到每一页中。最后,将带有水印的PDF文件写入到新的文件中。

实战案例:批量处理PDF文件

假设你有一个文件夹中包含多个PDF文件,需要对这些文件进行批量处理,例如添加水印、加密或解密。下面是一个简单的批量处理示例:

import os
from PyPDF2 import PdfReader, PdfWriter

def batch_process_pdf(input_folder, watermark_pdf, output_folder, password=None):
    # 创建输出文件夹
    os.makedirs(output_folder, exist_ok=True)

    # 获取文件夹中的所有PDF文件
    pdf_files = [f for f in os.listdir(input_folder) if f.endswith(".pdf")]

    for pdf_file in pdf_files:
        input_pdf_path = os.path.join(input_folder, pdf_file)
        output_pdf_path = os.path.join(output_folder, pdf_file)

        # 创建PdfReader对象
        reader = PdfReader(input_pdf_path)
        writer = PdfWriter()

        # 添加水印
        if watermark_pdf is not None:
            watermark_reader = PdfReader(watermark_pdf)
            watermark_page = watermark_reader.pages[0]
            for page in reader.pages:
                page.merge_page(watermark_page)
                writer.add_page(page)

        # 加密或解密
        if password is not None:
            writer.encrypt(password)
        elif reader.is_encrypted:
            reader.decrypt(password)
            for page in reader.pages:
                writer.add_page(page)

        # 写入新的PDF文件
        with open(output_pdf_path, "wb") as f:
            writer.write(f)

batch_process_pdf("input_folder", "watermark.pdf", "output_folder", "secret")

这段代码定义了一个函数batch_process_pdf,它接受四个参数:输入文件夹路径、水印PDF文件名、输出文件夹路径和密码。它首先创建输出文件夹,并获取输入文件夹中的所有PDF文件。

然后,对于每个PDF文件,它执行以下操作:

  • 创建一个PdfReader对象来读取输入PDF文件。
  • 如果提供了水印PDF文件,则添加水印。
  • 如果提供了密码,则进行加密或解密。
  • 将处理后的PDF文件写入到输出文件夹中。

本文介绍了使用PyPDF2库进行PDF文件读取、分割、合并、旋转、加密、解密及添加水印的基本操作。通过实际代码示例展示了如何利用PyPDF2自动化处理PDF文件,从而提高工作效率。希望这些示例能够帮助你更好地理解和应用PyPDF2库。

责任编辑:赵宁宁 来源: 小白PythonAI编程
相关推荐

2024-06-12 08:36:32

PyPDF2Python库文件处理

2023-11-20 22:07:51

PythonPDF

2019-05-23 14:59:21

PythonPDF编程语言

2020-09-15 15:50:33

Python编程语言代码

2023-11-22 19:07:51

PyPDF2PDF文件

2024-09-24 10:16:13

PythonWord文档

2023-11-29 11:30:17

PDF语言模型

2022-02-06 10:43:43

PDF文件Python

2024-09-30 08:10:22

2024-10-10 15:51:50

2019-10-15 15:15:31

Python大数据函数

2022-01-03 16:08:36

深度学习PyTorchNumPy

2010-04-19 13:12:36

Oracle 9i数据

2009-12-31 16:38:19

Silverlight

2024-05-15 09:05:43

Python文档处理工具自动化文档生成

2009-07-06 00:36:19

DB2基本操作

2023-11-06 01:10:47

2022-09-28 08:40:04

杀死一个终端进程

2024-10-07 08:26:05

编程Python异常处理

2023-12-13 12:27:46

点赞
收藏

51CTO技术栈公众号