training-web.ruГлавнаяКатегорииО насКарта сайтаПоискТёмная тема

Категории

Как разделить pdf-документ на страницы Python

Создано: 11 февраля 2025Автор: Егор Астапов79 просмотровСложность: легкий

Как разделить pdf-документ на отдельные страницы? Иногда нужно выдрать из pdf-документа отдельную страницу со схемой или таблицей. Вы можете сделать принтскрин, но есть способ лучше! Можно разделить документ на страницы при помощи библиотеки PyPDF2. Посмотрите на мой скрипт.

#!/usr/local/bin/python

import os
import PyPDF2


def split_pdf(filepath, output_dir):
if not os.path.isfile(filepath):
print("нет такого файла", filepath)
return

if not os.path.isdir(output_dir):
print("нет такой директории", output_dir)
return

# Открываем исходный PDF файл
with open(filepath, "rb") as pdf_file:
pdf_reader = PyPDF2.PdfReader(pdf_file)

# Получаем количество страниц
num_pages = len(pdf_reader.pages)

# Проходим по каждой странице и сохраняем её как отдельный PDF файл
for page_num in range(num_pages):
pdf_writer = PyPDF2.PdfWriter()
pdf_writer.add_page(pdf_reader.pages[page_num])

# Сохраняем страницу в новый файл
output_pdf = os.path.join(output_dir, "part", f"page{page_num + 1}.pdf")
with open(output_pdf, "wb") as output_file:
pdf_writer.write(output_file)

print(f"Сохранена страница {output_pdf}")

# Укажите путь к вашему PDF файлу
input_pdf_path = "app/parsing/resume.pdf"
output_dir = "app/parsing/"
split_pdf(input_pdf_path, output_dir)

В статье как собрать pdf-документ из кусков Python я соберу из одностраничных кусочков pdf-документ.

Комментарии

реклама