Как разделить pdf-документ на страницы Python
Создано: 11 февраля 2025Автор: Егор Астапов79 просмотровСложность: легкий
Как разделить pdf-документ на отдельные страницы? Иногда нужно выдрать из pdf-документа отдельную страницу со схемой или таблицей. Вы можете сделать принтскрин, но есть способ лучше! Можно разделить документ на страницы при помощи библиотеки PyPDF2. Посмотрите на мой скрипт.
#!/usr/local/bin/python
import os
import PyPDF2
def split_pdf(filepath, output_dir):
if not os.path.isfile(filepath):
print("нет такого файла", filepath)
return
if not os.path.isdir(output_dir):
print("нет такой директории", output_dir)
return
# Открываем исходный PDF файл
with open(filepath, "rb") as pdf_file:
pdf_reader = PyPDF2.PdfReader(pdf_file)
# Получаем количество страниц
num_pages = len(pdf_reader.pages)
# Проходим по каждой странице и сохраняем её как отдельный PDF файл
for page_num in range(num_pages):
pdf_writer = PyPDF2.PdfWriter()
pdf_writer.add_page(pdf_reader.pages[page_num])
# Сохраняем страницу в новый файл
output_pdf = os.path.join(output_dir, "part", f"page{page_num + 1}.pdf")
with open(output_pdf, "wb") as output_file:
pdf_writer.write(output_file)
print(f"Сохранена страница {output_pdf}")
# Укажите путь к вашему PDF файлу
input_pdf_path = "app/parsing/resume.pdf"
output_dir = "app/parsing/"
split_pdf(input_pdf_path, output_dir)
В статье как собрать pdf-документ из кусков Python я соберу из одностраничных кусочков pdf-документ.