logo

Витягніть текст із файлу PDF за допомогою Python

Усі ви повинні знати, що таке PDF-файли. Фактично, вони є одними з найважливіших і широко використовуваних цифрових засобів масової інформації. PDF означає Портативний формат документа . Це використовує .pdf розширення. Він використовується для надійного представлення та обміну документами незалежно від програмного забезпечення, апаратного забезпечення чи операційної системи.

Ми витягнемо текст із pdf-файлів за допомогою двох бібліотек Python, pypdf і PyMuPDF , у цій статті.



Вилучення тексту з PDF-файлу за допомогою бібліотеки pypdf.

Пакет Python pypdf може бути використаний для досягнення того, чого ми хочемо (вилучення тексту), хоча він може зробити більше, ніж те, що нам потрібно. Цей пакет також можна використовувати для створення, дешифрування та об’єднання файлів PDF. Примітка: Для отримання додаткової інформації див Робота з файлами PDF на Python

монтаж

Щоб установити цей пакет, введіть наведену нижче команду в терміналі.

pip install pypdf>

приклад: Вхід PDF: екстракт-pdf-текст-python



Python3






java, як перевизначити

# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)>

>

>

Вихід:

екстракт-pdf-python

Давайте спробуємо зрозуміти наведений вище код частинами:

reader = PdfReader('example.pdf')>
  • Ми створили об'єкт PdfReader класу від ст pypdf модуль.
  • The PdfReader клас приймає необхідний позиційний аргумент шляху до pdf-файлу.
print(len(reader.pages))>
  • сторінки власність дає Список PageObjects . Отже, тут ми можемо використовувати вбудований тільки() функція python для отримання кількості сторінок у файлі pdf.
page = reader.pages[0]>
  • Тепер, як читач.сторінок це список PageObjects , ми можемо отримати конкретний Сторінка pdf, торкнувшись індексу сторінки. У списку python індексація починається з 0, отже reader.pages[0] дає нам першу сторінку pdf-файлу.
text = page.extract_text() print(text)>
  • Об'єкт сторінки має функцію extract_text() щоб отримати текст зі сторінки pdf.

Вилучення тексту з PDF-файлу за допомогою бібліотеки PyMuPDF.

PyMuPDF це бібліотека Python, яка підтримує такі формати файлів, як XPS, PDF, CBR і CBZ. Але зараз у цій статті ми зосередимося на файлах PDF (Portable Document Format).

монтаж

pip install pymupdf pip install fitz>

Щоб отримати текст із pdf-файлу, нам потрібно виконати наступні кроки:

  1. Імпорт бібліотеки
  2. Відкриття документа
  3. Вилучення тексту

Примітка: Тут ми використовуємо sample.pdf; щоб отримати pdf, скористайтеся посиланням нижче.

sample.pdf – Посилання

1. Імпорт бібліотеки

Python3

"що таке 10 із 100"




import> fitz>

>

>

2. Початковий документ

Python3


як вийти з циклу while java



doc>=> fitz.>open>(>'sample.pdf'>)>

>

>

Тут ми створили об’єкт під назвою док , а ім’я файлу має бути рядком Python.

3. Вилучення тексту

Python3




for> page>in> doc:> >text>=> page.get_text()> >print>(text)>

>

>

скільки років Кайлі Дженнер

Тут ми повторили сторінки в pdf та використали get_text() метод вилучення кожної сторінки з файлу.

Весь код для вилучення тексту

Python3




import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)>

>

карти java
>

Вихід:

Висновок

Ми бачили дві бібліотеки Python, pypdf і PyMuPDF , який може витягувати текст із файлу PDF. Прокоментуйте свою улюблену бібліотеку з двох вищезгаданих бібліотек.