ВИТЯГНІТЬ ТЕКСТ ІЗ ФАЙЛУ PDF ЗА ДОПОМОГОЮ PYTHON

Усі ви повинні знати, що таке PDF-файли. Фактично, вони є одними з найважливіших і широко використовуваних цифрових засобів масової інформації. PDF означає Портативний формат документа . Це використовує .pdf розширення. Він використовується для надійного представлення та обміну документами незалежно від програмного забезпечення, апаратного забезпечення чи операційної системи.

Ми витягнемо текст із pdf-файлів за допомогою двох бібліотек Python, pypdf і PyMuPDF , у цій статті.

Вилучення тексту з PDF-файлу за допомогою бібліотеки pypdf.

Пакет Python pypdf може бути використаний для досягнення того, чого ми хочемо (вилучення тексту), хоча він може зробити більше, ніж те, що нам потрібно. Цей пакет також можна використовувати для створення, дешифрування та об’єднання файлів PDF. Примітка: Для отримання додаткової інформації див Робота з файлами PDF на Python

монтаж

Щоб установити цей пакет, введіть наведену нижче команду в терміналі.

pip install pypdf>

приклад: Вхід PDF: екстракт-pdf-текст-python

Python3

java, як перевизначити

# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)>

Вихід:

екстракт-pdf-python

Давайте спробуємо зрозуміти наведений вище код частинами:

reader = PdfReader('example.pdf')>

Ми створили об'єкт PdfReader класу від ст pypdf модуль.
The PdfReader клас приймає необхідний позиційний аргумент шляху до pdf-файлу.

print(len(reader.pages))>

сторінки власність дає Список PageObjects . Отже, тут ми можемо використовувати вбудований тільки() функція python для отримання кількості сторінок у файлі pdf.

page = reader.pages[0]>

Тепер, як читач.сторінок це список PageObjects , ми можемо отримати конкретний Сторінка pdf, торкнувшись індексу сторінки. У списку python індексація починається з 0, отже reader.pages[0] дає нам першу сторінку pdf-файлу.

text = page.extract_text() print(text)>

Об'єкт сторінки має функцію extract_text() щоб отримати текст зі сторінки pdf.

Вилучення тексту з PDF-файлу за допомогою бібліотеки PyMuPDF.

PyMuPDF це бібліотека Python, яка підтримує такі формати файлів, як XPS, PDF, CBR і CBZ. Але зараз у цій статті ми зосередимося на файлах PDF (Portable Document Format).

монтаж

pip install pymupdf pip install fitz>

Щоб отримати текст із pdf-файлу, нам потрібно виконати наступні кроки:

Імпорт бібліотеки
Відкриття документа
Вилучення тексту

Примітка: Тут ми використовуємо sample.pdf; щоб отримати pdf, скористайтеся посиланням нижче.

sample.pdf – Посилання

1. Імпорт бібліотеки

Python3

"що таке 10 із 100"

import> fitz>

2. Початковий документ

Python3

як вийти з циклу while java

doc>=> fitz.>open>(>'sample.pdf'>)>

Тут ми створили об’єкт під назвою док , а ім’я файлу має бути рядком Python.

3. Вилучення тексту

Python3

for> page>in> doc:> >text>=> page.get_text()> >print>(text)>

скільки років Кайлі Дженнер

Тут ми повторили сторінки в pdf та використали get_text() метод вилучення кожної сторінки з файлу.

Весь код для вилучення тексту

Python3

import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)>

карти java

Вихід:

Висновок

Ми бачили дві бібліотеки Python, pypdf і PyMuPDF , який може витягувати текст із файлу PDF. Прокоментуйте свою улюблену бібліотеку з двох вищезгаданих бібліотек.

TechCodeview

Вилучення тексту з PDF-файлу за допомогою бібліотеки pypdf.

монтаж

Python3

Вилучення тексту з PDF-файлу за допомогою бібліотеки PyMuPDF.

монтаж

Python3

Python3

Python3

Python3

Висновок