logo

Читання вибраного вмісту веб-сторінки за допомогою Python Web Scraping

Необхідна умова: Завантаження файлів на Python Веб-збирання за допомогою BeautifulSoup Ми всі знаємо, що Python є дуже легкою мовою програмування, але те, що робить його крутим, так це велика кількість бібліотек з відкритим кодом, написаних для нього. Запити є однією з найбільш широко використовуваних бібліотек. Це дозволяє нам відкривати будь-який веб-сайт HTTP/HTTPS і робити будь-які речі, які ми зазвичай робимо в Інтернеті, а також може зберігати сесії, наприклад файли cookie. Як ми всі знаємо, веб-сторінка – це лише фрагмент HTML-коду, який надсилається веб-сервером до нашого браузера, який, у свою чергу, перетворюється на красиву сторінку. Тепер нам потрібен механізм, щоб отримати вихідний код HTML, тобто знайти певні теги за допомогою пакета під назвою BeautifulSoup. Установка:
pip3 install requests 
pip3 install beautifulsoup4 

Ми беремо приклад, читаючи сайт новин Hindustan Times

Код можна розділити на три частини.
  • Запит веб-сторінки
  • Огляд тегів
  • Роздрукуйте відповідний вміст
Кроки:
    Запит веб-сторінки:Спочатку ми бачимо правою кнопкою миші на тексті новини, щоб побачити вихідний код Читання вибраного вмісту веб-сторінки за допомогою Python Web Scraping' title= Перевірка тегів:Нам потрібно визначити, у якому тілі вихідного коду міститься розділ новин, який ми хочемо видалити. Це невпорядкований список під uli.e 'searchNews', який містить розділ новин. Читання вибраного вмісту веб-сторінки за допомогою Python Web Scraping' title= Примітка. Текст новини присутній у текстовій частині тегу прив’язки. Уважне спостереження дає нам ідею, що всі новини знаходяться в тегах списку li невпорядкованого тегу. Читання вибраного вмісту веб-сторінки за допомогою Python Web Scraping' title= Надрукуйте відповідний вміст: The content is printed with the help of code given below. Python
    import requests from bs4 import BeautifulSoup def news(): # the target we want to open  url='http://www.hindustantimes.com/top-news' #open with GET method resp=requests.get(url) #http_respone 200 means OK status if resp.status_code==200: print('Successfully opened the web page') print('The news are as follow :-n') # we need a parserPython built-in HTML parser is enough . soup=BeautifulSoup(resp.text'html.parser') # l is the list which contains all the text i.e news  l=soup.find('ul'{'class':'searchNews'}) #now we want to print only the text part of the anchor. #find all the elements of a i.e anchor for i in l.findAll('a'): print(i.text) else: print('Error') news() 

    Вихід

    Successfully opened the web page The news are as follow :- Govt extends toll tax suspension use of old notes for utility bills extended till Nov 14 Modi Abe seal historic civil nuclear pact: What it means for India Rahul queues up at bank says it is to show solidarity with common man IS kills over 60 in Mosul victims dressed in orange and marked 'traitors' Rock On 2 review: Farhan Akhtar Arjun Rampal's band hasn't lost its magic Rumours of shortage in salt supply spark panic among consumers in UP Worrying truth: India ranks first in pneumonia diarrhoea deaths among kids To hell with romance here's why being single is the coolest way to be India vs England: Cheteshwar Pujara Murali Vijay make merry with tons in Rajkot Akshay-Bhumi SRK-Alia Ajay-Parineeti: Age difference doesn't matter anymore Currency ban: Only one-third have bank access; NE backward regions worst hit Nepal's central bank halts transactions with Rs 500 Rs 1000 Indian notes Political upheaval in Punjab after SC tells it to share Sutlej water Let's not kid ourselves with Trump what we have seen is what we will get Want to colour your hair? Try rose gold the hottest hair trend this winter 

Список літератури



Створіть вікторину