РОЗБІР XML У PYTHON

Ця стаття зосереджена на тому, як можна проаналізувати даний XML-файл і витягти з нього деякі корисні дані структурованим способом. XML: XML розшифровується як розширювана мова розмітки. Він був розроблений для зберігання та транспортування даних. Він розроблений таким чином, щоб його можна було читати як людиною, так і машиною. Ось чому цілі розробки XML наголошують на простоті, загальності та зручності використання в Інтернеті. Файл XML, який буде аналізуватися в цьому підручнику, насправді є каналом RSS. RSS: RSS (Rich Site Summary, який часто називають Really Simple Syndication) використовує групу стандартних форматів веб-каналів для публікації часто оновлюваної інформації, як-от записів у блогах, заголовків новин, аудіо-відео. RSS — це простий текст у форматі XML.

Сам формат RSS порівняно легко читається як автоматизованими процесами, так і людьми.
RSS, оброблений у цьому підручнику, є RSS-каналом найпопулярніших новин із популярного сайту новин. Ви можете перевірити це тут . Наша мета — обробити цей канал RSS (або файл XML) і зберегти його в іншому форматі для подальшого використання.

Використаний модуль Python: Ця стаття буде присвячена використанню вбудованих xml модуль на python для аналізу XML, і основна увага буде зосереджена на API XML ElementTree цього модуля. Реалізація: Python

#Python code to illustrate parsing of XML files # importing the required modules import csv import requests import xml.etree.ElementTree as ET def loadRSS(): # url of rss feed url = 'http://www.hindustantimes.com/rss/topnews/rssfeed.xml' # creating HTTP response object from given url resp = requests.get(url) # saving the xml file with open('topnewsfeed.xml' 'wb') as f: f.write(resp.content) def parseXML(xmlfile): # create element tree object tree = ET.parse(xmlfile) # get root element root = tree.getroot() # create empty list for news items newsitems = [] # iterate news items for item in root.findall('./channel/item'): # empty news dictionary news = {} # iterate child elements of item for child in item: # special checking for namespace object content:media if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url'] else: news[child.tag] = child.text.encode('utf8') # append news dictionary to news items list newsitems.append(news) # return news items list return newsitems def savetoCSV(newsitems filename): # specifying the fields for csv file fields = ['guid' 'title' 'pubDate' 'description' 'link' 'media'] # writing to csv file with open(filename 'w') as csvfile: # creating a csv dict writer object writer = csv.DictWriter(csvfile fieldnames = fields) # writing headers (field names) writer.writeheader() # writing data rows writer.writerows(newsitems) def main(): # load rss from web to update existing xml file loadRSS() # parse xml file newsitems = parseXML('topnewsfeed.xml') # store news items in a csv file savetoCSV(newsitems 'topnews.csv') if __name__ == '__main__': # calling main function main()

Above code will:

Завантажте RSS-канал із зазначеної URL-адреси та збережіть його як файл XML.
Проаналізуйте XML-файл, щоб зберегти новини як список словників, де кожен словник є окремою новиною.
Збережіть новини у файл CSV.

Спробуємо розібрати код по частинах:

def loadRSS(): # url of rss feed url = 'http://www.hindustantimes.com/rss/topnews/rssfeed.xml' # creating HTTP response object from given url resp = requests.get(url) # saving the xml file with open('topnewsfeed.xml' 'wb') as f: f.write(resp.content)

topnewsfeed.xml

parseXML()

xml.etree.ElementTree

ElementTree

елемент

ElementTree

елемент

parseXML()

tree = ET.parse(xmlfile)

ElementTree

xmlфайл.

root = tree.getroot()

getrooted()

дерево

елемент

for item in root.findall('./channel/item'):

пункт

./channel/item

XPath

пункт

канал

корінь

тут

for item in root.findall('./channel/item'): # empty news dictionary news = {} # iterate child elements of item for child in item: # special checking for namespace object content:media if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url'] else: news[child.tag] = child.text.encode('utf8') # append news dictionary to news items list newsitems.append(news)

пункт

новини

for child in item:

if child.tag == '{https://video.search.yahoo.com/mrss': news['media'] = child.attrib['url']

child.attrib

url

медіа:контент

news[child.tag] = child.text.encode('utf8')

child.tag

дитина.текст

{'description': 'Ignis has a tough competition already from Hyun....  'guid': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'link': 'http://www.hindustantimes.com/autos/maruti-ignis-launch....  'media': 'http://www.hindustantimes.com/rf/image_size_630x354/HT/...  'pubDate': 'Thu 12 Jan 2017 12:33:04 GMT ' 'title': 'Maruti Ignis launches on Jan 13: Five cars that threa..... }

новини

savetoCSV()

Отже, ось як виглядають наші відформатовані дані:

Як бачите, дані ієрархічного файлу XML було перетворено на простий файл CSV, щоб усі новини зберігалися у формі таблиці. Це також полегшує розширення бази даних. Також можна використовувати JSON-подібні дані безпосередньо у своїх програмах! Це найкраща альтернатива для отримання даних із веб-сайтів, які не надають загальнодоступний API, але надають деякі канали RSS. Можна знайти весь код і файли, використані в статті вище тут . Що далі?

Ви можете переглянути інші RSS-канали веб-сайту новин, використаного у прикладі вище. Ви можете спробувати створити розширену версію наведеного вище прикладу, проаналізувавши також інші канали RSS.
Ви фанат крикету? Потім це rss-стрічка повинна бути вам цікава! Ви можете проаналізувати цей XML-файл, щоб отримати інформацію про живі матчі з крикету та використати його для створення програми сповіщень на робочому столі!

Тест з HTML і XML Створіть вікторину

TechCodeview