您好,登錄后才能下訂單哦!
1. 以下就是古詩文網(wǎng)站的爬蟲代碼,請看:
# encoding:utf-8 import requests import re import json def parse_page(url): # 1.請求網(wǎng)站 headers = { "User-Agent": "Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.62 Safari/537.36" } response = requests.get(url, headers=headers) text = response.text # 2.解析網(wǎng)站 titles = re.findall(r'<div\sclass="cont">.*?<b>(.*?)</b>', text, re.DOTALL) # print json.dumps(titles, encoding="utf-8", ensure_ascii=False) times = re.findall(r'<p\sclass="source">.*?<a\s.*?>(.*?)</a>', text, re.DOTALL) # print json.dumps(times, encoding="utf-8", ensure_ascii=False) authors = re.findall(r'<p class="source">.*?<a.*?<a.*?>(.*?)</a>', text, re.DOTALL) poems_ret = re.findall(r'<div class="contson" id=.*?>(.*?)</div>', text, re.DOTALL) poems = [] for poem in poems_ret: temp = re.sub("<.*?>", "", poem) poems.append(temp.strip()) # for index, value in enumerate(titles): # print titles[index] # print times[index] # print authors[index] # print poems[index] # print "*"*50 # zip函數(shù)自動實現(xiàn)上述組合 results = [] for value in zip(titles, times, authors, poems): title, time, author, poem = value result = { "標(biāo)題": title, "朝代": time, "作者": author, "原文": poem } print result["標(biāo)題"] results.append(result) # print results def main(): url_base = "https://www.xzslx.net/gushi/" for i in range(1, 11): url = url_base.format(i) print " "*20+"優(yōu)美古詩文"+" "*20 print "*"*50 parse_page(url) print "*"*50 if __name__ == '__main__': main()
2. 輸出來的結(jié)果是:
C:\DDD\python22\python.exe C:/PyCharm/dytt_spider/poems.py 古詩文 ************************************************** 關(guān)山月 明月出天山,蒼茫云海間。 長風(fēng)幾×××,吹度玉門關(guān)。 漢下白登道,胡窺青海灣。 [2] 由來征戰(zhàn)地,不見有人還。 戍客望邊邑,思?xì)w多苦顏。 高樓當(dāng)此夜,嘆息未應(yīng)閑。 ************************************************** 古詩文 ************************************************** 隴西行四首·其二 誓掃匈奴不顧身,五千貂錦喪胡塵。 可憐無定河邊骨,猶是春閨夢里人! ************************************************** 古詩文 ************************************************** 嫦娥(嫦娥應(yīng)悔偷靈藥) 云母屏風(fēng)燭影深, 長河漸落曉星沉。 嫦娥應(yīng)悔偷靈藥, 碧海青天夜夜心。 **************************************************
Process finished with exit code 0
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。