您好,登錄后才能下訂單哦!
這篇文章主要講解了“Python如何爬取首都醫(yī)科大學(xué)文章”,文中的講解內(nèi)容簡(jiǎn)單清晰,易于學(xué)習(xí)與理解,下面請(qǐng)大家跟著小編的思路慢慢深入,一起來(lái)研究和學(xué)習(xí)“Python如何爬取首都醫(yī)科大學(xué)文章”吧!
爬蟲項(xiàng)目實(shí)踐
目標(biāo):首都醫(yī)科大學(xué)官網(wǎng)新發(fā)文章
請(qǐng)求網(wǎng)址
通過(guò)正則表達(dá)式提取數(shù)據(jù)
分析數(shù)據(jù)
# 導(dǎo)入模塊 # 用于請(qǐng)求網(wǎng)址 import requests # 用于解析網(wǎng)頁(yè)源代碼 from bs4 import BeautifulSoup # 用于正則 import re # 目標(biāo)網(wǎng)址 # 設(shè)置頁(yè)數(shù),提取10頁(yè)的數(shù)據(jù) page=[''] for i in range(1,10,1): page.append(i) # 保存文件 with open(r'ccmu.csv','a',encoding='utf-8') as f: for i in page: url= 'http://www.ccmu.edu.cn/zxkylw_12912/index'+str(i)+'.htm' # 必要時(shí)添加header請(qǐng)求頭,防止反爬攔截 headers={ 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:79.0) Gecko/20100101 Firefox/79.0' } # 目標(biāo)網(wǎng)址請(qǐng)求方式為get resp=requests.get(url) html = resp.content.decode('utf-8') # 解析html soup = BeautifulSoup(html,'html.parser') # 找到最近發(fā)表的sci論文 # 使用find和find_all 函數(shù) infos=soup.find('ul',{'class':'list03'}).find_all('li') for info in infos: time=info.find('span').get_text() ajt= info.find('a').get_text() # 寫入文件 f.write("{},{}\n".format(time,ajt))
感謝各位的閱讀,以上就是“Python如何爬取首都醫(yī)科大學(xué)文章”的內(nèi)容了,經(jīng)過(guò)本文的學(xué)習(xí)后,相信大家對(duì)Python如何爬取首都醫(yī)科大學(xué)文章這一問(wèn)題有了更深刻的體會(huì),具體使用情況還需要大家實(shí)踐驗(yàn)證。這里是億速云,小編將為大家推送更多相關(guān)知識(shí)點(diǎn)的文章,歡迎關(guān)注!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。