您好,登錄后才能下訂單哦!
本篇文章為大家展示了利用python爬蟲怎么爬取同一個(gè)網(wǎng)站的多頁數(shù)據(jù),內(nèi)容簡(jiǎn)明扼要并且容易理解,絕對(duì)能使你眼前一亮,通過這篇文章的詳細(xì)介紹希望你能有所收獲。
從網(wǎng)上獲取對(duì)你有需要的數(shù)據(jù)
1、獲取url(網(wǎng)址)。
2、發(fā)出請(qǐng)求,獲得響應(yīng)。
3、提取數(shù)據(jù)。
4、保存數(shù)據(jù)。
可以快速批量的獲取想要的數(shù)據(jù),不用手動(dòng)的一個(gè)個(gè)下載(圖片、文字音視頻等)
1、需要定位至該標(biāo)簽并獲得總頁數(shù)
def get_page_size(soup): pcxt=soup.find('div',{'class':'babynames-term-articles'}).find('nav') pcxt1=pcxt.find('div',{'class':'nav-links'}).findAll('a') for i in pcxt1[:-1]: link=i.get('href') s=str(i) page=re.sub('<a href="','',s) page1=re.sub(link,'',page) page2=re.sub('">','',page1) page3=re.sub('</a>','',page2) pagesize=int(page3) print(pagesize) return pagesize Pass
2、更改url來訪問網(wǎng)址,也就是進(jìn)行主函數(shù)的編寫
if __name__ == '__main__': url="http://www.sheknows.com/baby-names/browse/a/" soup=get_requests(url) page=get_page_size(soup) for i in range(1,page+1): url1=url+"page/"+str(i)+"/" soup1=get_requests(url1) draw_base_list(soup1)
實(shí)例擴(kuò)展:
import requests from lxml import etree import re url="https://movie.douban.com/top250" header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"} allMovieList=[] flag = True while flag: html = requests.get(url, headers=header).text list = etree.HTML(html) lis = list.xpath('//ol[@class="grid_view"]/li') for oneSelector in lis: name = oneSelector.xpath("div/div[2]/div[1]/a/span[1]/text()")[0] score = oneSelector.xpath("div/div[2]/div[2]/div/span[2]/text()")[0] people = oneSelector.xpath("div/div[2]/div[2]/div/span[4]/text()")[0] people = re.findall("(.*?)人評(píng)價(jià)",people)[0] oneMovieList = [name,score,people] allMovieList.append(oneMovieList) #獲取下一頁地址 try: next_url = list.xpath('//span[@class="next"]/a/@href')[0] if next_url: url = "https://movie.douban.com/top250"+ next_url except: flag = False print(allMovieList)
上述內(nèi)容就是利用python爬蟲怎么爬取同一個(gè)網(wǎng)站的多頁數(shù)據(jù),你們學(xué)到知識(shí)或技能了嗎?如果還想學(xué)到更多技能或者豐富自己的知識(shí)儲(chǔ)備,歡迎關(guān)注億速云行業(yè)資訊頻道。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。