您好,登錄后才能下訂單哦!
這篇文章主要介紹Python爬蟲如何爬取網(wǎng)頁中所有的url,文中介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們一定要看完!
Python是一種編程語言,內(nèi)置了許多有效的工具,Python幾乎無所不能,該語言通俗易懂、容易入門、功能強(qiáng)大,在許多領(lǐng)域中都有廣泛的應(yīng)用,例如最熱門的大數(shù)據(jù)分析,人工智能,Web開發(fā)等。
在使用python爬蟲進(jìn)行網(wǎng)絡(luò)頁面爬取的過程中,第一步肯定是要爬取url,若是面對網(wǎng)頁中很多url,,又該如何爬取所以url呢?本文介紹Python爬蟲爬取網(wǎng)頁中所有的url的三種實現(xiàn)方法:1、使用BeautifulSoup快速提取所有url;2、使用Scrapy框架遞歸調(diào)用parse;3、在get_next_url()函數(shù)中調(diào)用自身,遞歸循環(huán)爬取所有url。
方法一:使用BeautifulSoup快速提取所有url
BeautifulSoup是一種可以從html和xml中快速提取內(nèi)容的python庫
def getAllUrl(self,url): import urllib.request from bs4 import BeautifulSoup html = urllib.request.urlopen(url).read().decode("utf-8") soup = BeautifulSoup(html, features='html.parser') tags = soup.find_all('a') for tag in tags: print(str(tag.get('href')).strip())
方法二:使用Scrapy框架遞歸調(diào)用parse
遞歸調(diào)用parse直到每個頁面爬取完
class QiubaiSpider(scrapy.Spider): name = 'qiubai' # allowed_domains = ['www.qiushibaike.com/text'] start_urls = ['https://www.qiushibaike.com/text/'] # 設(shè)計一個url模板 url = 'https://www.qiushibaike.com/text/page/%d/' pageNum = 1 def parse(self, response): div_list = response.xpath("//div[@id='content-left']/div") for div in div_list: .... # 將item提交給管道 yield item # 多url, 請求的手動發(fā)送 if self.pageNum <= 13: # 控制!否則無限遞歸了。。 self.pageNum += 1 print('爬第:%d 頁' % self.pageNum) new_url = self.url % self.pageNum # callback 回調(diào)函數(shù),頁面進(jìn)行解析 yield scrapy.Request(url=new_url, callback=self.parse)
方法三:在get_next_url()函數(shù)中調(diào)用自身,遞歸循環(huán)爬取所有url
#!/usr/bin/env python # -*- coding:utf-8 -*- import requests from bs4 import BeautifulSoup as Bs4 head_url = "http://www.xxx.com.cn" headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.121 Safari/537.36" } def get_first_url(): list_href = [] reaponse = requests.get(head_url, headers=headers) soup = Bs4(reaponse.text, "lxml") urls_li = soup.select("#mainmenu_top > div > div > ul > li") for url_li in urls_li: urls = url_li.select("a") for url in urls: url_href = url.get("href") list_href.append(head_url+url_href) out_url = list(set(list_href)) return out_url def get_next_url(urllist): url_list = [] for url in urllist: response = requests.get(url,headers=headers) soup = Bs4(response.text,"lxml") urls = soup.find_all("a") if urls: for url2 in urls: url2_1 = url2.get("href") if url2_1: if url2_1[0] == "/": url2_1 = head_url + url2_1 url_list.append(url2_1) if url2_1[0:24] == "http://www.xxx.com.cn": url2_1 = url2_1 url_list.append(url2_1) else: pass else: pass else: pass else: pass url_list2 = set(url_list) for url_ in url_list2: res = requests.get(url_) if res.status_code ==200: print(url_) print(len(url_list2)) get_next_url(url_list2) if __name__ == "__main__": urllist = get_first_url() get_next_url(urllist)
以上是“Python爬蟲如何爬取網(wǎng)頁中所有的url”這篇文章的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對大家有幫助,更多相關(guān)知識,歡迎關(guān)注億速云行業(yè)資訊頻道!
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。