<small id="x1pjy"><rp id="x1pjy"></rp></small>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊(cè)×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

用戶(hù)登錄×

賬戶(hù)密碼登錄

請(qǐng)使用微信掃描上方二維碼

使用幫助

請(qǐng)求超時(shí)！

請(qǐng)點(diǎn)擊重新獲取二維碼

如何實(shí)現(xiàn)Python進(jìn)階多線(xiàn)程爬取網(wǎng)頁(yè)項(xiàng)目

發(fā)布時(shí)間：2021-10-21 17:14:06 來(lái)源：億速云閱讀：175 作者：iii 欄目：開(kāi)發(fā)技術(shù)

這篇文章主要介紹“如何實(shí)現(xiàn)Python進(jìn)階多線(xiàn)程爬取網(wǎng)頁(yè)項(xiàng)目”，在日常操作中，相信很多人在如何實(shí)現(xiàn)Python進(jìn)階多線(xiàn)程爬取網(wǎng)頁(yè)項(xiàng)目問(wèn)題上存在疑惑，小編查閱了各式資料，整理出簡(jiǎn)單好用的操作方法，希望對(duì)大家解答”如何實(shí)現(xiàn)Python進(jìn)階多線(xiàn)程爬取網(wǎng)頁(yè)項(xiàng)目”的疑惑有所幫助！接下來(lái)，請(qǐng)跟著小編一起來(lái)學(xué)習(xí)吧！

目錄

一、網(wǎng)頁(yè)分析
二、代碼實(shí)現(xiàn)

一、網(wǎng)頁(yè)分析

這次我們選擇爬取的網(wǎng)站是水木社區(qū)的Python頁(yè)面
網(wǎng)頁(yè)：https://www.mysmth.net/nForum/#!board/Python?p=1

如何實(shí)現(xiàn)Python進(jìn)階多線(xiàn)程爬取網(wǎng)頁(yè)項(xiàng)目

根據(jù)慣例，我們第一步還是分析一下頁(yè)面結(jié)構(gòu)和翻頁(yè)時(shí)的請(qǐng)求。

如何實(shí)現(xiàn)Python進(jìn)階多線(xiàn)程爬取網(wǎng)頁(yè)項(xiàng)目

如何實(shí)現(xiàn)Python進(jìn)階多線(xiàn)程爬取網(wǎng)頁(yè)項(xiàng)目

如何實(shí)現(xiàn)Python進(jìn)階多線(xiàn)程爬取網(wǎng)頁(yè)項(xiàng)目

通過(guò)前三頁(yè)的鏈接分析后得知，每一頁(yè)鏈接中最后的參數(shù)是頁(yè)數(shù)，我們修改它即可得到其他頁(yè)面的數(shù)據(jù)。

再來(lái)分析一下，我們需要獲取帖子的鏈接就在id 為 body 的 section下，然后一層一層找到里面的 table，我們就能遍歷這些鏈接的標(biāo)題。

如何實(shí)現(xiàn)Python進(jìn)階多線(xiàn)程爬取網(wǎng)頁(yè)項(xiàng)目

我們點(diǎn)開(kāi)一篇帖子：https://www.mysmth.net/nForum/#!article/Python/162717

和前面一樣，我們先分析標(biāo)題和內(nèi)容在網(wǎng)頁(yè)中的結(jié)構(gòu)

不難發(fā)現(xiàn)，主題部分只要找到id 為 main 的 section 下面的 class 為 b-head corner 的下面第二個(gè) span即可
主題部分

如何實(shí)現(xiàn)Python進(jìn)階多線(xiàn)程爬取網(wǎng)頁(yè)項(xiàng)目

而內(nèi)容部分只要找到class 為 a-wrap corner 的 div，找到下面的 a-content即可。
內(nèi)容部分

如何實(shí)現(xiàn)Python進(jìn)階多線(xiàn)程爬取網(wǎng)頁(yè)項(xiàng)目

分析網(wǎng)頁(yè)結(jié)構(gòu)后，我們就可以開(kāi)始寫(xiě)代碼了！

二、代碼實(shí)現(xiàn)

首先要確定要保存什么內(nèi)容：這次我們保存水木社區(qū) Python 版面前 10 頁(yè)的所有帖子標(biāo)題和帖子第一頁(yè)的所有回復(fù)。

解析列表頁(yè)，得到所有的帖子鏈接

from bs4 import BeautifulSoup
# 解析列表頁(yè)內(nèi)容，得到這一頁(yè)的內(nèi)容鏈接
def parse_list_page(text):
  soup = BeautifulSoup(text, 'html.parser')
	# 下面相當(dāng)于 soup.find('table', class_='board-list tiz').find('tbody')
  tbody = soup.find('table', class_='board-list tiz').tbody
  urls = []
  for tr in tbody:
    td = tr.find('td', class_='title_9')
    urls.append(td.a.attrs['href'])
  return urls

解析內(nèi)容頁(yè)，得到標(biāo)題和這一頁(yè)的所有帖子內(nèi)容

# 解析內(nèi)容頁(yè)，得到標(biāo)題和所有帖子內(nèi)容
def parse_content_page(text):
  soup = BeautifulSoup(text, 'html.parser')
  title = soup.find('span', class_='n-left').text.strip('文章主題:').strip()
  content_div = soup.find('div', class_='b-content corner')
  contents = []
  for awrap in content_div.find_all('div', class_='a-wrap corner'):
    content = awrap.p.text
    contents.append(content)
  return title, contents

把列表頁(yè)的鏈接轉(zhuǎn)換成我們要抓取的鏈接

def convert_content_url(path):
  URL_PREFIX = 'http://www.mysmth.net'
  path += '?ajax'
  return URL_PREFIX + path

生成前 10 頁(yè)的列表頁(yè)鏈接

list_urls = []
for i in range(1, 11):
  url = 'http://www.mysmth.net/nForum/board/Python?ajax&p='
  url += str(i)
  list_urls.append(url)

下面是得到前 10 頁(yè)列表頁(yè)里所有正文的鏈接。這個(gè)時(shí)候我們使用線(xiàn)程池的方式來(lái)運(yùn)行

import requests
from concurrent import futures
session = requests.Session()
executor = futures.ThreadPoolExecutor(max_workers=5)
# 這個(gè)函數(shù)獲取列表頁(yè)數(shù)據(jù)，解析出鏈接，并轉(zhuǎn)換成真實(shí)鏈接
def get_content_urls(list_url):
  res = session.get(list_url)
  content_urls = parse_list_page(res.text)
  real_content_urls = []
  for url in content_urls:
    url = convert_content_url(url)
    real_content_urls.append(url)
  return real_content_urls
# 根據(jù)剛剛生成的十個(gè)列表頁(yè)鏈接，開(kāi)始提交任務(wù)
fs = []
for list_url in list_urls:
  fs.append(executor.submit(get_content_urls, list_url))
futures.wait(fs)
content_urls = set()
for f in fs:
  for url in f.result():
    content_urls.add(url)

在這里要注意一下，第 23 行中我們使用了 set() 函數(shù)，作用是去除重復(fù)值。它的原理是創(chuàng)建一個(gè) Set（集合），集合是 Python 中的一種特殊數(shù)據(jù)類(lèi)型，其中可以包含多個(gè)元素，但是不能重復(fù)。我們來(lái)看看 set() 的用法

numbers = [1, 1, 2, 2, 2, 3, 4]
unique = set(numbers)
print(type(unique))
# 輸出：<class 'set'>
print(unique)
# 輸出：{1, 2, 3, 4}

我們看到，set() 將列表 numbers 轉(zhuǎn)換成了沒(méi)有重復(fù)元素的集合 {1, 2, 3, 4}。

我們利用這個(gè)特性，首先在 23 行通過(guò) content_urls = set() 創(chuàng)建了一個(gè)空集合，之后在其中添加鏈接時(shí)，就會(huì)自動(dòng)去除多次出現(xiàn)的鏈接。

得到了所有正文鏈接之后，我們解析正文頁(yè)內(nèi)容，放到一個(gè)字典里

# 獲取正文頁(yè)內(nèi)容，解析出標(biāo)題和帖子
def get_content(url):
  r = session.get(url)
  title, contents = parse_content_page(r.text)
  return title, contents
# 提交解析正文的任務(wù)
fs = []
for url in content_urls:
  fs.append(executor.submit(get_content, url))
futures.wait(fs)
results = {}
for f in fs:
  title, contents = f.result()
  results[title] = contents
print(results.keys())

就這樣，我們完成了多線(xiàn)程的水木社區(qū)爬蟲(chóng)。打印 results.keys() 可以看到所有帖子的標(biāo)題。

這次爬取了前十頁(yè)的所有主題，以及他們的第一頁(yè)回復(fù)。一共 10 個(gè)列表頁(yè)、300 個(gè)主題頁(yè)，解析出 1533 條回復(fù)。在一臺(tái)網(wǎng)絡(luò)良好、性能普通的機(jī)器上測(cè)試執(zhí)行只花費(fèi)了 13 秒左右。

完整代碼如下

import requests
from concurrent import futures
from bs4 import BeautifulSoup
# 解析列表頁(yè)內(nèi)容，得到這一頁(yè)的內(nèi)容鏈接
def parse_list_page(text):
  soup = BeautifulSoup(text, 'html.parser')
  tbody = soup.find('table', class_='board-list tiz').tbody
  urls = []
  for tr in tbody:
    td = tr.find('td', class_='title_9')
    urls.append(td.a.attrs['href'])
  return urls
# 解析內(nèi)容頁(yè)，得到標(biāo)題和所有帖子內(nèi)容
def parse_content_page(text):
  soup = BeautifulSoup(text, 'html.parser')
  title = soup.find('span', class_='n-left').text.strip('文章主題:').strip()
  content_div = soup.find('div', class_='b-content corner')
  contents = []
  for awrap in content_div.find_all('div', class_='a-wrap corner'):
    content = awrap.p.text
    contents.append(content)
  return title, contents
# 把列表頁(yè)得到的鏈接轉(zhuǎn)換成我們要抓取的鏈接
def convert_content_url(path):
  URL_PREFIX = 'http://www.mysmth.net'
  path += '?ajax'
  return URL_PREFIX + path
# 生成前十頁(yè)的鏈接
list_urls = []
for i in range(1, 11):
  url = 'http://www.mysmth.net/nForum/board/Python?ajax&p='
  url += str(i)
  list_urls.append(url)
session = requests.Session()
executor = futures.ThreadPoolExecutor(max_workers=5)
# 這個(gè)函數(shù)獲取列表頁(yè)數(shù)據(jù)，解析出鏈接，并轉(zhuǎn)換成真實(shí)鏈接
def get_content_urls(list_url):
  res = session.get(list_url)
  content_urls = parse_list_page(res.text)
  real_content_urls = []
  for url in content_urls:
    url = convert_content_url(url)
    real_content_urls.append(url)
  return real_content_urls
# 根據(jù)剛剛生成的十個(gè)列表頁(yè)鏈接，開(kāi)始提交任務(wù)
fs = []
for list_url in list_urls:
  fs.append(executor.submit(get_content_urls, list_url))
futures.wait(fs)
content_urls = set()
for f in fs:
  for url in f.result():
    content_urls.add(url)
# 獲取正文頁(yè)內(nèi)容，解析出標(biāo)題和帖子
def get_content(url):
  r = session.get(url)
  title, contents = parse_content_page(r.text)
  return title, contents
# 提交解析正文的任務(wù)
fs = []
for url in content_urls:
  fs.append(executor.submit(get_content, url))
futures.wait(fs)
results = {}
for f in fs:
  title, contents = f.result()
  results[title] = contents
print(results.keys())

到此，關(guān)于“如何實(shí)現(xiàn)Python進(jìn)階多線(xiàn)程爬取網(wǎng)頁(yè)項(xiàng)目”的學(xué)習(xí)就結(jié)束了，希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí)，快去試試吧！若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí)，請(qǐng)繼續(xù)關(guān)注億速云網(wǎng)站，小編會(huì)繼續(xù)努力為大家?guī)?lái)更多實(shí)用的文章！

向AI問(wèn)一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀(guān)點(diǎn)不代表本網(wǎng)站立場(chǎng)，如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
什么是C++識(shí)類(lèi)和對(duì)象
下一篇新聞：
怎么進(jìn)行Linux文件管理

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專(zhuān)題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢(xún)

7*24小時(shí)在線(xiàn)電話(huà)：400-100-2938

7*24小時(shí)在線(xiàn) QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼

<strike id="ilkt2"></strike>