<pre id="pwsmx"></pre>

<table id="pwsmx"><rt id="pwsmx"></rt></table>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗(yàn)證碼

其他方式登錄

點(diǎn)擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時(shí)！

請點(diǎn)擊重新獲取二維碼

Python爬蟲分類知識(shí)點(diǎn)有哪些

發(fā)布時(shí)間：2022-02-28 15:32:27 來源：億速云閱讀：142 作者：iii 欄目：開發(fā)技術(shù)

這篇文章主要介紹了Python爬蟲分類知識(shí)點(diǎn)有哪些的相關(guān)知識(shí)，內(nèi)容詳細(xì)易懂，操作簡單快捷，具有一定借鑒價(jià)值，相信大家閱讀完這篇Python爬蟲分類知識(shí)點(diǎn)有哪些文章都會(huì)有所收獲，下面我們一起來看看吧。

一、通用爬蟲

通用網(wǎng)絡(luò)爬蟲是搜索引擎抓取系統(tǒng)(Baidu、Google、Sogou等)的一個(gè)重要組成部分。主要目的是將互聯(lián)網(wǎng)上的網(wǎng)頁下載到本地，形成一個(gè)互聯(lián)網(wǎng)內(nèi)容的鏡像備份。為搜索引擎提供搜索支持。

第一步

搜索引擎去成千上萬個(gè)網(wǎng)站抓取數(shù)據(jù)。

第二步

搜索引擎通過爬蟲爬取到的網(wǎng)頁，將數(shù)據(jù)存入原始頁面數(shù)據(jù)庫(也就是文檔庫)。其中的頁面數(shù)據(jù)與用戶瀏覽器得到的HTML是完全—樣的。

第三步

搜索引擎將爬蟲抓取回來的頁面，進(jìn)行各種步驟的預(yù)處理:中文分詞，消除噪音，索引處理。。。
搜索引擎在對信息進(jìn)行組織和處理后，為用戶提供關(guān)鍵字檢索服務(wù)，將用戶檢索相關(guān)的信息展示給用戶。展示的時(shí)候會(huì)進(jìn)行排名。

二、搜索引擎的局限性

搜索引擎抓取的是整個(gè)網(wǎng)頁，不是具體詳細(xì)的信息。
搜索引擎無法提供針對具體某個(gè)客戶需求的搜索結(jié)果。

聚焦爬蟲

針對通用爬蟲的這些情況，聚焦爬蟲技術(shù)得以廣泛使用。聚焦爬蟲，是"面向特定主題需求"的一種網(wǎng)絡(luò)爬蟲程序，它與通用搜索引擎爬蟲的區(qū)別在于：聚焦爬蟲在實(shí)施網(wǎng)頁抓取時(shí)會(huì)對內(nèi)容進(jìn)行處理篩選，盡量保證只抓取與需求相關(guān)的網(wǎng)頁數(shù)據(jù)。

三、Robots協(xié)議

robots是網(wǎng)站跟爬蟲間的協(xié)議，用簡單直接的txt格式文本方式告訴對應(yīng)的爬蟲被允許的權(quán)限，也就是說robots.txt是搜索引擎中訪問網(wǎng)站的時(shí)候要查看的第一個(gè)文件。當(dāng)一個(gè)搜索蜘蛛訪問一個(gè)站點(diǎn)時(shí)，它會(huì)首先檢查該站點(diǎn)根目錄下是否存在robots.txt，如果存在，搜索機(jī)器人就會(huì)按照該文件中的內(nèi)容來確定訪問的范圍;如果該文件不存在，所有的搜索蜘蛛將能夠訪問網(wǎng)站上所有沒有被口令保護(hù)的頁面?！俣劝倏?/p>

Robots協(xié)議也叫爬蟲協(xié)議、機(jī)器人協(xié)議等，全稱是“網(wǎng)絡(luò)爬蟲排除標(biāo)準(zhǔn)”(Robots ExclusionProtocol)，網(wǎng)站通過Robots協(xié)議告訴搜索引擎哪些頁面可以抓取，哪些頁面不能抓取，例如:

淘寶: https://www.taobao.com/robots.txt
百度: https://www.baidu.com/robots.txt

四、請求與相應(yīng)

網(wǎng)絡(luò)通信由兩部分組成:客戶端請求消息與服務(wù)器響應(yīng)消息

瀏覽器發(fā)送HTTP請求的過程：

1.當(dāng)我們在瀏覽器輸入U(xiǎn)RL https://www.baidu.com的時(shí)候，瀏覽器發(fā)送一個(gè)Request請求去
獲取 https://www.baidu.com 的html文件，服務(wù)器把Response文件對象發(fā)送回給瀏覽器。

2.瀏覽器分析Response中的HTML，發(fā)現(xiàn)其中引用了很多其他文件，比如Images文件，CSS文件，JS文件。瀏覽器會(huì)自動(dòng)再次發(fā)送Request去獲取圖片，CSS文件，或者JS文件。

3.當(dāng)所有的文件都下載成功后，網(wǎng)頁會(huì)根據(jù)HTML語法結(jié)構(gòu)，完整的顯示出來了。

實(shí)際上我們通過學(xué)習(xí)爬蟲技術(shù)爬取數(shù)據(jù)，也是向服務(wù)器請求數(shù)據(jù),獲取服務(wù)器響應(yīng)數(shù)據(jù)的過程。

關(guān)于“Python爬蟲分類知識(shí)點(diǎn)有哪些”這篇文章的內(nèi)容就介紹到這里，感謝各位的閱讀！相信大家對“Python爬蟲分類知識(shí)點(diǎn)有哪些”知識(shí)都有一定的了解，大家如果還想學(xué)習(xí)更多知識(shí)，歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細(xì)節(jié)

推薦閱讀：

免責(zé)聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點(diǎn)不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進(jìn)行舉報(bào)，并提供相關(guān)證據(jù)，一經(jīng)查實(shí)，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
怎么用css實(shí)現(xiàn)3d動(dòng)畫特效
下一篇新聞：
如何使用純CSS實(shí)現(xiàn)一只紅色的憤怒小鳥

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動(dòng)

幫助支持

關(guān)于我們

售后咨詢

7*24小時(shí)在線電話：400-100-2938

7*24小時(shí)在線 QQ：800811969

關(guān)注億速云

億速云公眾號(hào)

手機(jī)網(wǎng)站二維碼