<rt id="vmh4t"></rt>

<ol id="vmh4t"><em id="vmh4t"></em></ol>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

python爬蟲指的是什么意思

發(fā)布時間：2020-11-16 14:13:10 來源：億速云閱讀：222 作者：小新欄目：編程語言

這篇文章主要介紹python爬蟲指的是什么意思，文中介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們一定要看完！

Python爬蟲即使用Python程序開發(fā)的網(wǎng)絡(luò)爬蟲（網(wǎng)頁蜘蛛，網(wǎng)絡(luò)機器人），是一種按照一定的規(guī)則，自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。其實通俗的講就是通過程序去獲取 web 頁面上自己想要的數(shù)據(jù)，也就是自動抓取數(shù)據(jù)。

網(wǎng)絡(luò)爬蟲（英語：web crawler），也叫網(wǎng)絡(luò)蜘蛛（spider），是一種用來自動瀏覽萬維網(wǎng)的網(wǎng)絡(luò)機器人。其目的一般為編纂網(wǎng)絡(luò)索引。

網(wǎng)絡(luò)搜索引擎等站點通過爬蟲軟件更新自身的網(wǎng)站內(nèi)容或其對其他網(wǎng)站的索引。網(wǎng)絡(luò)爬蟲可以將自己所訪問的頁面保存下來，以便搜索引擎事后生成索引供用戶搜索。

爬蟲訪問網(wǎng)站的過程會消耗目標系統(tǒng)資源。不少網(wǎng)絡(luò)系統(tǒng)并不默許爬蟲工作。因此在訪問大量頁面時，爬蟲需要考慮到規(guī)劃、負載，還需要講“禮貌”。不愿意被爬蟲訪問、被爬蟲主人知曉的公開站點可以使用robots.txt文件之類的方法避免訪問。這個文件可以要求機器人只對網(wǎng)站的一部分進行索引，或完全不作處理。

互聯(lián)網(wǎng)上的頁面極多，即使是最大的爬蟲系統(tǒng)也無法做出完整的索引。因此在公元2000年之前的萬維網(wǎng)出現(xiàn)初期，搜索引擎經(jīng)常找不到多少相關(guān)結(jié)果?，F(xiàn)在的搜索引擎在這方面已經(jīng)進步很多，能夠即刻給出高質(zhì)量結(jié)果。

爬蟲還可以驗證超鏈接和HTML代碼，用于網(wǎng)絡(luò)抓取。

Python 爬蟲

Python 爬蟲架構(gòu)

Python 爬蟲架構(gòu)主要由五個部分組成，分別是調(diào)度器、URL 管理器、網(wǎng)頁下載器、網(wǎng)頁解析器、應(yīng)用程序（爬取的有價值數(shù)據(jù)）。

調(diào)度器：相當于一臺電腦的 CPU，主要負責調(diào)度 URL 管理器、下載器、解析器之間的協(xié)調(diào)工作。

URL 管理器：包括待爬取的 URL 地址和已爬取的 URL 地址，防止重復(fù)抓取 URL 和循環(huán)抓取 URL，實現(xiàn) URL 管理器主要用三種方式，通過內(nèi)存、數(shù)據(jù)庫、緩存數(shù)據(jù)庫來實現(xiàn)。

網(wǎng)頁下載器：通過傳入一個 URL 地址來下載網(wǎng)頁，將網(wǎng)頁轉(zhuǎn)換成一個字符串，網(wǎng)頁下載器有 urllib2（Python 官方基礎(chǔ)模塊）包括需要登錄、代理、和 cookie，requests(第三方包)

網(wǎng)頁解析器：將一個網(wǎng)頁字符串進行解析，可以按照我們的要求來提取出我們有用的信息，也可以根據(jù) DOM 樹的解析方式來解析。網(wǎng)頁解析器有正則表達式（直觀，將網(wǎng)頁轉(zhuǎn)成字符串通過模糊匹配的方式來提取有價值的信息，當文檔比較復(fù)雜的時候，該方法提取數(shù)據(jù)的時候就會非常的困難）、html.parser（Python 自帶的）、beautifulsoup（第三方插件，可以使用 Python 自帶的 html.parser 進行解析，也可以使用 lxml 進行解析，相對于其他幾種來說要強大一些）、lxml（第三方插件，可以解析 xml 和 HTML），html.parser 和 beautifulsoup 以及 lxml 都是以 DOM 樹的方式進行解析的。

應(yīng)用程序：就是從網(wǎng)頁中提取的有用數(shù)據(jù)組成的一個應(yīng)用。

爬蟲可以做什么？

你可以用爬蟲爬圖片，爬取視頻等等你想要爬取的數(shù)據(jù)，只要你能通過瀏覽器訪問的數(shù)據(jù)都可以通過爬蟲獲取。

爬蟲的本質(zhì)是什么？

模擬瀏覽器打開網(wǎng)頁，獲取網(wǎng)頁中我們想要的那部分數(shù)據(jù)

瀏覽器打開網(wǎng)頁的過程：

當你在瀏覽器中輸入地址后，經(jīng)過 DNS 服務(wù)器找到服務(wù)器主機，向服務(wù)器發(fā)送一個請求，服務(wù)器經(jīng)過解析后發(fā)送給用戶瀏覽器結(jié)果，包括 html,js,css 等文件內(nèi)容，瀏覽器解析出來最后呈現(xiàn)給用戶在瀏覽器上看到的結(jié)果

所以用戶看到的瀏覽器的結(jié)果就是由 HTML 代碼構(gòu)成的，我們爬蟲就是為了獲取這些內(nèi)容，通過分析和過濾 html 代碼，從中獲取我們想要資源。

以上是python爬蟲指的是什么意思的所有內(nèi)容，感謝各位的閱讀！希望分享的內(nèi)容對大家有幫助，更多相關(guān)知識，歡迎關(guān)注億速云行業(yè)資訊頻道！

向AI問一下細節(jié)

推薦閱讀：

免責聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
python中demo有什么用
下一篇新聞：
python裝飾器的用途是什么

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼