溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

python爬蟲指的是什么意思

發(fā)布時間:2020-11-16 14:13:10 來源:億速云 閱讀:222 作者:小新 欄目:編程語言

這篇文章主要介紹python爬蟲指的是什么意思,文中介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們一定要看完!

Python爬蟲即使用Python程序開發(fā)的網(wǎng)絡(luò)爬蟲(網(wǎng)頁蜘蛛,網(wǎng)絡(luò)機器人),是一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。另外一些不常使用的名字還有螞蟻、自動索引、模擬程序或者蠕蟲。其實通俗的講就是通過程序去獲取 web 頁面上自己想要的數(shù)據(jù),也就是自動抓取數(shù)據(jù)。

網(wǎng)絡(luò)爬蟲(英語:web crawler),也叫網(wǎng)絡(luò)蜘蛛(spider),是一種用來自動瀏覽萬維網(wǎng)的網(wǎng)絡(luò)機器人。其目的一般為編纂網(wǎng)絡(luò)索引。

網(wǎng)絡(luò)搜索引擎等站點通過爬蟲軟件更新自身的網(wǎng)站內(nèi)容或其對其他網(wǎng)站的索引。網(wǎng)絡(luò)爬蟲可以將自己所訪問的頁面保存下來,以便搜索引擎事后生成索引供用戶搜索。

爬蟲訪問網(wǎng)站的過程會消耗目標系統(tǒng)資源。不少網(wǎng)絡(luò)系統(tǒng)并不默許爬蟲工作。因此在訪問大量頁面時,爬蟲需要考慮到規(guī)劃、負載,還需要講“禮貌”。 不愿意被爬蟲訪問、被爬蟲主人知曉的公開站點可以使用robots.txt文件之類的方法避免訪問。這個文件可以要求機器人只對網(wǎng)站的一部分進行索引,或完全不作處理。

互聯(lián)網(wǎng)上的頁面極多,即使是最大的爬蟲系統(tǒng)也無法做出完整的索引。因此在公元2000年之前的萬維網(wǎng)出現(xiàn)初期,搜索引擎經(jīng)常找不到多少相關(guān)結(jié)果?,F(xiàn)在的搜索引擎在這方面已經(jīng)進步很多,能夠即刻給出高質(zhì)量結(jié)果。

爬蟲還可以驗證超鏈接和HTML代碼,用于網(wǎng)絡(luò)抓取。

Python 爬蟲

Python 爬蟲架構(gòu)

Python 爬蟲架構(gòu)主要由五個部分組成,分別是調(diào)度器、URL 管理器、網(wǎng)頁下載器、網(wǎng)頁解析器、應(yīng)用程序(爬取的有價值數(shù)據(jù))。

調(diào)度器:相當于一臺電腦的 CPU,主要負責調(diào)度 URL 管理器、下載器、解析器之間的協(xié)調(diào)工作。

URL 管理器:包括待爬取的 URL 地址和已爬取的 URL 地址,防止重復(fù)抓取 URL 和循環(huán)抓取 URL,實現(xiàn) URL 管理器主要用三種方式,通過內(nèi)存、數(shù)據(jù)庫、緩存數(shù)據(jù)庫來實現(xiàn)。

網(wǎng)頁下載器:通過傳入一個 URL 地址來下載網(wǎng)頁,將網(wǎng)頁轉(zhuǎn)換成一個字符串,網(wǎng)頁下載器有 urllib2(Python 官方基礎(chǔ)模塊)包括需要登錄、代理、和 cookie,requests(第三方包)

網(wǎng)頁解析器:將一個網(wǎng)頁字符串進行解析,可以按照我們的要求來提取出我們有用的信息,也可以根據(jù) DOM 樹的解析方式來解析。網(wǎng)頁解析器有正則表達式(直觀,將網(wǎng)頁轉(zhuǎn)成字符串通過模糊匹配的方式來提取有價值的信息,當文檔比較復(fù)雜的時候,該方法提取數(shù)據(jù)的時候就會非常的困難)、html.parser(Python 自帶的)、beautifulsoup(第三方插件,可以使用 Python 自帶的 html.parser 進行解析,也可以使用 lxml 進行解析,相對于其他幾種來說要強大一些)、lxml(第三方插件,可以解析 xml 和 HTML),html.parser 和 beautifulsoup 以及 lxml 都是以 DOM 樹的方式進行解析的。

應(yīng)用程序:就是從網(wǎng)頁中提取的有用數(shù)據(jù)組成的一個應(yīng)用。

爬蟲可以做什么?

你可以用爬蟲爬圖片,爬取視頻等等你想要爬取的數(shù)據(jù),只要你能通過瀏覽器訪問的數(shù)據(jù)都可以通過爬蟲獲取。

爬蟲的本質(zhì)是什么?

模擬瀏覽器打開網(wǎng)頁,獲取網(wǎng)頁中我們想要的那部分數(shù)據(jù)

瀏覽器打開網(wǎng)頁的過程:

當你在瀏覽器中輸入地址后,經(jīng)過 DNS 服務(wù)器找到服務(wù)器主機,向服務(wù)器發(fā)送一個請求,服務(wù)器經(jīng)過解析后發(fā)送給用戶瀏覽器結(jié)果,包括 html,js,css 等文件內(nèi)容,瀏覽器解析出來最后呈現(xiàn)給用戶在瀏覽器上看到的結(jié)果

所以用戶看到的瀏覽器的結(jié)果就是由 HTML 代碼構(gòu)成的,我們爬蟲就是為了獲取這些內(nèi)容,通過分析和過濾 html 代碼,從中獲取我們想要資源。

以上是python爬蟲指的是什么意思的所有內(nèi)容,感謝各位的閱讀!希望分享的內(nèi)容對大家有幫助,更多相關(guān)知識,歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI