溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶(hù)服務(wù)條款》

Python3網(wǎng)絡(luò)爬蟲(chóng)入門(mén)知識(shí)點(diǎn)有哪些

發(fā)布時(shí)間:2022-01-20 10:03:44 來(lái)源:億速云 閱讀:158 作者:iii 欄目:web開(kāi)發(fā)

本篇內(nèi)容介紹了“Python3網(wǎng)絡(luò)爬蟲(chóng)入門(mén)知識(shí)點(diǎn)有哪些”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

  網(wǎng)絡(luò)爬蟲(chóng)簡(jiǎn)介

  網(wǎng)絡(luò)爬蟲(chóng),也叫網(wǎng)絡(luò)蜘蛛(Web?Spider)。它根據(jù)網(wǎng)頁(yè)地址(URL)爬取網(wǎng)頁(yè)內(nèi)容,而網(wǎng)頁(yè)地址(URL)就是我們?cè)跒g覽器中輸入的網(wǎng)站鏈接。比如:它就是一個(gè)URL。

  1、審查元素

  在瀏覽器的地址欄輸入U(xiǎn)RL地址,在網(wǎng)頁(yè)處右鍵單擊,找到檢查。(不同瀏覽器的叫法不同,Chrome瀏覽器叫做檢查,F(xiàn)irefox瀏覽器叫做查看元素,但是功能都是相同的)

  我們可以看到,右側(cè)出現(xiàn)了一大推代碼,這些代碼就叫做HTML。什么是HTML?舉個(gè)容易理解的例子:我們的基因決定了我們的原始容貌,服務(wù)器返回的HTML決定了網(wǎng)站的原始容貌。

  為啥說(shuō)是原始容貌呢?因?yàn)槿丝梢哉莅?!扎心了,有木有?那網(wǎng)站也可以"整容"嗎?可以!請(qǐng)看下圖:

  我能有這么多錢(qián)嗎?顯然不可能。我是怎么給網(wǎng)站"整容"的呢?就是通過(guò)修改服務(wù)器返回的HTML信息。我們每個(gè)人都是"整容大師",可以修改頁(yè)面信息。我們?cè)陧?yè)面的哪個(gè)位置點(diǎn)擊審查元素,瀏覽器就會(huì)為我們定位到相應(yīng)的HTML位置,進(jìn)而就可以在本地更改HTML信息。

  再舉個(gè)小例子:我們都知道,使用瀏覽器"記住密碼"的功能,密碼會(huì)變成一堆小黑點(diǎn),是不可見(jiàn)的??梢宰屆艽a顯示出來(lái)嗎?可以,只需給頁(yè)面"動(dòng)個(gè)小手術(shù)"!以淘寶為例,在輸入密碼框處右鍵,點(diǎn)擊檢查。

  可以看到,瀏覽器為我們自動(dòng)定位到了相應(yīng)的HTML位置。將下圖中的password屬性值改為text屬性值(直接在右側(cè)代碼處修改):

  我們讓瀏覽器記住的密碼就這樣顯現(xiàn)出來(lái)了:

  說(shuō)這么多,什么意思呢?瀏覽器就是作為客戶(hù)端從服務(wù)器端獲取信息,然后將信息解析,并展示給我們的。我們可以在本地修改HTML信息,為網(wǎng)頁(yè)"整容",但是我們修改的信息不會(huì)回傳到服務(wù)器,服務(wù)器存儲(chǔ)的HTML信息不會(huì)改變。刷新一下界面,頁(yè)面還會(huì)回到原本的樣子。這就跟人整容一樣,我們能改變一些表面的東西,但是不能改變我們的基因。

  2、簡(jiǎn)單實(shí)例

  網(wǎng)絡(luò)爬蟲(chóng)的第一步就是根據(jù)URL,獲取網(wǎng)頁(yè)的HTML信息。在Python3中,可以使用urllib.request和requests進(jìn)行網(wǎng)頁(yè)爬取。

  urllib庫(kù)是python內(nèi)置的,無(wú)需我們額外安裝,只要安裝了Python就可以使用這個(gè)庫(kù)。requests庫(kù)是第三方庫(kù),需要我們自己安裝。

  requests庫(kù)強(qiáng)大好用,所以本文使用requests庫(kù)獲取網(wǎng)頁(yè)的HTML信息。requests庫(kù)的github地址:

 ?。?)requests安裝

 ?。?/p>

  在cmd中,使用如下指令安裝requests:

  pip install requests

  或者:

  easy_install requests

 ?。?)簡(jiǎn)單實(shí)例

  requests庫(kù)的基礎(chǔ)方法如下:

  首先,讓我們看下requests.get()方法,它用于向服務(wù)器發(fā)起GET請(qǐng)求,不了解GET請(qǐng)求沒(méi)有關(guān)系。我們可以這樣理解:get的中文意思是得到、抓住,那這個(gè)requests.get()方法就是從服務(wù)器得到、抓住數(shù)據(jù),也就是獲取數(shù)據(jù)。讓我們看一個(gè)例子(以 為例)來(lái)加深理解:

  # -*- coding:UTF-8 -*-

  import?requests

  if?__name__ == '__main__':

 ???target = ''

 ???req = requests.get(url=target)

 ?。縫rint(req.text)

  requests.get()方法必須設(shè)置的一個(gè)參數(shù)就是url,因?yàn)槲覀兊酶嬖VGET請(qǐng)求,我們的目標(biāo)是誰(shuí),我們要獲取誰(shuí)的信息。

“Python3網(wǎng)絡(luò)爬蟲(chóng)入門(mén)知識(shí)點(diǎn)有哪些”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI