溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Python中怎么爬取電影天堂數(shù)據(jù)

發(fā)布時間:2021-07-10 13:50:40 來源:億速云 閱讀:191 作者:Leah 欄目:大數(shù)據(jù)

這期內(nèi)容當(dāng)中小編將會給大家?guī)碛嘘P(guān)Python中怎么爬取電影天堂數(shù)據(jù),文章內(nèi)容豐富且以專業(yè)的角度為大家分析和敘述,閱讀完這篇文章希望大家可以有所收獲。

首先打開Pycharm點擊File再點開setting。

Python中怎么爬取電影天堂數(shù)據(jù)

打開后會出現(xiàn)這個界面點擊你的項目名字(project:(你的項目名字))project interpreter點擊加號下載我們需要的庫本項目需要(requests,requests,time,re模塊),如下圖所示。

Python中怎么爬取電影天堂數(shù)據(jù)

【三、項目實施】

我們需要(requests,requests,time,re模塊 ),如下圖所示。

Python中怎么爬取電影天堂數(shù)據(jù)

這個time是用于防止反爬,設(shè)置的時間延時。

首先我們來分析一下這個網(wǎng)址下一頁得到特點。

Python中怎么爬取電影天堂數(shù)據(jù)

在主方法main函數(shù)里邊用for循環(huán)實現(xiàn)遍歷網(wǎng)址。

Python中怎么爬取電影天堂數(shù)據(jù)

說明你已經(jīng)成功一半了加油?。?/p>

現(xiàn)在我們需要對這些網(wǎng)址發(fā)生請求,為了更直觀的看出來,我們用一個類寫。

我們用requests發(fā)生請求 這個網(wǎng)站的編碼是gbk (怎么看網(wǎng)站的編碼?)。

打開一個網(wǎng)站右鍵檢查在header的標簽,以這個網(wǎng)站為例,可以看到charset=“gb312”。

這個gb2312就是編碼 我們常見的編碼方式有2種(utf_8, gbk)。

Python中怎么爬取電影天堂數(shù)據(jù)

我們可以驗證一下是不是真的請求到了。使用Print(html)看到這個結(jié)果(一個完整的html網(wǎng)頁)說明請求成功。

Python中怎么爬取電影天堂數(shù)據(jù)

所以我們可以先找到table,一層一層的去找,可以參考一下下面的圖。

Python中怎么爬取電影天堂數(shù)據(jù)

點開第二級頁面如圖右鍵點擊下載鏈接,如下圖所示:

Python中怎么爬取電影天堂數(shù)據(jù)

我們用正則表達式解析 得到我們下載鏈接地址,如下圖所示:

Python中怎么爬取電影天堂數(shù)據(jù)

得到結(jié)果,如下圖所示:

Python中怎么爬取電影天堂數(shù)據(jù)

最后我們優(yōu)化一下請求的代碼有點重復(fù) 我們優(yōu)化一下;

用一個值去保存說明請求頭的內(nèi)容以后請求我們只有調(diào)用這個方法進行請求就好,如下圖所示:

Python中怎么爬取電影天堂數(shù)據(jù)

上述就是小編為大家分享的Python中怎么爬取電影天堂數(shù)據(jù)了,如果剛好有類似的疑惑,不妨參照上述分析進行理解。如果想知道更多相關(guān)知識,歡迎關(guān)注億速云行業(yè)資訊頻道。

向AI問一下細節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI