溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

Python爬蟲后如何獲取重定向url

發(fā)布時間:2021-04-29 09:57:32 來源:億速云 閱讀:2171 作者:小新 欄目:編程語言

小編給大家分享一下Python爬蟲后如何獲取重定向url,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

python的數(shù)據(jù)類型有哪些?

python的數(shù)據(jù)類型:1. 數(shù)字類型,包括int(整型)、long(長整型)和float(浮點型)。2.字符串,分別是str類型和unicode類型。3.布爾型,Python布爾類型也是用于邏輯運算,有兩個值:True(真)和False(假)。4.列表,列表是Python中使用最頻繁的數(shù)據(jù)類型,集合中可以放任何數(shù)據(jù)類型。5. 元組,元組用”()”標識,內(nèi)部元素用逗號隔開。6. 字典,字典是一種鍵值對的集合。7. 集合,集合是一個無序的、不重復的數(shù)據(jù)組合。

我們在使用python寫爬蟲在爬取頁面時會遇到網(wǎng)頁被重定向的情況,當點點擊一個網(wǎng)頁跳轉(zhuǎn)到另一個頁面,URL的地址都會改變,會導致無法請求到數(shù)據(jù)。Python爬蟲后獲取重定向url的兩種方法:1、導入urllib庫獲得重定向url;2、設置瀏覽器代理,請求網(wǎng)頁。

方法一:導入urllib庫獲得重定向url

# 獲得重定向url
from urllib import request
# https://zhidao.baidu.com/question/681501874175782812.html
url = "https://www.baidu.com/link?url=IscBx0u8h9q4Uq3ihTs_PqnoNWe7slVWAd2dowQKrnqJedvthb3zrh9 
JqcMJu3ZqFrbW_DKVuTnTypDbMkZx_hwCQIGFPRVWGyxRXA-65jK&wd=&eqid=f7aeecba00092ed7000000065ec62596"
print(request.urlopen(url).geturl())

方法二:設置瀏覽器代理,請求網(wǎng)頁。

# 請求頭,這里我設置了瀏覽器代理
headers = headers = {'User-Agent': 'xx'}
# 這里chrome的user-agent獲取方式:在瀏覽器地址欄輸入 about://version 即可得到結(jié)果
url = "https://www.baidu.com/link?url=IscBx0u8h9q4Uq3ihTs_PqnoNWe7slVWAd2dowQKrnqJedvthb3 
zrh9JqcMJu3ZqFrbW_DKVuTnTypDbMkZx_hwCQIGFPRVWGyxRXA-65jK&wd=&eqid=f7aeecba00092ed7000000065ec62596"
# 請求網(wǎng)頁
response = requests.get(url, headers=headers)
# print(response.status_code) # 打印響應的狀態(tài)碼
print(response.url) # 打印重定向后的網(wǎng)址

以上是“Python爬蟲后如何獲取重定向url”這篇文章的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對大家有所幫助,如果還想學習更多知識,歡迎關(guān)注億速云行業(yè)資訊頻道!

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI