溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

python爬蟲Urllib庫的使用方法

發(fā)布時間:2020-11-12 09:49:09 來源:億速云 閱讀:139 作者:小新 欄目:編程語言

小編給大家分享一下python爬蟲Urllib庫的使用方法,希望大家閱讀完這篇文章后大所收獲,下面讓我們一起去探討吧!

一、扒取一個網(wǎng)頁

怎樣扒網(wǎng)頁呢?其實就是根據(jù) URL 來獲取它的網(wǎng)頁信息,雖然我們在瀏覽器中看到的是一幅幅優(yōu)美的畫面,但是其實是由瀏覽器解釋才呈現(xiàn)出來的,實質(zhì)它是一段 HTML 代碼,加 JS、CSS,如果把網(wǎng)頁比作一個人,那么 HTML 便是他的骨架,JS 便是他的肌肉,CSS 便是它的衣服。所以最重要的部分是存在于 HTML 中的,下面我們就寫個例子來扒一個網(wǎng)頁下來。

import urllib2
 
response = urllib2.urlopen("http://www.baidu.com")
print response.read()

是的你沒看錯,真正的程序就兩行,把它保存成 demo.py,進入該文件的目錄,執(zhí)行如下命令

python demo.py

二、構造 Request

其實上面的 urlopen 參數(shù)可以傳入一個 request 請求,它其實就是一個 Request 類的實例,構造時需要傳入 Url,Data 等等的內(nèi)容。比如上面的兩行代碼,我們可以這么改寫

import urllib2
 
request = urllib2.Request("http://www.baidu.com")
response = urllib2.urlopen(request)
print response.read()

運行結果是完全一樣的,只不過中間多了一個 request 對象,推薦大家這么寫,因為在構建請求時還需要加入好多內(nèi)容,通過構建一個 request,服務器響應請求得到應答,這樣顯得邏輯上清晰明確。

 

三、POST 和 GET 數(shù)據(jù)傳送

1. POST 方式:

上面我們說了 data 參數(shù)是干嘛的?對了,它就是用在這里的,我們傳送的數(shù)據(jù)就是這個參數(shù) data,下面演示一下 POST 方式。

import urllib
import urllib2
 
values = {"username":"1016903103@qq.com","password":"XXXX"}
data = urllib.urlencode(values)
url = "https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
request = urllib2.Request(url,data)
response = urllib2.urlopen(request)
print response.read()

我們引入了 urllib 庫,現(xiàn)在我們模擬登陸 CSDN,當然上述代碼可能登陸不進去,因為 CSDN 還有個流水號的字段,沒有設置全,比較復雜在這里就不寫上去了,在此只是說明登錄的原理。一般的登錄網(wǎng)站一般是這種寫法。 我們需要定義一個字典,名字為 values,參數(shù)我設置了 username 和 password,下面利用 urllib 的 urlencode 方法將字典編碼,命名為 data,構建 request 時傳入兩個參數(shù),url 和 data,運行程序,返回的便是 POST 后呈現(xiàn)的頁面內(nèi)容。 注意上面字典的定義方式還有一種,下面的寫法是等價的

import urllib
import urllib2
 
values = {}
values['username'] = "1016903103@qq.com"
values['password'] = "XXXX"
data = urllib.urlencode(values)
url = "http://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
request = urllib2.Request(url,data)
response = urllib2.urlopen(request)
print response.read()

2. GET 方式:

至于 GET 方式我們可以直接把參數(shù)寫到網(wǎng)址上面,直接構建一個帶參數(shù)的 URL 出來即可。

import urllib
import urllib2
 
values={}
values['username'] = "1016903103@qq.com"
values['password']="XXXX"
data = urllib.urlencode(values)
url = "http://passport.csdn.net/account/login"
geturl = url + "?"+data
request = urllib2.Request(geturl)
response = urllib2.urlopen(request)
print response.read()

你可以 print geturl,打印輸出一下 url,發(fā)現(xiàn)其實就是原來的 url 加?然后加編碼后的參數(shù)

http://passport.csdn.net/account/login?username=1016903103%40qq.com&password=XXXX

看完了這篇文章,相信你對python爬蟲Urllib庫的使用方法有了一定的了解,想了解更多相關知識,歡迎關注億速云行業(yè)資訊頻道,感謝各位的閱讀!

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內(nèi)容。

AI