python爬蟲Urllib庫的使用方法

發(fā)布時間：2020-11-12 09:49:09 來源：億速云閱讀：139 作者：小新欄目：編程語言

小編給大家分享一下python爬蟲Urllib庫的使用方法，希望大家閱讀完這篇文章后大所收獲，下面讓我們一起去探討吧！

一、扒取一個網(wǎng)頁

怎樣扒網(wǎng)頁呢？其實就是根據(jù) URL 來獲取它的網(wǎng)頁信息，雖然我們在瀏覽器中看到的是一幅幅優(yōu)美的畫面，但是其實是由瀏覽器解釋才呈現(xiàn)出來的，實質(zhì)它是一段 HTML 代碼，加 JS、CSS，如果把網(wǎng)頁比作一個人，那么 HTML 便是他的骨架，JS 便是他的肌肉，CSS 便是它的衣服。所以最重要的部分是存在于 HTML 中的，下面我們就寫個例子來扒一個網(wǎng)頁下來。

import urllib2
 
response = urllib2.urlopen("http://www.baidu.com")
print response.read()

是的你沒看錯，真正的程序就兩行，把它保存成 demo.py，進入該文件的目錄，執(zhí)行如下命令。

python demo.py

二、構造 Request

其實上面的 urlopen 參數(shù)可以傳入一個 request 請求，它其實就是一個 Request 類的實例，構造時需要傳入 Url,Data 等等的內(nèi)容。比如上面的兩行代碼，我們可以這么改寫

import urllib2
 
request = urllib2.Request("http://www.baidu.com")
response = urllib2.urlopen(request)
print response.read()

運行結果是完全一樣的，只不過中間多了一個 request 對象，推薦大家這么寫，因為在構建請求時還需要加入好多內(nèi)容，通過構建一個 request，服務器響應請求得到應答，這樣顯得邏輯上清晰明確。

三、POST 和 GET 數(shù)據(jù)傳送

1. POST 方式：

上面我們說了 data 參數(shù)是干嘛的？對了，它就是用在這里的，我們傳送的數(shù)據(jù)就是這個參數(shù) data，下面演示一下 POST 方式。

import urllib
import urllib2
 
values = {"username":"1016903103@qq.com","password":"XXXX"}
data = urllib.urlencode(values)
url = "https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
request = urllib2.Request(url,data)
response = urllib2.urlopen(request)
print response.read()

我們引入了 urllib 庫，現(xiàn)在我們模擬登陸 CSDN，當然上述代碼可能登陸不進去，因為 CSDN 還有個流水號的字段，沒有設置全，比較復雜在這里就不寫上去了，在此只是說明登錄的原理。一般的登錄網(wǎng)站一般是這種寫法。我們需要定義一個字典，名字為 values，參數(shù)我設置了 username 和 password，下面利用 urllib 的 urlencode 方法將字典編碼，命名為 data，構建 request 時傳入兩個參數(shù)，url 和 data，運行程序，返回的便是 POST 后呈現(xiàn)的頁面內(nèi)容。注意上面字典的定義方式還有一種，下面的寫法是等價的

import urllib
import urllib2
 
values = {}
values['username'] = "1016903103@qq.com"
values['password'] = "XXXX"
data = urllib.urlencode(values)
url = "http://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
request = urllib2.Request(url,data)
response = urllib2.urlopen(request)
print response.read()

2. GET 方式：

至于 GET 方式我們可以直接把參數(shù)寫到網(wǎng)址上面，直接構建一個帶參數(shù)的 URL 出來即可。

import urllib
import urllib2
 
values={}
values['username'] = "1016903103@qq.com"
values['password']="XXXX"
data = urllib.urlencode(values)
url = "http://passport.csdn.net/account/login"
geturl = url + "?"+data
request = urllib2.Request(geturl)
response = urllib2.urlopen(request)
print response.read()

你可以 print geturl，打印輸出一下 url，發(fā)現(xiàn)其實就是原來的 url 加？然后加編碼后的參數(shù)

http://passport.csdn.net/account/login?username=1016903103%40qq.com&password=XXXX

看完了這篇文章，相信你對python爬蟲Urllib庫的使用方法有了一定的了解，想了解更多相關知識，歡迎關注億速云行業(yè)資訊頻道，感謝各位的閱讀！

向AI問一下細節(jié)

python爬蟲Urllib庫的使用方法

猜你喜歡

最新資訊

相關推薦

相關標簽