Python爬蟲基礎(chǔ)入門實(shí)例分析

發(fā)布時(shí)間：2022-02-21 15:03:58 來源：億速云閱讀：118 作者：iii 欄目：開發(fā)技術(shù)

這篇文章主要介紹“Python爬蟲基礎(chǔ)入門實(shí)例分析”的相關(guān)知識(shí)，小編通過實(shí)際案例向大家展示操作過程，操作方法簡單快捷，實(shí)用性強(qiáng)，希望這篇“Python爬蟲基礎(chǔ)入門實(shí)例分析”文章能幫助大家解決問題。

首先，屏幕前的小伙伴們需要先安裝 requests 庫，安裝之前需先安裝好 Python 環(huán)境，如未安裝，小編在這給小伙伴們提供最新的 Python 編譯器安裝教程：Python 最新 3.9.0 編譯器安裝教程。

安裝好 Python 環(huán)境后，windows 用戶打開 cmd 命令輸入以下命令即可（其余系統(tǒng)安裝大致相同）。

pip install requests

Linux 用戶：

sudo pip install requests

接下來就是實(shí)例講解啦，小伙伴們多多動(dòng)手操練吶！

1、爬取百度首頁頁面，并獲取頁面信息

實(shí)例

# 爬取百度頁面

import requests #導(dǎo)入requests爬蟲庫

resp = requests.get('http://www.baidu.com') #生成一個(gè)response對象

resp.encoding = 'utf-8' #設(shè)置編碼格式為 utf-8

print(resp.status_code) #打印狀態(tài)碼

print(resp.text) #輸出爬取的信息

2、requests 庫 get 方法實(shí)例

在此之前先給大家介紹一個(gè)網(wǎng)址：httpbin.org，這個(gè)網(wǎng)站能測試 HTTP 請求和響應(yīng)的各種信息，比如 cookie、ip、headers 和登錄驗(yàn)證等，且支持 GET、POST 等多種方法，對 web 開發(fā)和測試很有幫助。它用 Python + Flask 編寫，是一個(gè)開源項(xiàng)目。

官方網(wǎng)站：http://httpbin.org/

開源地址：https://github.com/Runscope/httpbin

實(shí)例

# get方法實(shí)例

import requests #導(dǎo)入requests爬蟲庫

resp5、爬取網(wǎng)頁圖片，并保存到本地。5、爬取網(wǎng)頁圖片，并保存到本地。 = requests.get("http://httpbin.org/get") #get方法

print( resp.status_code ) #打印狀態(tài)碼

print( resp.text ) #輸出爬取的信息

3、requests 庫 post 方法實(shí)例

實(shí)例

# post方法實(shí)例

import requests #導(dǎo)入requests爬蟲庫

resp = requests.post("http://httpbin.org/post") #post方法

print( resp.status_code ) #打印狀態(tài)碼

print( resp.text ) #輸出爬取的信息

4、requests庫 put 方法實(shí)例

實(shí)例

# put方法實(shí)例

import requests #導(dǎo)入requests爬蟲庫

resp = requests.put("http://httpbin.org/put") # put方法

print( resp.status_code ) #打印狀態(tài)碼

print( resp.text ) #輸出爬取的信息

5、requests 庫 get 方法傳參

想要使用 get 方法傳遞參數(shù)，有兩種方法可行：

在 get 方法之后加上要傳遞的參數(shù)用“=”號(hào)鏈接并用“&”符號(hào)隔開；
使用 params 字典傳遞多個(gè)參數(shù)。實(shí)例如下：

實(shí)例

# get傳參方法實(shí)例1

import requests #導(dǎo)入requests爬蟲庫

resp = requests.get("http://httpbin.org/get?name=w3cschool&age=100") # get傳參

print( resp.status_code ) #打印狀態(tài)碼

print( resp.text ) #輸出爬取的信息

實(shí)例

# get傳參方法實(shí)例2

import requests #導(dǎo)入requests爬蟲庫

data = {

"name":"w3cschool",

"age":100

} #使用字典存儲(chǔ)傳遞參數(shù)

resp = requests.get( "http://httpbin.org/get" , params=data ) # get傳參

print( resp.status_code ) #打印狀態(tài)碼

print( resp.text ) #輸出爬取的信息

6、requests 庫 post 方法傳參

使用 post 方法傳遞參數(shù)和使用 get 方法傳遞參數(shù)的方法二是類似的。實(shí)例如下：

實(shí)例

# post傳參方法實(shí)例

import requests #導(dǎo)入requests爬蟲庫

data = {

"name":"w3cschool",

"age":100

} #使用字典存儲(chǔ)傳遞參數(shù)

resp = requests.post( "http://httpbin.org/post" , params=data ) # post傳參

print( resp.status_code ) #打印狀態(tài)碼

print( resp.text ) #輸出爬取的信息

7、如何繞過各大網(wǎng)站的反爬蟲措施，以貓眼票房為例：

實(shí)例

import requests #導(dǎo)入requests爬蟲庫

url = 'http://piaofang.maoyan.com/dashboard' #貓眼票房網(wǎng)址地址

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'

} #設(shè)置頭部信息,偽裝瀏覽器

resp = requests.get(url, headers=headers) #

print(resp.status_code) #打印狀態(tài)碼

print(resp.text) #網(wǎng)頁信息

8、爬取網(wǎng)頁圖片，并保存到本地。

先在E盤建立一個(gè)爬蟲目錄，才能夠保存信息，小伙伴們可自行選擇目錄保存，在代碼中更改相應(yīng)目錄代碼即可。

實(shí)例

import requests #導(dǎo)入requests爬蟲庫

headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'

} #設(shè)置頭部信息,偽裝瀏覽器

resp = requests.get('http://7n.yisu.com/statics/img/logo/indexlogo@2x.png', headers = headers) #get方法的到圖片響應(yīng)

file = open("E:\\爬蟲\\test.png","wb") #打開一個(gè)文件,wb表示以二進(jìn)制格式打開一個(gè)文件只用于寫入

file.write(resp.content) #寫入文件

file.close() #關(guān)閉文件操作

關(guān)于“Python爬蟲基礎(chǔ)入門實(shí)例分析”的內(nèi)容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)，可以關(guān)注億速云行業(yè)資訊頻道，小編每天都會(huì)為大家更新不同的知識(shí)點(diǎn)。

向AI問一下細(xì)節(jié)

Python爬蟲基礎(chǔ)入門實(shí)例分析

實(shí)例

實(shí)例

實(shí)例

實(shí)例

實(shí)例

實(shí)例

實(shí)例

實(shí)例

實(shí)例

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽