溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

python利用requests庫模擬post請求時json的使用教程

發(fā)布時間：2020-10-03 02:22:47 來源：腳本之家閱讀：167 作者：NewJune 欄目：開發(fā)技術(shù)

我們都見識過requests庫在靜態(tài)網(wǎng)頁的爬取上展現(xiàn)的威力，我們?nèi)粘Ｒ姷米疃嗟臑間et和post請求，他們最大的區(qū)別在于安全性上：

1、GET是通過URL方式請求，可以直接看到，明文傳輸。

2、POST是通過請求header請求，可以開發(fā)者工具或者抓包可以看到，同樣也是明文的。 3.GET請求會保存在瀏覽器歷史紀錄中，還可能會保存在Web的日志中。

　　兩者用法上也有顯著差異（援引自知乎）：

1、GET用于從服務(wù)器端獲取數(shù)據(jù)，包括靜態(tài)資源(HTML|JS|CSS|Image等等)、動態(tài)數(shù)據(jù)展示(列表數(shù)據(jù)、詳情數(shù)據(jù)等等)。

2、POST用于向服務(wù)器提交數(shù)據(jù)，比如增刪改數(shù)據(jù)，提交一個表單新建一個用戶、或修改一個用戶等。

對于Post請求，我們可以通過瀏覽器開發(fā)者工具或者其他外部工具來進行抓包，得到請求的URL、請求頭（request headers）以及請求的表單data信息，這三樣恰恰是我們用requests模擬post請求時需要的，典型的寫法如下：

　　response=requests.post(url=url,headers=headers,data=data_search)

　　由于post請求很多時候是配合Ajax（異步加載）技術(shù)一起使用的，我們抓包時，可以直接選擇XHR（XmlHttpRequest）-ajax的一種對象，幫助我們?yōu)V掉其他的一些html、css、js類文件，如下圖所示（截取自Chrome）：

python利用requests庫模擬post請求時json的使用教程

雙擊點開，就可以在頁面右邊的Headers頁下看到General、Response Headers、Request Headers、Form Data幾個模塊，

其中General模塊能看到請求的方法和請求的URL以及服務(wù)器返回的狀態(tài)碼（200（成功）服務(wù)器已成功處理了請求。通常，這表示服務(wù)器提供了請求的網(wǎng)頁。）

python利用requests庫模擬post請求時json的使用教程

而Response Headers部分，可以看到緩存控制、服務(wù)器類型、返回內(nèi)容格式、有效期等參數(shù)（筆者截圖所示，返回的為json文件）：

python利用requests庫模擬post請求時json的使用教程

Request Header模塊是非常重要的，可以有效地將我們的爬取行為模擬成瀏覽器行為，應(yīng)對常規(guī)的服務(wù)器反爬機制：

其中Content-Type、Cookie以及User-Agent字段較為重要，需要我們構(gòu)造出來（其他字段大多數(shù)時候，不是必須）

python利用requests庫模擬post請求時json的使用教程

由于Cookie字段記錄了用戶的登陸信息，每次都不同，且同一個cookie存在一定有效期，當我們結(jié)合Selenium來組合爬取頁面信息時，可以通過selenium完成網(wǎng)頁的登陸校驗，然后利用selenium提取出cookie，再轉(zhuǎn)換為瀏覽器能識別的cookie格式，通常代碼如下所示：

cookies = driver.get_cookies() #利用selenium原生方法得到cookies
ret=''
for cookie in cookies:
  cookie_name=cookie['name']
  cookie_value=cookie['value']
  ret=ret+cookie_name+'='+cookie_value+';' #ret即為最終的cookie，各cookie以“;”相隔開

緊接著，我們需要構(gòu)造headers部分（即請求頭），我們挑重點的幾個字段進行構(gòu)造：

headers={
  'Host':'**********.com',
  'Referer':'http://****************/check/index.do',
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.110 Safari/537.36',
  'X-Requested-With':'XMLHttpRequest',
  'Content-Type':'application/x-www-form-urlencoded; charset=UTF-8',
  'Cookie':ret #需要登陸后捕獲cookie并調(diào)用
}

我們在網(wǎng)頁中點擊“確定”按鈕，網(wǎng)頁則會異步加載，后臺發(fā)出post請求，取到j(luò)son文件并渲染到網(wǎng)頁表單中，比如我們根據(jù)需求填寫了部分字段（這些就是我們post請求的data信息），然后觀察后臺的form data信息：

python利用requests庫模擬post請求時json的使用教程

后臺Form data 捕獲到的data參數(shù)如圖：

python利用requests庫模擬post請求時json的使用教程

類似于字典格式，其中condition鍵對應(yīng)的value較為復(fù)雜——列表中包含字典，字典中還有部分函數(shù)，其中字符串中既有單引號又有雙引號交錯。屬于關(guān)鍵信息，page決定了網(wǎng)頁的翻頁在第幾頁，而rows則表示每次請求的數(shù)據(jù)限定的最大行數(shù)。

本例中問題的關(guān)鍵是，如何把想要的信息（譬如來源于excel配置文件）傳遞到condition字段對應(yīng)的值內(nèi)，確保Form data信息靈活可配置，大抵用法如下：

data_search={
  'page':1,
  'rows':15,
  'condition':
  """[\
    {"column":"BPM_DEF_NAME","exp":"like","value":""},\
    {"column":"DELETE_STATUS","exp":"=","value":0},\
    {"column":"TO_CHAR(TO_DATE(CREATE_DATE,'YYYY-MM-DD HH24:MI:SS'),'YYYY-MM-DD')","exp":">=","value":"YYYY-MM-DD"},\
    {"column":"TO_CHAR(TO_DATE(CREATE_DATE,'YYYY-MM-DD HH24:MI:SS'),'YYYY-MM-DD')","exp":"<=","value":"YYYY-MM-DD"},\
    {"column":"CHECK_TYPE","exp":"like","value":"2"},\
    {"column":"LOCKED_STATUS","exp":"=","value":0},\
    {"column":"DELETE_STATUS","orderType":"default","orderKey":"","direction":"ASC"}\
  ]""",  #考慮到該字段已經(jīng)有單引號、雙引號，所以只能用三引號來包住這部分代表字符串
  'additionalParams':'{}'
}
data_search_condition=json.loads(data_search['condition'])  #將字符串轉(zhuǎn)為列表，方便更新列表（列表中每個元素都是一個單個字典）元素
#刷新字典
data_search_condition[0]['value']=businessName
data_search_condition[2]['value']=str(startDate)
data_search_condition[3]['value']=str(endDate)
data_search['condition']=json.dumps(data_search_condition) #將列表重新轉(zhuǎn)回字符串，作為data_search字典中鍵“condition”對應(yīng)的“value”，然后更新字典

上述代碼中，data_search其實為字典對象，其鍵“condition”對應(yīng)的值（三引號包住部分）為字符串，本質(zhì)是json格式，我們?nèi)绾螌@部分動態(tài)傳參呢？

這里需要用到python json包中常用的loads和dumps方法：

1、json.loads()是將json格式對象，轉(zhuǎn)化Python可識別的字典對象。解碼python json格式，可以用這個模塊的json.loads()函數(shù)的解析方法。

2、json.dumps()是將一個Python數(shù)據(jù)類型列表進行json格式的編碼解析，可以將一個list列表對象，進行了json格式的編碼轉(zhuǎn)換。

3、json.dump和json.dumps很不同，json.dump主要用來json文件讀寫，和json.load函數(shù)配合使用。

上面實例中，就是將data_search['condition']（json，字符串）轉(zhuǎn)換為列表，然后根據(jù)列表定位到底層的每個dict字典，最后根據(jù)dict[Key]=value的方法進行更新（傳參），更新完之后的列表，再通過json.dumps反向轉(zhuǎn)回字符串，這樣整個data_search字典中參數(shù)就可以靈活配置，通過外部引入了。

剩下的工作就很簡單，交給強大的Requests包完成就好，示例代碼如下：

def get_page(data_search,url): #定義頁面解析的函數(shù)，返回值為json格式
  try:
    response=requests.post(url=url,headers=headers,data=data_search)
    if response.status_code==200:
      return response.json()
  except requests.ConnectionError as e:
    print('Error',e.args)

我們還可以把json格式內(nèi)容存到本地（data.json)格式文件或者txt文本，并按照特定縮進（indent=4)進行規(guī)則排版，格式化內(nèi)容，此時要用到j(luò)son.dump()方法，示例代碼如下:

for pageNum in range(1,1000):
  data_search['page']=str(pageNum)
  pageContent=get_page(data_search=data_search,url=url)
  with open('data.json','w',encoding="utf-8") as json_file:
    json.dump(pageContent,json_file,ensure_ascii = False,indent=4)
  if pageContent==None:
    print("無符合條件的單據(jù)！") 
    time.sleep(3)
    sys.exit(0)

格式化后的json看上去直觀不少：

python利用requests庫模擬post請求時json的使用教程

　　最后感慨一句：爬蟲是門技術(shù)活，任何一個技術(shù)理解地不夠透徹，碰到復(fù)雜的問題，可能就要花上很長時間去試錯，譬如本文示例中的字典、json包幾個功能的使用，稍微出錯，就無法請求到對的數(shù)據(jù)！

PS：特別強調(diào)一點，有的時候requests.post()方法中data字段不填或者填寫有誤，服務(wù)器有時也會返回200狀態(tài)碼以及相應(yīng)內(nèi)容。這種情況下，我們一定要與手工操作得到的json文件進行對比，看看我們的傳參（多測試幾組不同的參數(shù)，看返回json內(nèi)容是否不同）是否真的起到作用，以免空歡喜一場！

總結(jié)

以上所述是小編給大家介紹的python利用requests庫模擬post請求時json的使用教程，希望對大家有所幫助，如果大家有任何疑問請給我留言，小編會及時回復(fù)大家的。在此也非常感謝大家對億速云網(wǎng)站的支持！

向AI問一下細節(jié)

推薦閱讀：

免責聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
使用IDEA將Java/Kotliin工程導(dǎo)出Jar包的正確姿勢
下一篇新聞：
CAD參數(shù)繪制直線（網(wǎng)頁版）

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼