Python3中Ajax結(jié)果提取的方法是什么

發(fā)布時間：2020-08-05 14:17:32 來源：億速云閱讀：162 作者：小新欄目：編程語言

這篇文章將為大家詳細(xì)講解有關(guān)Python3中Ajax結(jié)果提取的方法是什么，小編覺得挺實用的，因此分享給大家做個參考，希望大家閱讀完這篇文章后可以有所收獲。

這里仍然以微博為例，接下來用Python來模擬這些Ajax請求，把我發(fā)過的微博爬取下來。

1. 分析請求

打開Ajax的XHR過濾器，然后一直滑動頁面以加載新的微博內(nèi)容?？梢钥吹?，會不斷有Ajax請求發(fā)出。

選定其中一個請求，分析它的參數(shù)信息。點擊該請求，進入詳情頁面，如圖6-11所示。

Python3中Ajax結(jié)果提取的方法是什么

圖6-11 詳情頁面

可以發(fā)現(xiàn)，這是一個GET類型的請求，請求鏈接為[https://m.weibo.cn/api/container/getIndex?type=uid&value=2830678474&containerid=1076032830678474&page=2)。請求的參數(shù)有4個：type、value、containerid和page。

隨后再看看其他請求，可以發(fā)現(xiàn)，它們的type、value和containerid始終如一。type始終為uid，value的值就是頁面鏈接中的數(shù)字，其實這就是用戶的id。另外，還有containerid?？梢园l(fā)現(xiàn)，它就是107603加上用戶id。改變的值就是page，很明顯這個參數(shù)是用來控制分頁的，page=1代表第一頁，page=2代表第二頁，以此類推。

2. 分析響應(yīng)

隨后，觀察這個請求的響應(yīng)內(nèi)容，如圖6-12所示。

Python3中Ajax結(jié)果提取的方法是什么

圖6-12 響應(yīng)內(nèi)容

這個內(nèi)容是JSON格式的，瀏覽器開發(fā)者工具自動做了解析以方便我們查看?？梢钥吹?，最關(guān)鍵的兩部分信息就是cardlistInfo和cards：前者包含一個比較重要的信息total，觀察后可以發(fā)現(xiàn)，它其實是微博的總數(shù)量，我們可以根據(jù)這個數(shù)字來估算分頁數(shù)；后者則是一個列表，它包含10個元素，展開其中一個看一下，如圖6-13所示。

Python3中Ajax結(jié)果提取的方法是什么

圖6-13 列表內(nèi)容

可以發(fā)現(xiàn)，這個元素有一個比較重要的字段mblog。展開它，可以發(fā)現(xiàn)它包含的正是微博的一些信息，比如attitudes_count（贊數(shù)目）、comments_count（評論數(shù)目）、reposts_count（轉(zhuǎn)發(fā)數(shù)目）、created_at（發(fā)布時間）、text（微博正文）等，而且它們都是一些格式化的內(nèi)容。

這樣我們請求一個接口，就可以得到10條微博，而且請求時只需要改變page參數(shù)即可。

這樣的話，我們只需要簡單做一個循環(huán)，就可以獲取所有微博了。

3. 實戰(zhàn)演練

這里我們用程序模擬這些Ajax請求，將我的前10頁微博全部爬取下來。

首先，定義一個方法來獲取每次請求的結(jié)果。在請求時，page是一個可變參數(shù)，所以我們將它作為方法的參數(shù)傳遞進來，相關(guān)代碼如下：

from urllib.parse import urlencode
import requests
base_url = 'https://m.weibo.cn/api/container/getIndex?'
headers = {
    'Host': 'm.weibo.cn',
    'Referer': 'https://m.weibo.cn/u/2830678474',
    'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_3) AppleWebKit/537.36 (KHTML, like Gecko) 
    Chrome/58.0.3029.110 Safari/537.36',
    'X-Requested-With': 'XMLHttpRequest',
}
def get_page(page):
    params = {
        'type': 'uid',
        'value': '2830678474',
        'containerid': '1076032830678474',
        'page': page
    }
    url = base_url + urlencode(params)
    try:
        response = requests.get(url, headers=headers)
        if response.status_code == 200:
            return response.json()
    except requests.ConnectionError as e:
        print('Error', e.args)

首先，這里定義了base_url來表示請求的URL的前半部分。接下來，構(gòu)造參數(shù)字典，其中type、value和containerid是固定參數(shù)，page是可變參數(shù)。接下來，調(diào)用urlencode()方法將參數(shù)轉(zhuǎn)化為URL的GET請求參數(shù)，即類似于type=uid&value=2830678474&containerid=1076032830678474&page=2這樣的形式。隨后，base_url與參數(shù)拼合形成一個新的URL。接著，我們用requests請求這個鏈接，加入headers參數(shù)。然后判斷響應(yīng)的狀態(tài)碼，如果是200，則直接調(diào)用json()方法將內(nèi)容解析為JSON返回，否則不返回任何信息。如果出現(xiàn)異常，則捕獲并輸出其異常信息。

隨后，我們需要定義一個解析方法，用來從結(jié)果中提取想要的信息，比如這次想保存微博的id、正文、贊數(shù)、評論數(shù)和轉(zhuǎn)發(fā)數(shù)這幾個內(nèi)容，那么可以先遍歷cards，然后獲取mblog中的各個信息，賦值為一個新的字典返回即可：

from pyquery import PyQuery as pq
def parse_page(json):
    if json:
        items = json.get('data').get('cards')
        for item in items:
            item = item.get('mblog')
            weibo = {}
            weibo['id'] = item.get('id')
            weibo['text'] = pq(item.get('text')).text()
            weibo['attitudes'] = item.get('attitudes_count')
            weibo['comments'] = item.get('comments_count')
            weibo['reposts'] = item.get('reposts_count')
            yield weibo

這里我們借助pyquery將正文中的HTML標(biāo)簽去掉。

最后，遍歷一下page，一共10頁，將提取到的結(jié)果打印輸出即可：

if __name__ == '__main__':
    for page in range(1, 11):
        json = get_page(page)
        results = parse_page(json)
        for result in results:
            print(result)

另外，我們還可以加一個方法將結(jié)果保存到MongoDB數(shù)據(jù)庫：

from pymongo import MongoClient
client = MongoClient()
db = client['weibo']
collection = db['weibo']
def save_to_mongo(result):
    if collection.insert(result):
        print('Saved to Mongo')

這樣所有功能就實現(xiàn)完成了。運行程序后，樣例輸出結(jié)果如下：

{'id': '4134879836735238', 'text': '驚不驚喜，刺不刺激，意不意外，感不感動', 'attitudes': 3, 'comments': 1, 
'reposts': 0}
Saved to Mongo
{'id': '4143853554221385', 'text': '曾經(jīng)夢想仗劍走天涯，后來過安檢給收走了。分享單曲 遠(yuǎn)走高飛', 'attitudes': 5, 
'comments': 1, 'reposts': 0}
Saved to Mongo

查看一下MongoDB，相應(yīng)的數(shù)據(jù)也被保存到MongoDB，如圖6-14所示。

Python3中Ajax結(jié)果提取的方法是什么

圖6-14 保存結(jié)果

這樣，我們就順利通過分析Ajax并編寫爬蟲爬取下來了微博列表，最后，給出本節(jié)的代碼地址：https://github.com/Python3WebSpider/WeiboList。

本節(jié)的目的是為了演示Ajax的模擬請求過程，爬取的結(jié)果不是重點。該程序仍有很多可以完善的地方，如頁碼的動態(tài)計算、微博查看全文等，若感興趣，可以嘗試一下。

通過這個實例，我們主要學(xué)會了怎樣去分析Ajax請求，怎樣用程序來模擬抓取Ajax請求。了解了抓取原理之后，下一節(jié)的Ajax實戰(zhàn)演練會更加得心應(yīng)手。

關(guān)于Python3中Ajax結(jié)果提取的方法是什么就分享到這里了，希望以上內(nèi)容可以對大家有一定的幫助，可以學(xué)到更多知識。如果覺得文章不錯，可以把它分享出去讓更多的人看到。

向AI問一下細(xì)節(jié)

Python3中Ajax結(jié)果提取的方法是什么

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽