<strong id="kxlgo"><sup id="kxlgo"></sup></strong>

<samp id="kxlgo"><th id="kxlgo"><dl id="kxlgo"></dl></th></samp>

<samp id="kxlgo"><listing id="kxlgo"><var id="kxlgo"></var></listing></samp><samp id="kxlgo"><th id="kxlgo"></th></samp>

<strike id="kxlgo"><legend id="kxlgo"><table id="kxlgo"></table></legend></strike>

溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務(wù)條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

Python分布式爬蟲的方法是什么

發(fā)布時間：2022-01-12 16:38:22 來源：億速云閱讀：138 作者：iii 欄目：大數(shù)據(jù)

這篇文章主要講解了“Python分布式爬蟲的方法是什么”，文中的講解內(nèi)容簡單清晰，易于學(xué)習與理解，下面請大家跟著小編的思路慢慢深入，一起來研究和學(xué)習“Python分布式爬蟲的方法是什么”吧！

環(huán)境、架構(gòu)：

開發(fā)語言：Python2.7

開發(fā)環(huán)境：64位Windows8系統(tǒng)，4G內(nèi)存，i7-3612QM處理器。

數(shù)據(jù)庫：MongoDB 3.2.0、Redis 3.0.501

（Python編輯器：Pycharm；MongoDB管理工具：MongoBooster；Redis管理工具：RedisStudio）

爬蟲框架使用 Scrapy，使用 scrapy_redis 和 Redis 實現(xiàn)分布式。

分布式中有一臺機充當Master，安裝Redis進行任務(wù)調(diào)度，其余機子充當Slaver只管從Master那里拿任務(wù)去爬。原理是：Slaver運行的時候，scrapy遇到Request并不是交給spider去爬，而是統(tǒng)一交給Master機上的Redis數(shù)據(jù)庫，spider要爬的Request也都是從Redis中取來的，而Redis接收到Request后先去重再存入數(shù)據(jù)庫，哪個Slaver要Request了再給它，由此實現(xiàn)任務(wù)協(xié)同。

使用說明：

Python需要安裝好Scrapy、pymongo、json、base64、requests。

Master機只需要安裝好Redis即可（內(nèi)存要求大點），Slaver機需要安裝python環(huán)境和MongoDB來存儲數(shù)據(jù)。如果想要將數(shù)據(jù)都存儲到一臺機子上，直接改一下爬蟲程序（pipeline）里面MongoDB的IP即可，或者建議搭建一個MongoDB集群。Redis和MongoDB都是安裝好即可，不需要配置。

將你用來登錄的微博賬號和密碼加入到 cookies.py 文件中，里面已經(jīng)有兩個賬號作為格式參考了。

可以修改scrapy里面setting的設(shè)置，例如間隔時間、日志級別、redis的IP等等。

以上配置完以后運行 Begin.py 即可。重申Master機不需要跑程序，它的功能是利用Redis進行任務(wù)調(diào)度。Slaver機跑爬蟲，新增一臺Slaver機，只需要把python環(huán)境和MongoDB搭建好，然后將代碼復(fù)制過去直接運行就行了。

項目源碼

# encoding=utf-8import jsonimport base64import requests
"""輸入你的微博賬號和密碼，可去淘寶買，一元七個。建議買幾十個，微博反扒的厲害，太頻繁了會出現(xiàn)302轉(zhuǎn)移。或者你也可以把時間間隔調(diào)大點。"""myWeiBo = [    {'no': 'jiadieyuso3319@163.com', 'psw': 'a123456'},    {'no': 'shudieful3618@163.com', 'psw': 'a123456'},]

def getCookies(weibo):    """ 獲取Cookies """    cookies = []    loginURL = r'https://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.15)'    for elem in weibo:        account = elem['no']        password = elem['psw']        username = base64.b64encode(account.encode('utf-8')).decode('utf-8')        postData = {            "entry": "sso",            "gateway": "1",            "from": "null",            "savestate": "30",            "useticket": "0",            "pagerefer": "",            "vsnf": "1",            "su": username,            "service": "sso",            "sp": password,            "sr": "1440*900",            "encoding": "UTF-8",            "cdult": "3",            "domain": "sina.com.cn",            "prelt": "0",            "returntype": "TEXT",        }        session = requests.Session()        r = session.post(loginURL, data=postData)        jsonStr = r.content.decode('gbk')        info = json.loads(jsonStr)        if info["retcode"] == "0":            print "Get Cookie Success!( Account:%s )" % account            cookie = session.cookies.get_dict()            cookies.append(cookie)        else:            print "Failed!( Reason:%s )" % info['reason']    return cookies

cookies = getCookies(myWeiBo)print "Get Cookies Finish!( Num:%d)" % len(cookies)

感謝各位的閱讀，以上就是“Python分布式爬蟲的方法是什么”的內(nèi)容了，經(jīng)過本文的學(xué)習后，相信大家對Python分布式爬蟲的方法是什么這一問題有了更深刻的體會，具體使用情況還需要大家實踐驗證。這里是億速云，小編將為大家推送更多相關(guān)知識點的文章，歡迎關(guān)注！

向AI問一下細節(jié)

推薦閱讀：

免責聲明：本站發(fā)布的內(nèi)容（圖片、視頻和文字）以原創(chuàng)、轉(zhuǎn)載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權(quán)請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關(guān)證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權(quán)內(nèi)容。

上一篇新聞：
如何分析無侵入的微服務(wù)探針原理
下一篇新聞：
如何進行StratoVirt代碼分析

猜你喜歡

AI
助
手

產(chǎn)品服務(wù)

地區(qū)劃分

專題活動

幫助支持

關(guān)于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關(guān)注億速云

億速云公眾號

手機網(wǎng)站二維碼

<table id="mivte"><legend id="mivte"><big id="mivte"></big></legend></table>

<video id="mivte"><th id="mivte"></th></video>