溫馨提示×

溫馨提示×

您好，登錄后才能下訂單哦！

密碼登錄×

忘記密碼？

登錄注冊×

獲取短信驗證碼

其他方式登錄

點擊登錄注冊即表示同意《億速云用戶服務條款》

用戶登錄×

賬戶密碼登錄

請使用微信掃描上方二維碼

使用幫助

請求超時！

請點擊重新獲取二維碼

python爬蟲怎么分布式獲取數(shù)據(jù)

發(fā)布時間：2020-11-30 10:20:29 來源：億速云閱讀：217 作者：小新欄目：編程語言

這篇文章主要介紹python爬蟲怎么分布式獲取數(shù)據(jù)，文中介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們一定要看完！

假設我有三臺爬蟲服務器A、B和C。我想讓我所有的賬號登錄任務分散到三臺服務器、讓用戶抓取在A和B上執(zhí)行，讓粉絲和關注抓取在C上執(zhí)行，那么啟動A、B、C三個服務器的celery worker的命令就分別是

celery -A tasks.workers -Q login_queue,user_crawler worker -l info -c 1 # A服務器和B服務器啟動worker的命令，它們只會執(zhí)行登錄和用戶信息抓取任務。

celery -A tasks.workers -Q login_queue,fans_followers worker -l info -c 1 # C服務器啟動worker的命令，它只會執(zhí)行登錄、粉絲和關注抓取任務。

然后我們通過命令行或者代碼（如下）就能發(fā)送所有任務給各個節(jié)點執(zhí)行了

# coding:utf-8
from tasks.workers import app
from page_get import user as user_get
from db.seed_ids import get_seed_ids, get_seed_by_id, insert_seeds, set_seed_other_crawled
 
@app.task(ignore_result=True)
def crawl_follower_fans(uid):
    seed = get_seed_by_id(uid)
    if seed.other_crawled == 0:
        rs = user_get.get_fans_or_followers_ids(uid, 1)
        rs.extend(user_get.get_fans_or_followers_ids(uid, 2))
        datas = set(rs)
        # 重復數(shù)據(jù)跳過插入
        if datas:
            insert_seeds(datas)
        set_seed_other_crawled(uid)
@app.task(ignore_result=True)
def crawl_person_infos(uid):
    """
    根據(jù)用戶id來爬取用戶相關資料和用戶的關注數(shù)和粉絲數(shù)（由于微博服務端限制，默認爬取前五頁，企業(yè)號的關注和粉絲也不能查看）
    :param uid: 用戶id
    :return:
    """
    if not uid:
        return
 
    # 由于與別的任務共享數(shù)據(jù)表，所以需要先判斷數(shù)據(jù)庫是否有該用戶信息，再進行抓取
    user = user_get.get_profile(uid)
    # 不抓取企業(yè)號
    if user.verify_type == 2:
        set_seed_other_crawled(uid)
        return
    app.send_task('tasks.user.crawl_follower_fans', args=(uid,), queue='fans_followers',
                  routing_key='for_fans_followers')
 
 
@app.task(ignore_result=True)
def excute_user_task():
    seeds = get_seed_ids()
    if seeds:
        for seed in seeds:
            # 在send_task的時候指定任務隊列
            app.send_task('tasks.user.crawl_person_infos', args=(seed.uid,), queue='user_crawler',
                          routing_key='for_user_info')

以上是“python爬蟲怎么分布式獲取數(shù)據(jù)”這篇文章的所有內容，感謝各位的閱讀！希望分享的內容對大家有幫助，更多相關知識，歡迎關注億速云行業(yè)資訊頻道！

向AI問一下細節(jié)

推薦閱讀：

免責聲明：本站發(fā)布的內容（圖片、視頻和文字）以原創(chuàng)、轉載和分享為主，文章觀點不代表本網(wǎng)站立場，如果涉及侵權請聯(lián)系站長郵箱：is@yisu.com進行舉報，并提供相關證據(jù)，一經(jīng)查實，將立刻刪除涉嫌侵權內容。

上一篇新聞：
python中的分布式爬蟲指的是什么
下一篇新聞：
rpop方法怎么在python分布式爬蟲中使用

猜你喜歡

AI
助
手

產(chǎn)品服務

地區(qū)劃分

專題活動

幫助支持

關于我們

售后咨詢

7*24小時在線電話：400-100-2938

7*24小時在線 QQ：800811969

關注億速云

億速云公眾號

手機網(wǎng)站二維碼

<thead id="tvilw"></thead>

<source id="tvilw"></source>