您好,登錄后才能下訂單哦!
這篇文章主要介紹了Python爬蟲中如何使用scrapy框架爬取某招聘網存入mongodb,具有一定借鑒價值,感興趣的朋友可以參考下,希望大家閱讀完這篇文章之后大有收獲,下面讓小編帶著大家一起了解一下。
創(chuàng)建項目
scrapy startproject zhaoping
創(chuàng)建爬蟲
cd zhaoping scrapy genspider hr zhaopingwang.com
目錄結構
items.py
title = scrapy.Field() position = scrapy.Field() publish_date = scrapy.Field()
pipelines.py
from pymongo import MongoClient mongoclient = MongoClient(host='192.168.226.150',port=27017) collection = mongoclient['zhaoping']['hr'] class TencentPipeline(object): def process_item(self, item, spider): print(item) # 需要轉換為 dict collection.insert(dict(item)) return item
spiders/hr.py
def parse(self, response): # 不要第一個 和最后一個 tr_list = response.xpath("//table[@class='tablelist']/tr")[1:-1] for tr in tr_list: item = TencentItem() # xpath 從1 開始數(shù)起 item["title"] = tr.xpath("./td[1]/a/text()").extract_first() item["position"] = tr.xpath("./td[2]/text()").extract_first() item["publish_date"] = tr.xpath("./td[5]/text()").extract_first() yield item next_url = response.xpath("//a[@id='next']/@href").extract_first() # 構造url if next_url != "javascript:;": print(next_url) next_url = "https://hr.tencent.com/" + next_url yield scrapy.Request(url=next_url,callback=self.parse,)
就是這么簡單,就獲取到數(shù)據(jù)
感謝你能夠認真閱讀完這篇文章,希望小編分享的“Python爬蟲中如何使用scrapy框架爬取某招聘網存入mongodb”這篇文章對大家有幫助,同時也希望大家多多支持億速云,關注億速云行業(yè)資訊頻道,更多相關知識等著你來學習!
免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經查實,將立刻刪除涉嫌侵權內容。