您好,登錄后才能下訂單哦!
前幾天小編帶大家學(xué)會(huì)了如何在Scrapy框架下創(chuàng)建屬于自己的第一個(gè)爬蟲項(xiàng)目(上),今天我們進(jìn)一步深入的了解Scrapy爬蟲項(xiàng)目創(chuàng)建,這里以伯樂在線網(wǎng)站的所有文章頁為例進(jìn)行說明。
在我們創(chuàng)建好Scrapy爬蟲項(xiàng)目之后,會(huì)得到上圖中的提示,大意是讓我們直接根據(jù)模板進(jìn)行創(chuàng)建Scrapy項(xiàng)目。根據(jù)提示,我們首先運(yùn)行“cd article”命令,意思是打開或者進(jìn)入到article文件夾下,爾后執(zhí)行命令“scrapy genspider jobbole blog.jobbole.com”,代表通過Scrapy中自帶的basic模板進(jìn)行創(chuàng)建Scrapy項(xiàng)目,如下圖所示。
根據(jù)提示,該模板創(chuàng)建的位置為article.spiders.jobbole,此時(shí)再次輸入tree /f命令可以查看到除了之前創(chuàng)建Scrapy爬蟲項(xiàng)目的基礎(chǔ)文件之外,在spiders文件夾下確實(shí)是多了一個(gè)jobbole.py文件,如下圖所示。
當(dāng)然了,爬蟲模板不一定非得用Scrapy爬蟲項(xiàng)目自帶的模板,也可以自定義的進(jìn)行創(chuàng)建,但是基本上Scrapy提供的模板是足夠使用的了。
接下來,將整個(gè)爬蟲項(xiàng)目導(dǎo)入到Pycharm中去,點(diǎn)擊左上方“file”à“open”,找到爬蟲項(xiàng)目創(chuàng)建的文件夾,點(diǎn)擊確認(rèn)即可。
如果在Pycharm中的spiders文件夾下看不到jobbole.py這個(gè)文件的話,則先選中spiders文件夾,爾后右鍵,點(diǎn)擊“Synchronize spider”,代表與spiders文件夾進(jìn)行同步的意思,爾后便可以看到jobbole.py就會(huì)被加載出來。
點(diǎn)擊jobbole.py文件進(jìn)行查看內(nèi)容,如下圖所示??梢钥吹皆撐募呀?jīng)默認(rèn)的填充了部分Python代碼,其實(shí)是從源模板中進(jìn)行復(fù)制創(chuàng)建的。
可以看到該文件中有當(dāng)前Scrapy爬蟲項(xiàng)目的名字name,Scrapy爬蟲項(xiàng)目所允許的域名范圍allowed_domains,以及Scrapy爬蟲項(xiàng)目的起始URL,即start_urls。
接下來最后檢查一下該項(xiàng)目的Python解釋器,點(diǎn)擊Pycharm的setting,然后輸入“interpreter”,找到解釋器所在的位置,如下圖所示。
如果“Project Interpreter”顯示出來的解釋器不是當(dāng)前項(xiàng)目下的虛擬環(huán)境,則點(diǎn)擊“Project Interpreter”的右側(cè)的設(shè)置按鈕,如下圖所示。
然后點(diǎn)擊“Add local”,如下圖所示。
找到該項(xiàng)目對應(yīng)的虛擬環(huán)境Python解釋器,進(jìn)行添加即可,如下圖所示。
至此,Scrapy爬蟲虛擬環(huán)境創(chuàng)建、Scrapy爬蟲項(xiàng)目的創(chuàng)建以及Scrapy爬蟲項(xiàng)目導(dǎo)入到Pycharm中以及解釋器的配置已經(jīng)完成,接下來我們要開始寫入爬蟲邏輯,以及數(shù)據(jù)提取等,敬請期待~~
對爬蟲感興趣的小伙伴,歡迎來Github:https://github.com/cassieeric,喜歡的話記得給個(gè)star噢~~
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。