溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

如何使用運(yùn)營小白必會的爬蟲工具

發(fā)布時(shí)間:2020-08-05 14:18:57 來源:億速云 閱讀:173 作者:Leah 欄目:編程語言

如何使用運(yùn)營小白必會的爬蟲工具?很多新手對此不是很清楚,為了幫助大家解決這個(gè)難題,下面小編將為大家詳細(xì)講解,有這方面需求的人可以來學(xué)習(xí)下,希望你能有所收獲。

第一步:下載 Web Scraper

Web ScraperChrome瀏覽器上的?個(gè)插件,你需要翻墻進(jìn)?Chrome應(yīng)?商店,下載Web Scraper插件。

第二步:打開Web Scraper

如何使用運(yùn)營小白必會的爬蟲工具

先打開?個(gè)你想爬數(shù)據(jù)的?頁,?如我想爬今?頭條上「吳曉波頻道」這個(gè)賬戶的?章標(biāo)題、時(shí)間、 評論數(shù),那我就先打開它,再??進(jìn)?操作。然后?快捷鍵 Ctrl + Shift + I / F12 打開 Web Scraper。

第三步:新建?個(gè) Sitemap

點(diǎn)擊Create New Sitemap,??有兩個(gè)選項(xiàng),import sitemap是指導(dǎo)??個(gè)現(xiàn)成的sitemap,運(yùn)營???般沒有現(xiàn)成的,所以?般不選這個(gè),選create sitemap就好。然后進(jìn)?這兩個(gè)操作:

如何使用運(yùn)營小白必會的爬蟲工具

Sitemap Name:代表你這個(gè)Sitemap是適?于哪?個(gè)?頁的,所以你可以根據(jù)?頁來?命名,不過需要使?英?字母,?如我抓的是今?頭條的數(shù)據(jù),那我就?toutiao來命名;Sitemap URL:把?頁鏈接復(fù)制到Star URL這?欄,?如圖??我把「吳曉波頻道」的主頁鏈接復(fù)制到了這?欄。

第四步:設(shè)置這個(gè)Sitemap

如何使用運(yùn)營小白必會的爬蟲工具

整個(gè)Web Scraper的抓取邏輯是這樣:設(shè)置?級Selector,選定定抓取范圍;在?級Selector 下設(shè)置?級Selector,選定抓取字段,然后抓取。

再舉個(gè)例?,假如你要獲取福建?的姓名、性別和年齡這三個(gè)要素,那么你得這么做:?先要定位到福建省,然后再在福建省??去定位姓名、性別、年齡。在這?,?級Selector表?你要在中國這個(gè)?的國家圈出福建省,?級Selector 表?你要在福建省的??中圈定姓名、性別、年齡這三個(gè)要素。對于?章??,?級Selector就是你要把這?塊?章的要素圈出來,這個(gè)要素可能包含了標(biāo)題、作者、發(fā)布時(shí)間、評論數(shù)等等,然后我們再在?級Selector 中挑出我們要的要素,?如標(biāo)題、作者、閱讀數(shù)。

1)點(diǎn)擊Add new selector創(chuàng)建?級Selector,按照以下步驟操作:

 a.輸?id id代表你抓取的整個(gè)范圍,?如這?是?章,我們可以命名為 126 wuxiaobo-articles;

b.選擇 Type type 代表你抓取的這部分的類型,?如元素/?本/鏈接,因?yàn)檫@個(gè)是整個(gè)?章要素范圍選取,我們需要?Element來先整體選?。ㄈ绻@個(gè)?頁需要滑動(dòng)加載更多,那就選Element Scroll Down);

c.勾選Multiple :勾選 Multiple 前?的?框,因?yàn)槟阋x的是多個(gè)元素?不是單個(gè)元素,當(dāng)我們勾選的時(shí)候,爬?插件會幫助我們識別多篇同類的?章;

d.保留設(shè)置:其余未提及部分保留默認(rèn)設(shè)置。

2)點(diǎn)擊select選擇范圍,按照以下步驟操作:

a.選擇范圍:??標(biāo)選擇你要爬取數(shù)據(jù)的范圍,綠?是待選區(qū)域,??標(biāo)點(diǎn)擊后變?yōu)榧t?,才是選中了這塊區(qū)域;

b.多選:不要只選?個(gè),下?的也要選,否則爬出來的數(shù)據(jù)也只有??;

c.完成選擇: 記得點(diǎn)Done Selecting;

d.保存:點(diǎn)擊Save Selector。

3)設(shè)置好了這個(gè)?級的Selector之后,點(diǎn)進(jìn)去設(shè)置?級的Selector,按照以下步驟操作:

a.新建Selector:點(diǎn)擊Add new selector

b.輸?id id代表你抓取的是哪個(gè)字段,所以可以取該字段的英?,?如我要選「作者」,我就寫「writer」;

c.選擇Type:選Text ,因?yàn)槟阋ト〉氖?本;

d.勿勾選Multiple:不要勾選Multiple前?的?框,因?yàn)槲覀冊谶@?要抓取的是單個(gè)元素; 保留設(shè)置:其余未提及部分保留默認(rèn)設(shè)置。

4)點(diǎn)擊select,再點(diǎn)擊你要爬取的字段,按照以下步驟作:

a.選擇字段:這?爬取的字段是單個(gè)的,??標(biāo)點(diǎn)擊該字段即可選定,?如要爬標(biāo)題,那就??標(biāo)點(diǎn)擊某篇?章的標(biāo)題,當(dāng)字段所在區(qū)域變紅即為選中;

c.完成選擇:記得點(diǎn) Done Selecting ;

d.保存:點(diǎn)擊 Save Selector 。

5)重復(fù)以上操作,指導(dǎo)選完你想爬去的字段。

第五步:爬取數(shù)據(jù)

之所以說Web Scraper是運(yùn)營小白必會的爬??具,就是因?yàn)橹恍枰O(shè)置完所有的Selector,就可以開始爬數(shù)據(jù)了,怎么樣是不是很簡單?那么怎么開始爬數(shù)據(jù)呢?只需要?個(gè)簡單的操作:點(diǎn)擊 Scrape ,然后點(diǎn) Start Scraping , 會彈出?個(gè)?窗,然后?勤的?爬?就開始?作了。你會得到?個(gè)列表,上?有你想要的所有數(shù)據(jù)。

看完上述內(nèi)容是否對您有幫助呢?如果還想對相關(guān)知識有進(jìn)一步的了解或閱讀更多相關(guān)文章,請關(guān)注億速云行業(yè)資訊頻道,感謝您對億速云的支持。

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI