溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點(diǎn)擊 登錄注冊 即表示同意《億速云用戶服務(wù)條款》

Spyfari怎么用

發(fā)布時(shí)間:2022-01-13 15:18:55 來源:億速云 閱讀:112 作者:小新 欄目:大數(shù)據(jù)

這篇文章給大家分享的是有關(guān)Spyfari怎么用的內(nèi)容。小編覺得挺實(shí)用的,因此分享給大家做個(gè)參考,一起跟隨小編過來看看吧。

Spyfari

用javascrip編寫爬蟲規(guī)則,

可視化的爬蟲軟件。


我拿它,對著名的p站爬取了一些數(shù)據(jù),

Spyfari怎么用

在這里我們先回顧下爬蟲爬取數(shù)據(jù)的步驟:

1、通過瀏覽器查看網(wǎng)站結(jié)構(gòu),提取出需要獲取數(shù)據(jù)所在的標(biāo)簽,這里跟各種element的節(jié)點(diǎn)打交道,需要解釋網(wǎng)頁標(biāo)簽,用到類選擇、id選擇、父節(jié)點(diǎn)、子節(jié)點(diǎn)、正則表達(dá)式等等。如果是用python有相應(yīng)的庫,比如BeautifulSoup;


2、處理自動(dòng)登錄,驗(yàn)證碼等。


3、獲取到數(shù)據(jù),或者url,數(shù)據(jù)存入本地或者數(shù)據(jù)庫


4、根據(jù)url再次爬取其他數(shù)據(jù),或者根據(jù)url下載文件(包括圖片、視頻、文本、網(wǎng)頁等等)。

大致是這么個(gè)過程。

有2個(gè)事情比較頭疼:

1、注冊登錄賬號才能訪問

2、各種驗(yàn)證碼

登錄的話獲取登錄后的cookie,以后每次爬取的時(shí)候,模擬即可。

但是驗(yàn)證碼的話,如果碰到變態(tài)的驗(yàn)證碼,就哭吧。。。

像下面這種:

Spyfari怎么用
反正我是沒辦法攻破。。

不過用上Spyfari,人工點(diǎn)擊下,這是很容易的事。

下次再登錄,登錄狀態(tài)已經(jīng)保存了,哈。

除非每一步都要驗(yàn)證碼,這種情況不太可能發(fā)生吧,畢竟?fàn)奚擞脩趔w驗(yàn)哈。

這就是可視化的優(yōu)點(diǎn),各種網(wǎng)站都可以爬取。

我今天先把p站的各個(gè)排行榜上的信息爬下來了,還下了圖片~

喜歡二次元的朋友應(yīng)該會(huì)喜歡看吧~~

Spyfari怎么用

Spyfari怎么用

Spyfari怎么用

p站的一些排行榜,我都保存為一個(gè)個(gè)的json文件了,每天都更新排名,看來可以定時(shí)去爬取了。

Spyfari怎么用

上面那個(gè)pixivRank.js是爬取的代碼,我會(huì)打包進(jìn)spyfari里的,作為例子。

初次接觸可以直接在spyfari里打開,運(yùn)行下,體驗(yàn)下爬取數(shù)據(jù)的樂趣。

下面是我爬取的數(shù)據(jù)存放的格式:

Spyfari怎么用

主要爬取了名次、作者、圖片url、還有投稿日期;

這個(gè)頁面是異步加載的,需要不斷的滑動(dòng)到頁面最底端才能獲取得到數(shù)據(jù),但是對于spyfari來說,這個(gè)還算是很容易的,畢竟是可視化的爬蟲工具,哈,可以做到完全模擬人工操作,過程還是可見的。

其中,投稿日期是異步獲取的,需要模擬鼠標(biāo)點(diǎn)擊,然后獲取數(shù)據(jù)。

Spyfari處理異步加載的內(nèi)容很容易。

這是今天修完Spyfari的一些bug之后,測試代碼下載的圖片。

Spyfari怎么用


下面看看工作頁面吧~

Spyfari怎么用

最上面一欄是:

定時(shí)任務(wù)、云端代碼共享、操作指引、關(guān)閉spyfari。

都還沒有進(jìn)一步開發(fā),待我下禮拜繼續(xù)完善。

接下來是:

1、需要爬取數(shù)據(jù)的網(wǎng)址控制,調(diào)用的是我精簡的chrome瀏覽器,畢竟爬取數(shù)據(jù)第一步是分析網(wǎng)頁結(jié)構(gòu)啊,要方便的調(diào)試代碼,還要方便定位標(biāo)簽。

2、編寫爬取代碼的地方,我集成了一個(gè)編輯器。簡單好用,在右側(cè)瀏覽器調(diào)試好代碼,直接拷過來,保存在本地或者打開本地已有的爬取代碼。

代碼編寫完后,直接點(diǎn)擊運(yùn)行按鈕。

Spyfari怎么用

愉快的工作起來了,右邊還可以實(shí)時(shí)看到運(yùn)行的情況,包括一些模擬登錄啊,模擬鼠標(biāo)點(diǎn)擊、滑動(dòng)動(dòng)作啊~一目了然。

3、是一些爬取的結(jié)果輸出,還有l(wèi)og的輸出,我整合了一些api,方便使用。

如果有下載動(dòng)作,比如下載圖片,也會(huì)自動(dòng)得打印出來。后續(xù)會(huì)再完善進(jìn)度提示的功能。

Spyfari怎么用
下面這張圖是下載的信息輸出:

Spyfari怎么用

感謝各位的閱讀!關(guān)于“Spyfari怎么用”這篇文章就分享到這里了,希望以上內(nèi)容可以對大家有一定的幫助,讓大家可以學(xué)到更多知識,如果覺得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!

向AI問一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,如果涉及侵權(quán)請聯(lián)系站長郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI