溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊(cè)×
其他方式登錄
點(diǎn)擊 登錄注冊(cè) 即表示同意《億速云用戶服務(wù)條款》

怎么解決爬蟲(chóng)數(shù)據(jù)異步加載的問(wèn)題

發(fā)布時(shí)間:2021-09-08 09:10:16 來(lái)源:億速云 閱讀:253 作者:chen 欄目:編程語(yǔ)言

本篇內(nèi)容介紹了“怎么解決爬蟲(chóng)數(shù)據(jù)異步加載的問(wèn)題”的有關(guān)知識(shí),在實(shí)際案例的操作過(guò)程中,不少人都會(huì)遇到這樣的困境,接下來(lái)就讓小編帶領(lǐng)大家學(xué)習(xí)一下如何處理這些情況吧!希望大家仔細(xì)閱讀,能夠?qū)W有所成!

1、內(nèi)置一個(gè)瀏覽器內(nèi)核:內(nèi)置瀏覽器是指在抓取程序中啟動(dòng)瀏覽器核心,以便在js渲染后獲得頁(yè)面,這就像收集靜態(tài)頁(yè)面一樣。

這種工具常用的有以下三種:Selenium、HtmlUnit、PhantomJs

這些工具可以幫助我們解決數(shù)據(jù)異步加載的問(wèn)題,但都有效率低、不穩(wěn)定的缺點(diǎn)。

2、反向解析法。

js呈現(xiàn)頁(yè)面的數(shù)據(jù)是以Ajax的方式從后端獲取的,我們只需要找到相應(yīng)的Ajax請(qǐng)求連接,以便獲取所需的數(shù)據(jù)。反向分析的優(yōu)點(diǎn)之一是獲取的數(shù)據(jù)都是json格式,分析方便;第二,相對(duì)于頁(yè)面,界面變化的概率更小。

再一次強(qiáng)調(diào),Ajax也有兩個(gè)缺點(diǎn),在Ajax中,您需要耐心和技巧,因?yàn)槟枰谝淮蠖颜?qǐng)求中找到您想要的;對(duì)于JavaScript呈現(xiàn)的頁(yè)面,反向解析方法只能束手無(wú)策。

以上是異步數(shù)據(jù)加載的兩種解決方案,必須根據(jù)情況進(jìn)行選擇。內(nèi)置瀏覽器對(duì)某些使用JavaScript片段呈現(xiàn)的頁(yè)面會(huì)更可靠。對(duì)其它情況而言,采用反向解析法更好,因?yàn)槠湫阅芎头€(wěn)定性都比內(nèi)置瀏覽器內(nèi)核更可靠。

爬蟲(chóng)遇上數(shù)據(jù)異步加載,試試這兩種辦法如今許多項(xiàng)目都是前端和后端分開(kāi)的,這將使數(shù)據(jù)異步加載問(wèn)題更加突出。

“怎么解決爬蟲(chóng)數(shù)據(jù)異步加載的問(wèn)題”的內(nèi)容就介紹到這里了,感謝大家的閱讀。如果想了解更多行業(yè)相關(guān)的知識(shí)可以關(guān)注億速云網(wǎng)站,小編將為大家輸出更多高質(zhì)量的實(shí)用文章!

向AI問(wèn)一下細(xì)節(jié)

免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如果涉及侵權(quán)請(qǐng)聯(lián)系站長(zhǎng)郵箱:is@yisu.com進(jìn)行舉報(bào),并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。

AI