您好,登錄后才能下訂單哦!
由于這個例子比較簡單,所以這里我就省略掉分析請求的步驟了,直接來分析一下瀏覽器看到的效果與源碼分別長什么樣,找找有沒有什么突破口吧。
這是瀏覽器看到的效果:
可以在源碼中看到部分內容被
<span class="context_kwx"></span>
替換。
打開瀏覽器的
開發(fā)者模式
,看看隱藏的文字是什么樣子的:
cdn.nlark.com/yuque/0/2020/webp/1313084/1589287177467-0a19a791-7fd1-4fc8-9664-92c0faf93a5b.webp">
第二個是下圖中在返回時的判斷語句,同樣是對 Node 中不存在的屬性進行判斷,所以也需要在這里進行相應的修改。
第二個修改點可以像這樣改:
以上兩點修改完后就可以獲取到所有被替換過的字符了,接下來只需要把它們替換進 HTML 里就可以還原出正常的頁面。替換的步驟這里就不再演示了,因為非常簡單,一看就會。當然反爬蟲有很多的方法,這個只是其中一個,所以只是大概的講述了下。但是不管使用什么方式采集數據都是一個長期的過程,所以需要配合代理才能更好的獲取數據,而億牛云提供的爬蟲代理就能更好的助力我們進行數據采集,尤其是加強版,效果會更好。
免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據,一經查實,將立刻刪除涉嫌侵權內容。