溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

如何解決網(wǎng)站存在抓取的錯誤

發(fā)布時間:2021-10-08 17:07:15 來源:億速云 閱讀:94 作者:iii 欄目:互聯(lián)網(wǎng)科技

本篇內容主要講解“如何解決網(wǎng)站存在抓取的錯誤”,感興趣的朋友不妨來看看。本文介紹的方法操作簡單快捷,實用性強。下面就讓小編來帶大家學習“如何解決網(wǎng)站存在抓取的錯誤”吧!

  不抓取如何會收錄,又怎么有排名?然而就這樣一個明顯的問題,卻有大量的網(wǎng)站將其忽略掉。在A5這里做SEO診斷服務的客戶中,其中“20%”的網(wǎng)站都會存在抓取錯誤,直接嚴重影響到網(wǎng)站的成長效果。今天這篇文章,如果你有幸看到,希望可以閱讀完今天這篇文章,并分享出去,因為真的會很有價值。

  賀貴江:曾經(jīng)診斷過一個千萬級別收錄的站點,但是索引總是被反復的剔除,又反復的收錄,企業(yè)一直找不到問題。可是當我們對網(wǎng)站檢查之初就發(fā)現(xiàn)一個怪的現(xiàn)象了:

如何解決網(wǎng)站存在抓取的錯誤

  1、錯誤的封禁

  在百度的robots.txt的更新上,如果多次點擊“檢測并更新”就會出現(xiàn)時??梢愿拢怯謺r常無法更新的問題。如此一來:不應當被收錄的東西,在robots.txt上禁止的被收錄了,又刪除就很正常了。那么它的問題是什么呢?并非服務器負載過度,而是因為防火墻錯誤的將部分Baiduspider列入了黑名單。

  上面這個例子是robots.txt方面的抓取錯誤,作為站長最少應該每周都檢查更新一下robots.txt是否可以正常更新。之后我們再看下“頁面抓取”方面的錯誤:

  2、服務器異常

  常規(guī)的服務器就不說啦,大家都知道的,北上廣的一般都不錯。不過有一些特殊服務器,想必絕大多數(shù)的站長都不知道吧?例如西部數(shù)碼的“港臺服務器”就很有趣,真的是港臺的嗎?本身機房在國內,還算什么港臺?為了逃避備案而用一個港臺的IP,數(shù)據(jù)全部在國內。

如何解決網(wǎng)站存在抓取的錯誤

  這樣有什么不好呢?我們會發(fā)現(xiàn):站點的服務器是經(jīng)過CDN的,哪怕是你上傳的一張圖片,都會顯示為“302狀態(tài)碼”,訪問速度是提升上去了,可是這樣利于SEO嗎?呵呵噠。真不知道西數(shù)做為國內大型idc服務商是如何想的,利用那些無知嗎?

  3、獲取不到真實IP

  規(guī)模較大的網(wǎng)站,一般都會使用CDN加速,但是有些站點不僅僅對“設備”使用了CDN加速,而且還對Spider使用了加速功能。最后的結果是什么呢?如果CDN節(jié)點不穩(wěn)定,那么對網(wǎng)站spider來講,這個問題將是致命的。

如何解決網(wǎng)站存在抓取的錯誤

  很多大型站點開放CDN的原因就是容易被攻擊,這個時候如果不做“蜘蛛回源”就可想而知了。你的站點做了CDN了嗎?請登錄百度站長平臺查看一下spider是否可以抓取真實IP地址吧!

  4、頻繁的50X類錯誤

如何解決網(wǎng)站存在抓取的錯誤

  這樣的鏈接其中一個共同的特點是:當打開后,全部都是正常的,那么Spider為什么會報錯提醒呢?只是因為在爬蟲發(fā)起抓取的那一刻,httpcode返回了5XX",你的站點是否頻繁有這樣的問題呢?有的話需要立即安排技術,或者通報IDC服務商做解決了!

  5、錯誤的抓取比例

如何解決網(wǎng)站存在抓取的錯誤

  任何網(wǎng)站都做不到100%不出問題,但是萬事有一個度:我們認為,這個比例不超過5%,對網(wǎng)站基本上是無影響的,且這樣的錯誤不應當每天都出現(xiàn)。最常見的抓取錯誤一般都是連接超時:"抓取請求連接建立后,下載頁面速度過慢,導致超時,可能原因服務器過載,帶寬不足"這種情況:

  A:盡量在不影響圖片質量的情況下,對圖片進行壓縮,上傳的時候就進行了壓縮。

  B:減少如JS腳本文件類型的使用,或者進行合并

  C:頁面大小進行控制,尤其是一些瀏覽量、抓取量較高的頁面,不建議超過2MB。

  D:增加網(wǎng)站的帶寬,提升下載速度,或者更換服務器。

到此,相信大家對“如何解決網(wǎng)站存在抓取的錯誤”有了更深的了解,不妨來實際操作一番吧!這里是億速云網(wǎng)站,更多相關內容可以進入相關頻道進行查詢,關注我們,繼續(xù)學習!

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內容(圖片、視頻和文字)以原創(chuàng)、轉載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內容。

AI