溫馨提示×

溫馨提示×

您好,登錄后才能下訂單哦!

密碼登錄×
登錄注冊×
其他方式登錄
點擊 登錄注冊 即表示同意《億速云用戶服務條款》

網(wǎng)站日志中的不完整url或莫名其妙的url抓取的分析

發(fā)布時間:2021-11-04 16:41:09 來源:億速云 閱讀:186 作者:柒染 欄目:建站服務器

本篇文章給大家分享的是有關網(wǎng)站日志中的不完整url或莫名其妙的url抓取的分析,小編覺得挺實用的,因此分享給大家學習,希望大家閱讀完這篇文章后可以有所收獲,話不多說,跟著小編一起來看看吧。

在分析日志的過程中,往往會發(fā)現(xiàn)404狀態(tài)下有一些或者很多的不完整的url或者比原url多出字段的莫名其妙的網(wǎng)站本身不存在的url的抓取。在群里面也見有人問過類似的情況,覺得這是一個大家普遍都會遇見的問題,有猜測過有可能是被別人采集才導致這樣的問題出現(xiàn),在上課的時候問過國平老大,當時國平老大說有可能是爬蟲在抓取url的時候下載不完整,但是這都沒有一個具體的數(shù)據(jù)來支撐,總是覺得很朦朧沒把握。

現(xiàn)在,google管理員工具可以很清晰的用數(shù)據(jù)為你揭曉這其中的詫異了,google管理員工具是國平老大非常推崇的一個seo工具,有人覺得做百度的人不需要google的東西,因為百度和google的算法有差別,那下面介紹google管理員的這個功能可以告訴你這樣的想法是大錯特錯的,管理員工具是一個按照網(wǎng)站seo各項考核標準制定的一個最最權威的seo工具,做seo需要的數(shù)據(jù),絕大部分都可以從這里面獲取,下面就來介紹管理員工具的這個功能(好像是最近更新的,以前不是這樣子)。

首頁看下百度日志里面的怪異404

網(wǎng)站日志中的不完整url或莫名其妙的url抓取的分析

這些url的入口在哪里呢?搜索引擎是從什么地方獲取這些url的?

Google告訴你

首先介紹下google管理員工具關于抓取錯誤的功能

網(wǎng)站日志中的不完整url或莫名其妙的url抓取的分析

下面是另一個網(wǎng)站由于改版問題沒做跳轉(zhuǎn)和抓取攔截所造成的找不到抓取錯誤,有一很完整的曲線可以讓你很清晰的看見網(wǎng)站存在的這方面的問題的變化趨勢

網(wǎng)站日志中的不完整url或莫名其妙的url抓取的分析

服務器問題造成的抓取錯誤

網(wǎng)站日志中的不完整url或莫名其妙的url抓取的分析

接第一張圖(同一個網(wǎng)站)

一開始從日志中觀察到這些錯誤,但是不知道這些錯誤的來源

網(wǎng)站日志中的不完整url或莫名其妙的url抓取的分析

現(xiàn)在可以知道這些錯誤的url是從何而來

點擊第102條,彈出下面的框,url不在sitemap中,但是在自己的其他網(wǎng)站里面出現(xiàn),說明網(wǎng)址是網(wǎng)站自身存在的但是已經(jīng)被刪除了

網(wǎng)站日志中的不完整url或莫名其妙的url抓取的分析

點擊第110條,彈出下面的框,可以看到搜索引擎是從其他網(wǎng)站過來的(或是采集站,或是其他)

網(wǎng)站日志中的不完整url或莫名其妙的url抓取的分析

點擊進入具體的來源頁面可以看到

至此,可以很明確的知道,到底網(wǎng)站日志里面的出現(xiàn)的那些莫名其妙的url到底是怎么回事了,是自己站內(nèi)存在的還是站外錯誤構(gòu)成的。

以上就是網(wǎng)站日志中的不完整url或莫名其妙的url抓取的分析,小編相信有部分知識點可能是我們?nèi)粘9ぷ鲿姷交蛴玫降?。希望你能通過這篇文章學到更多知識。更多詳情敬請關注億速云行業(yè)資訊頻道。

向AI問一下細節(jié)

免責聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,如果涉及侵權請聯(lián)系站長郵箱:is@yisu.com進行舉報,并提供相關證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權內(nèi)容。

AI