網(wǎng)站優(yōu)化中如何盡量減少無效URL的爬行和索引

發(fā)布時(shí)間：2021-07-27 09:09:48 來源：億速云閱讀：253 作者：chen 欄目：互聯(lián)網(wǎng)科技

這篇文章主要介紹“網(wǎng)站優(yōu)化中如何盡量減少無效URL的爬行和索引”，在日常操作中，相信很多人在網(wǎng)站優(yōu)化中如何盡量減少無效URL的爬行和索引問題上存在疑惑，小編查閱了各式資料，整理出簡單好用的操作方法，希望對(duì)大家解答”網(wǎng)站優(yōu)化中如何盡量減少無效URL的爬行和索引”的疑惑有所幫助！接下來，請(qǐng)跟著小編一起來學(xué)習(xí)吧！

簡單說，帖子指出一個(gè)嚴(yán)重而且現(xiàn)實(shí)的SEO問題：很多網(wǎng)站，尤其是B2C，產(chǎn)品條件過濾系統(tǒng)（如選擇產(chǎn)品的品牌、價(jià)格、尺寸、性能、參數(shù)等）會(huì)產(chǎn)生大量無效URL，之所以稱為無效只是從SEO角度看的，這些URL并不能產(chǎn)生SEO作用，反倒有負(fù)面作用，所以這些URL不收錄為好，原因包括：

大量過濾條件頁面內(nèi)容重復(fù)或極為類似（大量復(fù)制內(nèi)容將使網(wǎng)站整體質(zhì)量下降）
大量過濾條件頁面沒有對(duì)應(yīng)產(chǎn)品，頁面無內(nèi)容（如選擇“100元以下42寸LED電視”之類的）
絕大部分過濾條件頁面沒有排名能力（排名能力比分類頁面低得多）卻浪費(fèi)一定權(quán)重
這些過濾條件頁面也不是產(chǎn)品頁面收錄的必要通道（產(chǎn)品頁面應(yīng)該有其它內(nèi)鏈幫助爬行和收錄）
爬行大量過濾條件頁面極大浪費(fèi)蜘蛛爬行時(shí)間，造成有用頁面收錄機(jī)會(huì)下降（過濾條件頁面組合起來是巨量的）
簡單說，帖子指出一個(gè)嚴(yán)重而且現(xiàn)實(shí)的SEO問題：很多網(wǎng)站，尤其是B2C，產(chǎn)品條件過濾系統(tǒng)（如選擇產(chǎn)品的品牌、價(jià)格、尺寸、性能、參數(shù)等）會(huì)產(chǎn)生大量無效URL，之所以稱為無效只是從SEO角度看的，這些URL并不能產(chǎn)生SEO作用，反倒有負(fù)面作用，所以這些URL不收錄為好，原因包括：

大量過濾條件頁面內(nèi)容重復(fù)或極為類似（大量復(fù)制內(nèi)容將使網(wǎng)站整體質(zhì)量下降）
大量過濾條件頁面沒有對(duì)應(yīng)產(chǎn)品，頁面無內(nèi)容（如選擇“100元以下42寸LED電視”之類的）
絕大部分過濾條件頁面沒有排名能力（排名能力比分類頁面低得多）卻浪費(fèi)一定權(quán)重
這些過濾條件頁面也不是產(chǎn)品頁面收錄的必要通道（產(chǎn)品頁面應(yīng)該有其它內(nèi)鏈幫助爬行和收錄）
爬行大量過濾條件頁面極大浪費(fèi)蜘蛛爬行時(shí)間，造成有用頁面收錄機(jī)會(huì)下降（過濾條件頁面組合起來是巨量的）
那么怎樣盡量使這些URL不被爬行和索引、收錄呢？不過可惜，我目前想不出完美的解決方法。提出兩個(gè)方法，我覺得都無法完美解決。

第一個(gè)方法，是將不想收錄的URL保持為動(dòng)態(tài)URL，甚至故意越動(dòng)態(tài)越好，以阻止被爬行和收錄。但是，搜索引擎現(xiàn)在都能爬行、收錄動(dòng)態(tài)URL，而且技術(shù)上越來越不是問題。雖然參數(shù)多到一定程度確實(shí)不利于收錄，但4、5個(gè)參數(shù)通常還可以收錄。我們無法確認(rèn)需要多少參數(shù)才能阻止收錄，所以不能當(dāng)作一個(gè)可靠的方法。而且這些URL接收內(nèi)鏈，又沒有什么排名能力，還是會(huì)浪費(fèi)一定權(quán)重。

第二個(gè)方法，robots禁止收錄。同樣，URL接收了內(nèi)鏈也就接收了權(quán)重，robots文件禁止爬行這些URL，所以接收的權(quán)重不能傳遞出去（搜索引擎不爬行就不知道有什么導(dǎo)出鏈接），頁面成為權(quán)重只進(jìn)不出的黑洞。

連向這些URL的鏈接配合nofollow也不完美，和robots禁止類似，nofollow在Google的效果是這些URL沒有接收權(quán)重，權(quán)重卻也沒有被分配到其它鏈接上，所以權(quán)重同樣浪費(fèi)了。百度據(jù)稱支持nofollow，但權(quán)重怎么處理未知。

將這些URL鏈接放在Flash、JS里也沒有用，搜索引擎已經(jīng)可以爬行Flash、JS里的鏈接，而且估計(jì)以后越來越擅長爬。很多SEO忽略了的一點(diǎn)是，JS中的鏈接不僅能被爬，也能傳遞權(quán)重，和正常連接一樣。

也可以將過濾條件鏈接做成AJAX形式，用戶點(diǎn)擊后不會(huì)訪問一個(gè)新的URL，還是在原來URL上，URL后面加了#，不會(huì)被當(dāng)成不同URL。和JS問題一樣，搜索引擎正在積極嘗試爬行、抓取AJAX里的內(nèi)容，這個(gè)方法也不保險(xiǎn)。

還一個(gè)方法是在頁面head部分加noindex+follow標(biāo)簽，意即本頁面不要索引，但跟蹤頁面上的鏈接。這樣可以解決復(fù)制內(nèi)容問題，也解決了權(quán)重黑洞問題（權(quán)重是可以隨著導(dǎo)出鏈接傳到其它頁面的），不能解決的是浪費(fèi)蜘蛛爬行時(shí)間問題，這些頁面還是要被蜘蛛爬行抓取的（然后才能看到頁面html里的noindex+follow標(biāo)簽），對(duì)某些網(wǎng)站來說，過濾頁面數(shù)量巨大，爬行了這些頁面，蜘蛛就沒足夠時(shí)間爬有用頁面了。

再一個(gè)可以考慮的方法是隱藏頁面（cloaking），也就是用程序檢測訪問者，是搜索引擎蜘蛛的話返回的頁面拿掉這些過濾條件鏈接，是用戶的話才返回正常的有過濾條件的頁面。這是一個(gè)比較理想的解決方法，唯一的問題是，可能被當(dāng)作作弊。搜索引擎常跟SEO講的判斷是否作弊的最高原則是：如果沒有搜索引擎，你會(huì)不會(huì)這么做？或者說，某種方法是否只是為了搜索引擎而采用？顯然，用cloaking隱藏不想被爬行的URL是為搜索引擎做的，不是為用戶做的。雖然這種情況下的cloaking目的是美好的，沒有惡意的，但風(fēng)險(xiǎn)是存在的，膽大的可試用。

還一個(gè)方法是使用canonical標(biāo)簽，最大問題是百度是否支持未知，而且canonical標(biāo)簽是對(duì)搜索引擎的建議，不是指令，也就是說這個(gè)標(biāo)簽搜索引擎可能不遵守，等于沒用。另外，canonical標(biāo)簽的本意是指定規(guī)范化網(wǎng)址，過濾條件頁面是否適用有些存疑，畢竟，這些頁面上的內(nèi)容經(jīng)常是不同的。

目前比較好的方法之一是iframe+robots禁止。將過濾部分代碼放進(jìn)iframe，等于調(diào)用其它文件內(nèi)容，對(duì)搜索引擎來說，這部分內(nèi)容不屬于當(dāng)前頁面，也即隱藏了內(nèi)容。但不屬于當(dāng)前頁面不等于不存在，搜索引擎是可以發(fā)現(xiàn)iframe中的內(nèi)容和鏈接的，還是可能爬行這些URL，所以加robots禁止爬行。iframe中的內(nèi)容還是會(huì)有一些權(quán)重流失，但因?yàn)閕frame里的鏈接不是從當(dāng)前頁面分流權(quán)重，而只是從調(diào)用的那個(gè)文件分流，所以權(quán)重流失是比較少的。除了排版、瀏覽器兼容性之類的頭疼問題，iframe方法的一個(gè)潛在問題是被認(rèn)為作弊的風(fēng)險(xiǎn)?，F(xiàn)在搜索引擎一般不認(rèn)為iframe是作弊，很多廣告就是放在iframe中，但隱藏一堆鏈接和隱藏廣告有些微妙的區(qū)別?；氐剿阉饕媾袛嘧鞅椎目傇瓌t上，很難說這不是專門為搜索引擎做的。記得Matt Cutts說過，Google以后可能改變處理iframe的方式，他們還是希望在同一個(gè)頁面上看到普通用戶能看到的所有內(nèi)容。

總之，對(duì)這個(gè)現(xiàn)實(shí)、嚴(yán)重的問題，我目前沒有自己覺得完美的答案。當(dāng)然，不能完美解決不是就不能活了，不同網(wǎng)站SEO重點(diǎn)不同，具體問題具體分析，采用上述方法中的一種或幾種應(yīng)該可以解決主要問題。

而最最最大的問題還不是上述這些，而是有時(shí)候你想讓這些過濾頁面被爬行和收錄，這才是杯具的開始。以后再討論。

一是將不想收錄的URL保持為動(dòng)態(tài)URL，甚至故意越動(dòng)態(tài)越好，以阻止被爬行和收錄。但是，搜索引擎現(xiàn)在都能爬行、收錄動(dòng)態(tài)URL，而且技術(shù)上越來越不是問題。雖然參數(shù)多到一定程度確實(shí)不利于收錄，但4、5個(gè)參數(shù)通常還可以收錄。我們無法確認(rèn)需要多少參數(shù)才能阻止收錄，所以不能當(dāng)作一個(gè)可靠的方法。而且這些URL接收內(nèi)鏈，又沒有什么排名能力，還是會(huì)浪費(fèi)一定權(quán)重。

第二個(gè)方法，robots禁止收錄。同樣，URL接收了內(nèi)鏈也就接收了權(quán)重，robots文件禁止爬行這些URL，所以接收的權(quán)重不能傳遞出去（搜索引擎不爬行就不知道有什么導(dǎo)出鏈接），頁面成為權(quán)重只進(jìn)不出的黑洞。

目前比較好的方法之一是iframe+robots禁止。將過濾部分代碼放進(jìn)iframe，等于調(diào)用其它文件內(nèi)容，對(duì)搜索引擎來說，這部分內(nèi)容不屬于當(dāng)前頁面，也即隱藏了內(nèi)容。但不屬于當(dāng)前頁面不等于不存在，搜索引擎是可以發(fā)現(xiàn)iframe中的內(nèi)容和鏈接的，還是可能爬行這些URL，所以加robots禁止爬行。iframe中的內(nèi)容還是會(huì)有一些權(quán)重流失，但因?yàn)閕frame里的鏈接不是從當(dāng)前頁面分流權(quán)重，而只是從調(diào)用的那個(gè)文件分流，所以權(quán)重流失是比較少的。除了排版、瀏覽器兼容性之類的頭疼問題，iframe方法的一個(gè)潛在問題是被認(rèn)為作弊的風(fēng)險(xiǎn)。現(xiàn)在搜索引擎一般不認(rèn)為iframe是作弊，很多廣告就是放在iframe中，但隱藏一堆鏈接和隱藏廣告有些微妙的區(qū)別?；氐剿阉饕媾袛嘧鞅椎目傇瓌t上，很難說這不是專門為搜索引擎做的。記得Matt Cutts說過，Google以后可能改變處理iframe的方式，他們還是希望在同一個(gè)頁面上看到普通用戶能看到的所有內(nèi)容。

而最最最大的問題還不是上述這些，而是有時(shí)候你想讓這些過濾頁面被爬行和收錄，這才是杯具的開始。以后再討論。

到此，關(guān)于“網(wǎng)站優(yōu)化中如何盡量減少無效URL的爬行和索引”的學(xué)習(xí)就結(jié)束了，希望能夠解決大家的疑惑。理論與實(shí)踐的搭配能更好的幫助大家學(xué)習(xí)，快去試試吧！若想繼續(xù)學(xué)習(xí)更多相關(guān)知識(shí)，請(qǐng)繼續(xù)關(guān)注億速云網(wǎng)站，小編會(huì)繼續(xù)努力為大家?guī)砀鄬?shí)用的文章！

向AI問一下細(xì)節(jié)

網(wǎng)站優(yōu)化中如何盡量減少無效URL的爬行和索引

猜你喜歡

最新資訊

相關(guān)推薦

相關(guān)標(biāo)簽