初心者站長之家
打印

怎樣減少無效URL的爬行和索引 – 無完美解

怎樣減少無效URL的爬行和索引 – 無完美解

怎樣減少無效URL的爬行和索引 – 無完美解: J. T1 F7 R1 e2 y& R9 `7 q8 a6 i
- E/ `6 g- B2 n+ `

5 h! V# m; N8 X: H" Y! R  D少年老成的雲晨守望同學(題外話:少年老成是好事哈。我20多歲時人家說我像40歲,我40多歲時好多人說我像30多,男人20到50歲可以做到基本壹個樣子)在網路經營實戰密碼網站貼了個帖子:透過京東商城看國內壹線B2C網站SEO通病。建議先看那個帖子再回來看本帖,不然不容易明白下面在說什麽。
( N9 v# X4 Q8 H+ H
: L6 Y7 A% j9 t* h/ T簡單說,帖子指出壹個嚴重而且現實的SEO問題:很多網站,尤其是B2C,産品條件過濾系統(如選擇産品的品牌、價格、尺寸、性能、參數等)會産生大量無效URL,之所以稱爲無效只是從SEO角度看的,這些URL並不能産生SEO作用,反倒有負面作用,所以這些URL不收錄爲好,原因包括:
* y) l; P1 D; L( v  B+ D, x
: }5 w4 M6 g7 w: w% I- B大量過濾條件頁面內容重複或極爲類似(大量複制內容將使網站整體質量下降)
" M& T, R1 W; v% f- ~3 Q: A; K大量過濾條件頁面沒有對應産品,頁面無內容(如選擇“100元以下42寸LED電視”之類的)
: j: y/ z0 l/ C& ~絕大部分過濾條件頁面沒有排名能力(排名能力比分類頁面低得多)卻浪費壹定權重 4 G" O2 ]/ f6 {5 \
這些過濾條件頁面也不是産品頁面收錄的必要通道(産品頁面應該有其它內鏈幫助爬行和收錄) - }. H! b( c: C2 O1 ?
爬行大量過濾條件頁面極大浪費蜘蛛爬行時間,造成有用頁面收錄機會下降(過濾條件頁面組合起來是巨量的) . ~( A* @) `* y9 l2 R0 s5 _
那麽怎樣盡量使這些URL不被爬行和索引、收錄呢?前幾天的壹篇帖子如何隱藏內容也可能成爲SEO問題討論的是類似問題,這種過濾頁面就是想隱藏的內容種類之壹。不過可惜,我目前想不出完美的解決方法。雲晨守望提出兩個方法,我覺得都無法完美解決。( M6 v8 o5 H; \6 Y0 [- `

  W5 ^  F& Z$ `3 E壹是將不想收錄的URL保持爲動態URL,甚至故意越動態越好,以阻止被爬行和收錄。但是,搜尋引擎現在都能爬行、收錄動態URL,而且技術上越來越不是問題。雖然參數多到壹定程度確實不利于收錄,但4、5個參數通常還可以收錄。我們無法確認需要多少參數才能阻止收錄,所以不能當作壹個可靠的方法。而且這些URL接收內鏈,又沒有什麽排名能力,還是會浪費壹定權重。; c- Y7 T# e: b) w/ Z- _

8 q! s4 E. _; y; a/ g6 L9 f第二個方法,robots禁止收錄。同樣,URL接收了內鏈也就接收了權重,robots文件禁止爬行這些URL,所以接收的權重不能傳遞出去(搜尋引擎不爬行就不知道有什麽導出鏈接),頁面成爲權重只進不出的黑洞。) m' q+ a+ e7 l' r( x. O
8 H$ ?0 r$ Q- s; ^* ]
連向這些URL的鏈接配合nofollow也不完美,和robots禁止類似,nofollow在Google的效果是這些URL沒有接收權重,權重卻也沒有被分配到其它鏈接上,所以權重同樣浪費了。百度據稱支持nofollow,但權重怎麽處理未知。: Q0 Q2 ]1 J* q% ?
& h- [2 B4 L9 @, k% o- m6 H
將這些URL鏈接放在Flash、JS裏也沒有用,搜尋引擎已經可以爬行Flash、JS裏的鏈接,而且估計以後越來越擅長爬。很多SEO忽略了的壹點是,JS中的鏈接不僅能被爬,也能傳遞權重,和正常連接壹樣。1 H5 D2 ~! t6 T
; D6 b( N& C/ |& D7 q4 ?6 R
也可以將過濾條件鏈接做成AJAX形式,用戶點擊後不會訪問壹個新的URL,還是在原來URL上,URL後面加了#,不會被當成不同URL。和JS問題壹樣,搜尋引擎正在積極嘗試爬行、抓取AJAX裏的內容,這個方法也不保險。* L$ `5 W$ p" N9 D' {) l6 B$ Y

9 |7 o. C0 I% t  G還壹個方法是在頁面head部分加noindex+follow標簽,意即本頁面不要索引,但跟蹤頁面上的鏈接。這樣可以解決複制內容問題,也解決了權重黑洞問題(權重是可以隨著導出鏈接傳到其它頁面的),不能解決的是浪費蜘蛛爬行時間問題,這些頁面還是要被蜘蛛爬行抓取的(然後才能看到頁面html裏的noindex+follow標簽),對某些網站來說,過濾頁面數量巨大,爬行了這些頁面,蜘蛛就沒足夠時間爬有用頁面了。
( @( J, y9 b# q3 q. e
7 q1 X  ^0 `$ w) D3 x再壹個可以考慮的方法是隱藏頁面(cloaking),也就是用程序檢測訪問者,是搜尋引擎蜘蛛的話返回的頁面拿掉這些過濾條件鏈接,是用戶的話才返回正常的有過濾條件的頁面。這是壹個比較理想的解決方法,唯壹的問題是,可能被當作作弊。搜尋引擎常跟SEO講的判斷是否作弊的最高原則是:如果沒有搜尋引擎,妳會不會這麽做?或者說,某種方法是否只是爲了搜尋引擎而采用?顯然,用cloaking隱藏不想被爬行的URL是爲搜尋引擎做的,不是爲用戶做的。雖然這種情況下的cloaking目的是美好的,沒有惡意的,但風險是存在的,膽大的可試用。
: s+ b* C6 X, m1 E2 M1 [
* ?( B2 K4 a* J% k! T, c% ^/ @  O# O還壹個方法是使用canonical標簽,最大問題是百度是否支持未知,而且canonical標簽是對搜尋引擎的建議,不是指令,也就是說這個標簽搜尋引擎可能不遵守,等于沒用。另外,canonical標簽的本意是指定規範化網址,過濾條件頁面是否適用有些存疑,畢竟,這些頁面上的內容經常是不同的。. C& L( M: D) K" ]

& ^: Z5 ]& C( d0 b& c# ]; j目前比較好的方法之壹是iframe+robots禁止。將過濾部分代碼放進iframe,等于調用其它文件內容,對搜尋引擎來說,這部分內容不屬于當前頁面,也即隱藏了內容。但不屬于當前頁面不等于不存在,搜尋引擎是可以發現iframe中的內容和鏈接的,還是可能爬行這些URL,所以加robots禁止爬行。iframe中的內容還是會有壹些權重流失,但因爲iframe裏的鏈接不是從當前頁面分流權重,而只是從調用的那個文件分流,所以權重流失是比較少的。除了排版、浏覽器兼容性之類的頭疼問題,iframe方法的壹個潛在問題是被認爲作弊的風險。現在搜尋引擎壹般不認爲iframe是作弊,很多廣告就是放在iframe中,但隱藏壹堆鏈接和隱藏廣告有些微妙的區別。回到搜尋引擎判斷作弊的總原則上,很難說這不是專門爲搜尋引擎做的。記得Matt Cutts說過,Google以後可能改變處理iframe的方式,他們還是希望在同壹個頁面上看到普通用戶能看到的所有內容。  w. P. B) v: x$ i6 `* _

( X. V  P+ m+ _! Y總之,對這個現實、嚴重的問題,我目前沒有自己覺得完美的答案。當然,不能完美解決不是就不能活了,不同網站SEO重點不同,具體問題具體分析,采用上述方法中的壹種或幾種應該可以解決主要問題。
, W& @! a, V5 Q- Q! h+ |0 `
# P: g5 u" j, B0 A) T9 D而最最最大的問題還不是上述這些,而是有時候妳想讓這些過濾頁面被爬行和收錄,這才是杯具的開始。以後再討論。


TOP