初心者站長之家
打印

怎樣減少無效URL的爬行和索引 – 無完美解

怎樣減少無效URL的爬行和索引 – 無完美解

怎樣減少無效URL的爬行和索引 – 無完美解+ `0 C% W; l& S' c& ^. r

. p1 C+ }" P1 n
% Z0 {9 Y  [: g( j/ G- j5 v7 S少年老成的雲晨守望同學(題外話:少年老成是好事哈。我20多歲時人家說我像40歲,我40多歲時好多人說我像30多,男人20到50歲可以做到基本壹個樣子)在網路經營實戰密碼網站貼了個帖子:透過京東商城看國內壹線B2C網站SEO通病。建議先看那個帖子再回來看本帖,不然不容易明白下面在說什麽。2 W7 H: e5 J$ V& ^0 n- P" Q+ S+ ]: ?
" y1 W, ]4 \# v
簡單說,帖子指出壹個嚴重而且現實的SEO問題:很多網站,尤其是B2C,産品條件過濾系統(如選擇産品的品牌、價格、尺寸、性能、參數等)會産生大量無效URL,之所以稱爲無效只是從SEO角度看的,這些URL並不能産生SEO作用,反倒有負面作用,所以這些URL不收錄爲好,原因包括:
: W# F* ?% a  S4 A* L& d, _+ I: f
3 t& H3 ^- F3 t. p1 A) b; u大量過濾條件頁面內容重複或極爲類似(大量複制內容將使網站整體質量下降) 8 P4 d6 c- i, M/ M4 O+ m
大量過濾條件頁面沒有對應産品,頁面無內容(如選擇“100元以下42寸LED電視”之類的) ' m* I. \& v+ y5 I: B2 F; F: ]
絕大部分過濾條件頁面沒有排名能力(排名能力比分類頁面低得多)卻浪費壹定權重
/ x6 z) V* T4 B0 L. _+ L這些過濾條件頁面也不是産品頁面收錄的必要通道(産品頁面應該有其它內鏈幫助爬行和收錄)
7 ?. X3 w4 J# B/ x; `, D6 n爬行大量過濾條件頁面極大浪費蜘蛛爬行時間,造成有用頁面收錄機會下降(過濾條件頁面組合起來是巨量的) # d( ]- C! {4 D$ N, c. G7 M
那麽怎樣盡量使這些URL不被爬行和索引、收錄呢?前幾天的壹篇帖子如何隱藏內容也可能成爲SEO問題討論的是類似問題,這種過濾頁面就是想隱藏的內容種類之壹。不過可惜,我目前想不出完美的解決方法。雲晨守望提出兩個方法,我覺得都無法完美解決。
& v. O' r, \" q! s4 k: f5 [3 u% P* J6 l2 n" ^
壹是將不想收錄的URL保持爲動態URL,甚至故意越動態越好,以阻止被爬行和收錄。但是,搜尋引擎現在都能爬行、收錄動態URL,而且技術上越來越不是問題。雖然參數多到壹定程度確實不利于收錄,但4、5個參數通常還可以收錄。我們無法確認需要多少參數才能阻止收錄,所以不能當作壹個可靠的方法。而且這些URL接收內鏈,又沒有什麽排名能力,還是會浪費壹定權重。9 @$ z: a  L' \; _

% b1 M" o9 \7 S2 i  v第二個方法,robots禁止收錄。同樣,URL接收了內鏈也就接收了權重,robots文件禁止爬行這些URL,所以接收的權重不能傳遞出去(搜尋引擎不爬行就不知道有什麽導出鏈接),頁面成爲權重只進不出的黑洞。
" R6 p1 F/ I$ I8 `4 Y- d2 u4 j2 ?: X2 O) R( B! N% |7 ^1 Y
連向這些URL的鏈接配合nofollow也不完美,和robots禁止類似,nofollow在Google的效果是這些URL沒有接收權重,權重卻也沒有被分配到其它鏈接上,所以權重同樣浪費了。百度據稱支持nofollow,但權重怎麽處理未知。! H4 R6 f1 Y- j1 j( H; [8 E
2 J; h1 G. R6 R
將這些URL鏈接放在Flash、JS裏也沒有用,搜尋引擎已經可以爬行Flash、JS裏的鏈接,而且估計以後越來越擅長爬。很多SEO忽略了的壹點是,JS中的鏈接不僅能被爬,也能傳遞權重,和正常連接壹樣。
: h  a- \  u7 f/ X
9 f! K! |7 g- Z. J也可以將過濾條件鏈接做成AJAX形式,用戶點擊後不會訪問壹個新的URL,還是在原來URL上,URL後面加了#,不會被當成不同URL。和JS問題壹樣,搜尋引擎正在積極嘗試爬行、抓取AJAX裏的內容,這個方法也不保險。
) w9 T. h, a7 h% G, q# M& c
+ S; E4 m; V, v2 W/ s還壹個方法是在頁面head部分加noindex+follow標簽,意即本頁面不要索引,但跟蹤頁面上的鏈接。這樣可以解決複制內容問題,也解決了權重黑洞問題(權重是可以隨著導出鏈接傳到其它頁面的),不能解決的是浪費蜘蛛爬行時間問題,這些頁面還是要被蜘蛛爬行抓取的(然後才能看到頁面html裏的noindex+follow標簽),對某些網站來說,過濾頁面數量巨大,爬行了這些頁面,蜘蛛就沒足夠時間爬有用頁面了。; V* U2 v: F+ m8 l! v
, C+ C6 f3 s# _* s) `" S2 x6 N( J
再壹個可以考慮的方法是隱藏頁面(cloaking),也就是用程序檢測訪問者,是搜尋引擎蜘蛛的話返回的頁面拿掉這些過濾條件鏈接,是用戶的話才返回正常的有過濾條件的頁面。這是壹個比較理想的解決方法,唯壹的問題是,可能被當作作弊。搜尋引擎常跟SEO講的判斷是否作弊的最高原則是:如果沒有搜尋引擎,妳會不會這麽做?或者說,某種方法是否只是爲了搜尋引擎而采用?顯然,用cloaking隱藏不想被爬行的URL是爲搜尋引擎做的,不是爲用戶做的。雖然這種情況下的cloaking目的是美好的,沒有惡意的,但風險是存在的,膽大的可試用。& R5 t0 c& x4 v" K  G3 z4 ^
7 S- D% Q% Z( f* J6 m# Z( M
還壹個方法是使用canonical標簽,最大問題是百度是否支持未知,而且canonical標簽是對搜尋引擎的建議,不是指令,也就是說這個標簽搜尋引擎可能不遵守,等于沒用。另外,canonical標簽的本意是指定規範化網址,過濾條件頁面是否適用有些存疑,畢竟,這些頁面上的內容經常是不同的。
- a* T7 \6 A) |/ n3 r7 U1 `8 C1 i" J' Y) p$ M- p
目前比較好的方法之壹是iframe+robots禁止。將過濾部分代碼放進iframe,等于調用其它文件內容,對搜尋引擎來說,這部分內容不屬于當前頁面,也即隱藏了內容。但不屬于當前頁面不等于不存在,搜尋引擎是可以發現iframe中的內容和鏈接的,還是可能爬行這些URL,所以加robots禁止爬行。iframe中的內容還是會有壹些權重流失,但因爲iframe裏的鏈接不是從當前頁面分流權重,而只是從調用的那個文件分流,所以權重流失是比較少的。除了排版、浏覽器兼容性之類的頭疼問題,iframe方法的壹個潛在問題是被認爲作弊的風險。現在搜尋引擎壹般不認爲iframe是作弊,很多廣告就是放在iframe中,但隱藏壹堆鏈接和隱藏廣告有些微妙的區別。回到搜尋引擎判斷作弊的總原則上,很難說這不是專門爲搜尋引擎做的。記得Matt Cutts說過,Google以後可能改變處理iframe的方式,他們還是希望在同壹個頁面上看到普通用戶能看到的所有內容。' V3 q% p/ `) X% }
3 w' W$ A! W, j
總之,對這個現實、嚴重的問題,我目前沒有自己覺得完美的答案。當然,不能完美解決不是就不能活了,不同網站SEO重點不同,具體問題具體分析,采用上述方法中的壹種或幾種應該可以解決主要問題。
: t& \$ B: ]7 e2 j, L6 t6 Y8 v! x6 r8 ]( y8 c+ E
而最最最大的問題還不是上述這些,而是有時候妳想讓這些過濾頁面被爬行和收錄,這才是杯具的開始。以後再討論。


TOP