這篇百度蜘蛛和Google蜘蛛詳解的技術文章源於我本人的多個站點,經過約一周的詳細觀察和分析,所有蜘蛛的數據均真實有效,當然並不排除誤差現像,寫出來,一則是自己整理,二則與大家分享,希望對大家了解搜索引擎蜘蛛有所幫助。
首先來看下百度和Google對蜘蛛的官方解釋:
(點擊訪問官方說明)
百度蜘蛛:Baiduspider Google
蜘蛛:Googlebot
以下是我各個站點每日來訪的百度蜘蛛和Google蜘蛛的ip段,對應每個站點的成熟度各有不同,我們試著在其中找到規律:
(蜘蛛的來訪數量與外鏈的數量,站點的更新頻率,權重都息息相關,此處的數據僅代表我個人的站點)
百度蜘蛛分析:
A站.B站.F站均為一年至四個月的半成熟站點,百度蜘蛛( Baiduspider)每日來訪次數均在5000-8000+次左右
E站.G站均為二個月至四個月的新站,百度蜘蛛( Baiduspider)每日來訪次數均在2000-3000+次左右
C站在上周因服務器問題無法訪問一天,正常的爬行次數在3000+
D站為特殊情況,尚待研究。
H站上線50天,爬行次數1000+
從以上的列表中可看到:
123.125.64.*123.125.66.*
這兩個ip段為最常規出現的百度蜘蛛,應該是正常抓取和站點狀態正常時百度的例行巡邏兵
119.63.193.* 119.63.198.*
這兩個ip段出現的站點均有更換ip,無法訪問,新站初始的情況,我們理解為:新站考察期蜘蛛段
121.14.89.*
這個ip段作為度過新站考察期,來的更高等級的常駐蜘蛛,作為更深一級的爬行蜘蛛
Google蜘蛛分析:
從以上的列表中可看到:
202.101.43.*222.73.247.*66.249.65.*
這三個ip段是最為常規出現的
66.249.16.*出現的站點均為新站或站點出現無法訪問情況後再次出現的ip
210.72.225.*
這個ip段不間斷巡邏各站
203.208.60.*
這個ip段出現在新站及站點有不正常現像後
綜合以上數據可看出些許百度蜘蛛和
Google蜘蛛的不同:
1. 百度的蜘蛛訪問及抓取量遠大於Google蜘蛛
2. 百度的蜘蛛ip段較固定且有規律,Google可能因蜘蛛的分級及不同服務器過來抓取的頻率不同而顯得多樣化
3. 除非你的站點完全被Google懲罰,否則來訪的蜘蛛數量不會有太大的差別,但百度則可能封殺你之後就很難恢復,或對你的站點極少爬行。