對于商業搜索引擎來說,分布式爬蟲架構是必須采用的技術。面對海量待抓取網頁.只有采取分布式架構.才有可能在較短時間內完成壹輪抓取工作。
分布式爬蟲可以分爲若千個分布式層級,不同的應用可能山其中部分層級構成.
是壹個大型分布式爬蟲的3個層級;分布式數據中心、分布式抓取服務器及分布式爬蟲程序。
整個爬蟲系統由全球多個分布式數據中心共同構成,每個數據中心負責抓取本地域周邊的互聯網網頁.比如歐洲的數據中心負貴抓取英國、法國、德國等歐洲國家的網貞.由于爬蟲與要抓取的網頁地緣較近.在抓取速度上會較遠程抓取快很多。
每個數據中心又由多台高速網絡連接的抓取服務器構成,而每台服務器又可以部署多個爬蟲程序。通過多層級的分布式爬蟲體系.才可能保證抓取數據的及時性和全面性。