通用搜索引擎的處理對象是互聯網網頁,目前網頁數且以百億計.所以搜索引擎首先面臨的問題就是:如何能夠設計出高效的下載系統,以將如此海量的網頁數據傳送到本地,在本地形成互聯網網頁的鏡像備份。
網絡爬蟲即起此作用,它是搜索引擎系統中很關鍵也很基礎的構件。主要介紹與網絡爬蟲相關的技術,盡管爬蟲技術經過幾十年的發展,從整體框架上已相對成熟,但隨著互聯網的不斷發展,也面臨著壹些有挑戰性的新問題。
通用搜索引擎的處理對象是互聯網網頁,目前網頁數且以百億計.所以搜索引擎首先面臨的問題就是:如何能夠設計出高效的下載系統,以將如此海量的網頁數據傳送到本地,在本地形成互聯網網頁的鏡像備份。
網絡爬蟲即起此作用,它是搜索引擎系統中很關鍵也很基礎的構件。主要介紹與網絡爬蟲相關的技術,盡管爬蟲技術經過幾十年的發展,從整體框架上已相對成熟,但隨著互聯網的不斷發展,也面臨著壹些有挑戰性的新問題。