在爬蟲系統中.待抓取URL隊列是很關健的部分,需要爬蟲抓取的網頁URL在其中順序排列.形成壹個隊列結構,調度程序每次從隊列頭取出某個URL.發送給網頁下載器下載頁面內容.每個新下載的頁面包含的URL會追加到待抓取URL隊列的末尾,如此形成循環,整個爬蟲系統可以說是由這個隊列驅動運轉的.
待抓取URL隊列中的頁面URL順序是如何確定的?上面所述將新下載頁面中包含的鏈接追加到隊列尾部,這固然是壹種確定隊列URL順序的方法,但並非唯壹的手段,事實上,還可以采納很多其他技術.將隊列中待抓取的URL進行排序。而爬蟲的不同抓取策略。就是利用不同的方法來確定待抓取URL隊列中URL優先順序的。
爬蟲的抓取策略有很多種.但不論方法如何,其基本目標壹致:優先選擇重要網頁進行抓取。在爬蟲系統中.所謂網頁的重要性.共評判標准可以選擇不同方法,但是大部分都是按照網頁的流行性來定義的