互聯網的動態性是其顯著特征,隨時都有新出現的頁面,頁面的內容被更改或者本來存在的頁面被別除。對于爬蟲來說,並非將網頁抓取到本地就算完成任務.也要體現出互聯網的這種動態性。本地下載的網頁可被看做是互聯網頁面的“鏡像’,爬蟲要盡可能保證其壹致性。
可以假設壹種情況:某個網頁已被刪除或者內容做出重大變動,而搜索引擎對此惘然無知.仍然按其舊有內容排序.將其作爲搜索結果提供給用戶.其用戶體驗之摘挂不育而喻。所以.對于己經抓取過的網頁.爬蟲還要負責保持其內容和互聯網頁面內容的同步.這取決于爬蟲所采用的網頁更新策略。
網頁更新策略的任務是要決定何時膠新抓取之前己經下載過的網頁,以盡可能使得本地下載網頁和互聯網原始貞面內容保持壹致.常用的網頁更新策略有3種:曆史奮考策略、用戶體驗策略和聚類抽樣策略。