曆史參考策略是最直觀的壹種更新策略,它建立于如壹下假設之上:過去頻繁更新的網頁.那麽將來也會頻該更新。所以.爲了預估某個網頁何時進行更新.可以通過奮考其曆史更新情況來做出決定。
這種方法往往利用泊松過程來對網頁的變化進行建模,根據每個網頁過去的變動情況.利用模型預測將來何時內容會再次發生變化,以此來指導爬蟲的抓取過程。但是不同方法側重不盡扣同.比如有的研究將壹個網頁劃分成不同的區域.抓取策略應該忽略掉廣告欄或者導航欄這種不重要區域的頻繁變化.而集中在主題內容的變化探測和建模上。
曆史參考策略是最直觀的壹種更新策略,它建立于如壹下假設之上:過去頻繁更新的網頁.那麽將來也會頻該更新。所以.爲了預估某個網頁何時進行更新.可以通過奮考其曆史更新情況來做出決定。
這種方法往往利用泊松過程來對網頁的變化進行建模,根據每個網頁過去的變動情況.利用模型預測將來何時內容會再次發生變化,以此來指導爬蟲的抓取過程。但是不同方法側重不盡扣同.比如有的研究將壹個網頁劃分成不同的區域.抓取策略應該忽略掉廣告欄或者導航欄這種不重要區域的頻繁變化.而集中在主題內容的變化探測和建模上。