曾經有朋友問我怎麽才能判斷一個SEOer是不是高手。我就出了一個主意,就建議他問那個SEOer是不是知道Lynx在SEO上的應用方法。這麽來提問,其實能從一個側面反映這個SEOer對SEO研究有多深的。
現在SEO行業,雖然有很多以訛傳訛的言論,但是如果自己經常實踐,還是能找到很多真正有用的操作方法,實踐久了,也能判斷誰的說法正確,誰的說法有問題,這樣的SEOer,可以放心的讓他去操作一些比較重要的網站了。在進一步的給網站各個細節優化過程中,就會發現很多以前別人沒有談到過,也很難在優化一些小網站的過程中注意到的細節。這些細節,在別的地方很難找到相關的參考資料,或者根本就找不到。但是在Google的《Google網站質量指南》、《Google黑板報》、《Google中文網站管理員博客》,基本上都可以找到關于這些細節的只言片語的。只不過那裏面也只是給一個方向,具體的細節還是要靠你自己再去實踐。
在《Google網站質量指南》的第一頁,就已經建議大家去用Lynx這個工具去檢測你的網站:
“ 使用諸如Lynx的文本浏覽器來檢查您的網站,因爲大多數搜索引擎信息采集軟件查看您網站的方式與Lynx幾乎一樣。如果諸如javascript、Cookie、會話ID、框架、DHTML或Flash等複雜功能造成您無法在文本浏覽器中看到整個網站,則搜索引擎信息采集軟件在抓取您的網站時可能會遇到問題。 ” 這裏提到了“Lynx查看網站的方式和搜索引擎幾乎一樣的”。一個SEOer,如果真的到了很多細節都無法從別人那裏獲取的程度,那這段話相信他很難忽視掉的。
用了一段時間的Lynx,發現這個曾經的文本浏覽器和搜索引擎爬蟲很像的。你所聽過的爬蟲特性,在這裏都能找到一點影子。
比如檢測隱藏鏈接,我們只知道搜索引擎是不喜歡的,但是具體的檢測方法是怎麽樣的呢?如果你用熟了Lynx,就發現一個非常簡單的命令就搞定了。
首頁要搭建一個Lynx的運行環境。Lynx不能用這種編譯過的在windows下運行的版本,有很多功能是不能用的。建議在XP下裝一個虛擬機,然後在虛擬機裏裝一個linux系統來運行Lynx。
虛擬機軟件用vmware,具體的安裝方法大家雅虎下。linux系統推薦用Ubuntu,它可以在圖形界面上安裝Lynx。
在裝了Lynx的linux系統的命令模式下輸入:lynx -dump www.*****.com 並回車,這個頁面上的隱藏鏈接诶就會一覽無遺。
然後再進一步的分析一下,是哪些鏈接Lynx會認爲是隱藏鏈接呢?
可以看到,至少以下的一種鏈接是會被Lynx認爲是隱藏鏈接的。代碼爲: <a href=”http://www.****.com”></a>
這個鏈接,既沒有文字作爲錨文本,也沒有圖片或其他作爲鏈接的對象。如果不去加載CSS文件或者JS文件,光就這個代碼,在網頁上是看不到這個鏈接的存在的。當然這就使隱藏鏈接,毫無爭議的。
這是Lynx認爲的情況,搜索引擎也是一樣的。從整個互聯網來看,這種檢測方法在%的情況下都不會冤枉一個網站的。對于Google來說,一個檢測方法,如果能有0%以上的反作弊效率,那是非常好的一個方法。
一個非作弊的網站,産生這種情況的原因,是因爲網頁設計人員的一些“奇怪”的代碼寫法。如果你去檢測你的網站,說不定也能看到這些隱藏鏈接。
當然,Lynx的作用不止這個。它首頁是能以一個可視化角度來展現爬蟲看到了什麽內容。用它可以挨個檢查你的網頁給搜索引擎爬蟲展現了怎麽樣的內容。
然後才是其他的一些功能:
‘.可以檢測網頁代碼的完整性。如果提示有“bad HTML”就要注意一下。 ;.可以和IE一樣查看源文件。 .對cookie的跟蹤是特別對待的。會提示你是不是跟蹤cookie。 .對框架和表單的處理和爬蟲是一樣的。 .URL太多參數,會造成浏覽困難。 .可以查看網頁返回的http頭信息
你會看到很多似曾相似的東西。
Lynx的出現時期,恰好是第一個爬蟲程序誕生的時候。有相當大的理由相信他們的是一樣的理念。而且現在維護和更新lynx的人員,有些也在維護其他開源的爬蟲程序。你其實也可以把lynx看成一個可視化的爬蟲。
HTTrack是一個比較宏觀的爬蟲模擬器。而Lynx就更細節一些,也更實用一點。