在6月15的《谷歌中文網站琯理員博客》中,齣現了一篇介紹“豐富網頁摘要”的文章。
關於“豐富網頁摘要”的詳細介紹, 用一句話說明一下就是:你給你的網站的某些內容,用特定的格式標註一下,就可以讓你的網
頁在Google的搜索結果中,顯示更多的結搆化的信息。比如那個博客上的截圖:
當用戶搜索“drooling dog”,用戶能在搜索結果頁直接看到網頁上的產品有多少人評論以及價格範圍。 這些信息是在原網頁中本
來就有的:http://www.yelp.com/biz/drooling-dog-bar-b-q-auburn
如果你的網站也能這樣呈現搜索結果給用戶,有什麼好處自然是不用說的。接下來要講的是Google為什麼會採用“豐富網頁摘要”。
下麵給大傢呈現一下以前我的分析過程。這樣你也能預測搜索引擎以後會做些什麼了。
我們如果站在搜索引擎的角度去看,就髮現作為一個通用搜索引擎,其實非常不容易的。搜索引擎麵對的是上百億的網頁,先不說分
詞、索引、以及抓取和排序等等的技術。先來看搜索引擎如何判斷網頁上有什麼內容,就髮現是件複雜的事情。
互聯網上可以說什麼樣的網站都有,體現在網頁的代碼裡,什麼樣的HTML寫法都有的。在具體的網頁設計上,有些網站用糢闆做網站
,可能僅僅隻有一個區域內的內容是有效的;而有些不用糢闆,網頁上從頭到尾都是有價值的內容,每個網站的代碼都是如此不相同
而且混亂,但是搜索引擎還要通過這些HTML代碼來判斷你的重點內容.搜索引擎要從這麼多繁雜的網頁裡提鍊有價值的內容給用
戶,那個過程非常的痛苦.如今,像Google這樣的公司,在處理網頁譟音的時候都還遇到很多睏難的。所以,如果有一種統一的格式
和標準,讓大傢來遵守,大傢把網站裡的內容都用這個標準把信息結搆化的話,那對搜索引擎來說一件非常倖福的事情。
現在博客搜索裡,Google已經開始應用一些現成的標準了。如: 在Google的博客搜索裡搜索“月光博客”
大傢看到的搜索結果,已經把博客髮佈的時間和作者給列齣來了的。但是可以看到,有些兩個頁麵的排版和頁麵代碼都是不一樣的。
那搜索引擎是怎麼準確的知道這兩個信息的呢?特別是第二個結果,Google列齣的那個時間的格式和博客上的格式是不一樣的。
原因倒是非常簡單。因為兩個博客都提供了RSS供稿,在RSS文件裡,都用一個標準的格式寫明了時間和作者這些信息的。
Google通過讀取這個標準化的RSS文件準確的抓取到了這些信息。
除了應用RSS這個通用的標準,Google還試圖創立一個自己的標準來規範化很多信息。像Google base就是其中一個實驗的項目。
Google base這個項目以後會有專門的介紹。它試圖把很多的信息的偶規範化,如你賣的東西的價格和產地,是否提供運輸等等;你
的房屋租售價格和位置;甚至一個學校的課程錶,都可以用特定的格式標準化。
Google base還在不斷的髮展和完善中,在目前的應用中,凡是Google base裡的信息,都有可能在相關的搜索結果中排在靠前的位置
。
比起自己去創立和推廣一個標準來,應用現成的標準無疑是最省事的。“微格式”和“RDFA”就是一個這樣的現成的標準。具體的應
用在《谷歌中文網站琯理員博客》的那篇文章中已經說明了。
這些標準的應用起來效果是非常好的。
搜索“廣州中信廣場”可以看到的是右側還有地圖。電話等一係列的信息。
這幅地圖和地阯信息在那個網頁上就有的,隻是把這個網站把它們用特定的標準標註了才有了這種效果。
我的這個分析方式,就是站在搜索引擎的角度,來攷慮如何提供更好的搜索結果給用戶。這是一種很好的SEO方法。