搜尋引擎正在發生的革命


images

搜索引擎正在發生一場靜悄悄的變革,在平靜的搜索結果頁背後,巨大的浪潮在洶湧澎湃。

上一次革命是 Pagerank 的誕生(《TO》編按:Pagerank 是 Google 對網頁重要程度的評估,當數值提高,你的網頁在 Google搜索中的頁面排名也會提升),它使得 Google 替代 Yahoo 成為搜索巨頭,這次輪到了 Facebook 和 Twitter。

  • 以 Web Graph 為基礎的搜尋引擎,將被 Social Graph 概念顛覆

在 2012 年底前後,Facebook、Twitter 和中國的云云先後推出了基於社交數據的搜索引擎(基於新浪、騰訊等四大微博的數據源);儘管有些巧合,但其背後隱藏的邏輯不可低估:

以 Pagerank(web graph)為基石的傳統搜索引擎,遇到了整合了 Social Graph 社交搜索的強大挑戰。

為什麼說這是個強大的挑戰,Social Graph(社交圖譜或社會化搜索)將以什麼方式顛覆傳統搜索呢?

  • 當大量有價值資訊出現在社群網站上,社群化搜尋就出現了

任何搜索的基礎,都是豐富的、海量的信息;所以,只有當世界上的 web 網頁足夠多的時候,Google 的存在才有意義。1998 年時,網上的網站只有那麼幾個,掰著手指就可以數出來,這種信息匱乏的情況下,當然用不著多強大的搜索。

隨著網頁信息的增加,在網上尋找信息的網民分化成了兩個部分:一部分網民的需求,hao123就可以滿足,而更大量、更多網民的信息檢索需求,列表式的網址導航無法滿足,從而誕生了 Google 和百度。

可以說,有價值的信息在哪裡,搜索的價值就在哪裡。當移動互聯網上產生的信息足夠多、足夠有價值的時候,移動搜索就順理成章地出現。

而,當大量有價值的信息出現在微博、Twitter 上時,微博搜索出現了,社會化搜索的曙光也出現了。

我們可以做個對比:

1. 中國互聯網上有網站 268 萬個,主流搜索引擎索引的中文網頁數量為 1000 億

2. 現在有 3、4000 萬微博用戶活躍,每天生產出 2、3 億條微博信息,微博上一年產生的數據量,幾乎等於中文互聯網有史以來產生的所有數據。

如此海量的信息,產生的價值無可估量。

由於微博是每個人都可以自由產生信息,比傳統網站經過編輯的信息產生效率高出一兩個數量級,而且微博實名認證,每天有幾十萬個實名認證的企業、行業精英來產生內容,在很多方面比傳統的互聯網新聞要可靠、值得信任。

比如,同樣一條醫療信息,你是相信百度搜索出來的網頁,還是相信協和醫院醫生的微博?

  • Social Graph 為基礎的社群搜索,是加入「人」之後的搜索,結果會更加精準

社交數據愈來愈體現出來在搜索上的價值,無論是 Google 這樣的傳統搜索引擎,還是 Facebook、Twitter 這樣的社交信息擁有者,都異曲同工的地瞄準了社交搜索這個全新的領域。

在中國,以云云為代表的社交搜索也順勢而起,借助社交因素來優化搜索,為用戶提供更準確的搜索結果。

但,從技術角度來講,Facebook、Twitter 跟云云的努力方向並不一致。

例如,搜索「北京最好吃的爆肚」,Facebook 是先挑選你在 Facebook 上的朋友,再從他們發表的信息裡搜索「爆肚」,而云云則是在需要你先登錄,綁定微博後獲知你的微博關係,再把你的微博好友「動」過的包含「爆肚」的網頁挑出來;這個「動」,意味著好友對網頁進行了讚、轉發等動作。

理想狀態下,兩者都可以檢索到想要的結果,只不過體現在搜索結果頁上,一個是 Facebook 的一條內容,一個是普通的中文網頁,(Facebook 的搜索原理,僅是依據媒體報導推測,未看到產品呈現)。

傳統搜索是分析網頁之間的關係,Facebook 搜索是分析人與人之間的關係,是一種進步和趨勢;加入「人」之後的搜索會更加精準、更個性化,也更有效。

  • Web 和 People 的互動,將提升搜索的價值

Facebook 的搜索理論上很有用,因為人跟人之間的關係(link)有價值;在搜索結果中,存在著大量並非絕對標準、僅對少部分人有意義的搜索結果。

比如,「小明愛吃的麵包」,​​只對小明這個人周圍的圈子,包括小明的爸爸、小明的媽媽、小明的朋友有意義,別人對他愛吃什麼麵包沒興趣。而小明的媽媽搜「好吃的麵包」,​​實際上可能是為了找「小明愛吃什麼麵包」,這從目前的搜索引擎中,99% 是找不到好結果的。

整合了社交數據之後,搜索結果的有效性就會大幅提升。以上述例子來說,因為小明的媽媽在新浪微博上關注了小明,當她搜「好吃的麵包」時,小明轉發過的麵包網頁就會排在搜索結果前列,這樣就有了一個很棒的搜索結果。

另外,單純的搜索社交數據也是不夠的。就像 Facebook 一樣,只能搜索社交網絡上的信息顯得有些單薄,因為現在傳統的互聯網上也沉澱了大量有價值的內容,無論是 Wiki、問答,還是傳統的論壇和社區,都有不少有用的數據,但都必須是網頁和人的關係整合在一起,才是社會化搜索的發展方向。

  • 「關鍵字搜索」可能會被「語義搜索」打敗

在現有的搜索里,「小明愛吃的麵包」和「小明麵包」是兩種搜索方式;前面的語義搜索對用戶更加友好,但使得搜索引擎對自然語言的處理要求更高,後一種關鍵詞搜索是現在常用的方式,比如 Google 和百度搜索,大家還是更習慣於挑幾個詞來查詢。

只不過,關鍵詞搜索處理起來雖簡單,但搜索結果可能需要用戶進一步的篩選,給普通用戶的搜索帶來困擾。

從目前報導的信息來看,Facebook 的 Social Graph 和蘋果的 Siri 類似,都是用自然語言的語義搜索;如果這種搜索習慣在普通用戶中逐漸培養起來的話,可能給 Google 和百度這樣的傳統引擎帶來麻煩,比如在 Google 上搜「我今天下午到哪兒去喝茶會遇到漂亮姑娘」,你猜 Google 會給一個什麼結果?

(原文作者:simaziyu,原文連結:http://www.huxiu.com/article/9321/1.html