百度和 Google 的搜尋技術是一個量級嗎？

2016-05-05數碼

很多答案是從使用上講的，我加兩個技術方面的。

搜尋引擎需要對抓取到的結果進行管理。當索引結果越來越多時，保證儲存和查詢速度，保證數萬台伺服器內容一致的難度越來越高。Google於03至06年左右公布了三篇論文，描述了GFS、BigTable、MapReduce三種技術以解決這些問題。由於Google並沒有公布演算法細節，因此由雅虎牽頭，在06年左右建立了開源專案Hadoop，目的是根據Google的三篇論文，實作一個大規模的管理計算系統。但直到08年，Hadoop同Google公布的一些關鍵指標仍有幾倍的差距。百度曾經由王選院士的一個博士帶領，想基於Google論文獨立實作(金字塔計劃)一個自己的系統，但開發難度過大專案夭折，最終也轉向了Hadoop。如今，Amazon、Facebook、Yahoo包括百度都在大規模套用Hadoop，而Google已經從2010年開始遷移到新的三駕馬車Caffeine、Pregel、Dremel上了。單就搜尋技術而言，Google不是領先百度，而是領先全世界。
2009-2012年，Google公布了世界上第一個全球化的數據庫系統Spanner，這套系統將分布在全球各地的數據中心連線到一起，利用原子鐘和GPS，打破了地理間隔，實作了全球規模具有一致性和即時性的數據庫。在Google之前，很多人認為這種系統不可能做出來，但Google做到了[1]。

另外，除了搜尋，Google在深度學習和機器人方面也是全球領先的，尤其是後者。盡管百度也有深度學習研究院，但在這兩方面跟Google比起來完全是空白。

事實上，讓百度來和谷歌比是很不公平的，搜尋只是Google的一個部門，但卻是百度一整個公司。Google的競爭對手是Apple、Amazon、Facebook和Microsoft，百度的競爭對手是360、搜狗。Google沒了搜尋，還有Chrome、Android、Youtube，百度沒了搜尋，那就什麽都沒有了。

[1] Exclusive: Inside Google Spanner, the Largest Single Database on Earth