如何用形象的比喻描述大數據的技術生態？Hadoop、Hive、Spark 之間是什麽關系？

2015-09-05數碼

7大數據本身是個很寬泛的概念，Hadoop生態圈（或者泛生態圈）基本上都是為了處理超過單機尺度的數據處理而誕生的。你可以把它比作一個廚房所以需要的各種工具。鍋碗瓢盆，各有各的用處，互相之間又有重合。你可以用湯鍋直接當碗吃飯喝湯，你可以用小刀或者刨子去皮。但是每個工具有自己的特性，雖然奇怪的組合也能工作，但是未必是最佳選擇。

大數據，首先你要能存的下大數據。
傳統的檔案系統是單機的，不能橫跨不同的機器。HDFS（Hadoop Distributed FileSystem）的設計本質上是為了大量的數據能橫跨成百上千台機器，但是你看到的是一個檔案系統而不是很多檔案系統。比如你說我要獲取/hdfs/tmp/file1的數據，你參照的是一個檔路徑，但是實際的數據存放在很多不同的機器上。你作為使用者，不需要知道這些，就好比在單機上你不關心檔分散在什麽磁軌什麽磁區一樣。HDFS為你管理這些數據。