當前位置: 華文問答 > 數碼

如何用形象的比喻描述大數據的技術生態?Hadoop、Hive、Spark 之間是什麽關系?

2015-09-05數碼

7大數據本身是個很寬泛的概念,Hadoop生態圈(或者泛生態圈)基本上都是為了處理超過單機尺度的數據處理而誕生的。你可以把它比作一個廚房所以需要的各種工具。鍋碗瓢盆,各有各的用處,互相之間又有重合。你可以用湯鍋直接當碗吃飯喝湯,你可以用小刀或者刨子去皮。但是每個工具有自己的特性,雖然奇怪的組合也能工作,但是未必是最佳選擇。

大數據,首先你要能存的下大數據。
傳統的檔案系統是單機的,不能橫跨不同的機器。HDFS(Hadoop Distributed FileSystem)的設計本質上是為了大量的數據能橫跨成百上千台機器,但是你看到的是一個檔案系統而不是很多檔案系統。比如你說我要獲取/hdfs/tmp/file1的數據,你參照的是一個檔路徑,但是實際的數據存放在很多不同的機器上。你作為使用者,不需要知道這些,就好比在單機上你不關心檔分散在什麽磁軌什麽磁區一樣。HDFS為你管理這些數據。

存的下數據之後,你就開始考慮怎麽處理數據。雖然HDFS可以為你整體管理不同機器上的數據,但是這些數據