hadoop的核心是分布式文件系統(tǒng)hdfs和mapreduce。hdfs為海量的數(shù)據(jù)提供了存儲,而mapreduce則為海量的數(shù)據(jù)提供了計算。
hadoop是一個由apache基金會所開發(fā)的分布式系統(tǒng)基礎架構。用戶可以在不了解分布式底層細節(jié)的情況下,開發(fā)分布式程序。充分利用集群的威力進行高速運算和存儲。
hadoop實現(xiàn)了一個分布式文件系統(tǒng)(hadoop distributed file system),其中一個組件是hdfs。hdfs有高容錯性的特點,并且設計用來部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)來訪問應用程序的數(shù)據(jù),適合那些有著超大數(shù)據(jù)集(large data set)的應用程序。
hdfs放寬了(relax)posix的要求,可以以流的形式訪問(streaming access)文件系統(tǒng)中的數(shù)據(jù)。
hadoop的框架最核心的設計就是:hdfs和mapreduce。hdfs為海量的數(shù)據(jù)提供了存儲,而mapreduce則為海量的數(shù)據(jù)提供了計算。
hadoop 由許多元素構成。其最底部是 hadoop distributed file system(hdfs),它存儲 hadoop 集群中所有存儲節(jié)點上的文件。hdfs的上一層是mapreduce 引擎,該引擎由 jobtrackers 和 tasktrackers 組成。通過對hadoop分布式計算平臺最核心的分布式文件系統(tǒng)hdfs、mapreduce處理過程,以及數(shù)據(jù)倉庫工具hive和分布式數(shù)據(jù)庫hbase的介紹,基本涵蓋了hadoop分布式平臺的所有技術核心。
更多相關知識,請訪問:php中文網(wǎng)!