hadoop功能介紹?
Hadoop是一個大數據處理框架和工具。
Hdfs和mapReduce是Hadoop最初的兩個核心功能。前者是存儲系統,類似于把試卷放在幾個柜子里,后者負責并行計算,類似于把100張試卷分給5個人批改。
Hadoop后來逐漸加入了其他工具。
Hive提供了數據匯總和查詢功能,并給出了處理數據的窗口,可以對數據進行加減乘除。
Hbase是一個可擴展的非關系型數據庫,不采用傳統excel表格的數據格式。
Spark是一個比mapReduc
Hadoop生態系統及各模塊的功能?
1.HDFS(Hadoop分布式文件系統)
HDFS是一個在Hadoop生態中提供分布式存儲支持的系統,很多上層計算框架(Hbase,Spark等。)依靠HDFS存儲。
(分布式計算模型)離線計算
什么是離線計算,其實就是非實時計算。
3.分布式資源管理器
紗線與紡織品。;的出現主要是為了解決原有Hadoop擴展性差,不支持多種計算模式的問題。
4.存儲計算
Spark在內存中提供分布式計算能力,比傳統的MapReduce大數據分析更高效、更快速。
5.分布式列存儲數據庫
Hbase繼承了列存儲的特點,非常適合數據的隨機讀寫。其次,Hbase建立在HDFS之上,它內部管理的所有文件都存儲在HDFS。這使得它具有高度的容錯性和可擴展性,并支持Hadoopmapreduce編程模型。
6.數據倉庫
7.Oozie(工作流調度程序)
Oozie是一個基于工作流引擎的調度器,它實際上是一個運行在JavaServlet容器(如Tomcat)中的JavaWeb應用程序,在其上可以運行諸如Hadoop地圖縮小和豬。
8.Sqoop和Pig
9.Flume(日志收集工具)
Flume將數據從產生、傳輸、處理到最終寫入目標路徑的過程抽象成數據流。在特定的數據流中,數據源支持定制Flume中的數據傳輸。發送方,從而支持各種協議的數據收集。
10.Kafka(分布式消息隊列)
Kafka是Apache組織下的開源系統。它最大的特點是可以實時處理大量數據,滿足各種需求場景,比如基于Hadoop平臺的數據分析、低延遲實時系統、Storm/Spark流處理引擎等等。Kafka已被許多大公司用作各種類型的數據管道和消息系統。
11.分布式協作服務
一般來說,動物園管理員相當于一個和事佬的角色。如果兩個人之間出現了一些自己無法解決的矛盾或,就需要ZooKeeper從中調解,而調解的就是根據一些規則(比如道德規則、法律規則)從第三方的客觀角度對雙方做出客觀合理、合規的判斷。
(大數據運維工具)
Ambari是一個大數據基礎運維平臺,實現了Hadoop生態中各種組件的自動部署、服務管理和監控告警。Ambari通過puppet實現自動安裝配置,通過Ganglia收集監控指標,用Nagios實現故障報警。