這是一個信息爆炸的時代。經過數十年的積累,很多企業都聚集了大量的數據。這些數據也是企業的核心財富之一,怎樣從累積的數據里尋找價值,變廢為寶煉數成金成為當務之急。但數據增長的速度往往比cou和內存性能增長的速度還要快得多。要處理海量數據,如果求助于昂貴的專用主機甚至超級計算機,成本無疑很高,有時即使是保存數據,也需要面對高成本的問題,因為具有海量數據容量的存儲設備,價格往往也是天文數字。成本和IT能力成為了海量數據分析的主要瓶頸。
Hadoop這個開源產品的出現,打破了對數據力量的壓制。Hadoop源于Nutch這個小型的搜索引擎項目。而Nutch則出自于著名的開源搜索引擎解決方案Lucene,而Lucene則來源于對Google的學習模仿。在Hadoop身上有著明顯的Google的影子。HDFS是GFS的山寨版,Map-Reduce的思想來源于Goolge對Page rank的計算方法,HBase模仿的是Big Table,Zookeeper則學習了Chubby。Google巨人的力量盡管由于商業的原因被層層封鎖,但在Hadoop身上得到了完美的重生和發展。
第1節 Hadoop的源起與體系介紹;實施Hadoop集群;CDH家族
第2節 分布式文件系統HDFS原理與操作,HDFS API編程;2.x下HDFS新特性,高可用,聯邦,快照
第3節 具有全部新特性的2.x企業級集群實施
第4節 Map-Reduce原理、體系架構和工作機制,eclipse與Hadoop集群連接,使用maven
第5節 Map-Reduce編程實戰,日志分析
第6節 Map-Reduce復雜應用案例,Hadoop流
第7節 新一代計算框架YARN
第8節 Pig原理,部署與Pig Latin語言,應用案例
第9節 Hive體系架構、安裝與HiveQL
第10節 Hive應用案例,impala子項目
第11節 Zookeeper與分布式系統開發
第12節 HBase體系架構,集群部署,管理
第13節 HBase數據模型,實戰案例建模剖析
第14節 數據集成Sqoop,Flume,Chukwa,商業數據庫與Hadoop集群的連接
第15節 與應用連接,REST和Thrift接口,UDF實戰,RHadoop,數據分析軟件與Hadoop集群的連接
第16節 進軍Hadoop源代碼
第17節 Hadoop在互聯網企業中的應用案例;集成各個子項目形成企業級數據分析平臺;Hadoop與機器學習 |