課程亮點
師資:*講師團隊,豐富行業經驗和企業培訓經驗
特色:小班培訓,精品課程,面授+直播+錄播,上課方式多樣
培訓:免費重聽
適用對象
不限
課程內容
*天
主題1:大數據平臺方案與實施
大數據基礎與發展過程
傳統大規模數據處理與分析存在的問題
大數據計算框架
離線計算框架;流式計算框架;內存計算框架;
大數據平臺方案
CDH 、Hortonworks、MapR;傳統IT公司方案:Oracle Exadata,SAP HANA;核心組件;Hadoop 1.0與2.0版本關聯與區別;Hadoop生態系統;Apache Hadoop方案;國外主流大數據平臺方案;國內主流大數據平臺方案與廠商;大數據平臺方案比較;
大數據的行業應用
大數據的落地實施挑戰
主題2:大數據計算模型(一)–批處理MapReduce
MapReduce編程模型
Map處理;Reduce處理;MapReduce主程序設置;
MapReduce處理流程
數據讀取collect;中間數據sort;中間數據spill;中間數據shuffle;聚合分析reduce;
MapReduce開發高級應用
Combiner技術與應用場景;Partitioner技術與應用場景;多Reducers應用;
MapReduce開發與應用實踐
Hadoop平臺搭建與運行;MapReduce安裝與部署;應用案例:基于HDFS+MapReduce集成的服務器日志分析采集、存儲與分析MapReduce程序實例開發與運行;
主題3:大數據存儲系統
HDFS分布式文件系統
NameNode單點故障解決方案;NFS冷備份;block的備份策略;fsimage和editslog;HDFS系統架構與原理;NameNode功能詳解;DataNode功能詳解;HDFS讀寫機制;HDFS高可用方案;
第二天
主題4:Hadoop軟件框架與優化
Hadoop1.0框架
Hadoop JobTracker;Hadoop TaskTracker;
Hadoop 2.0 框架
ResourceManager組件;NodeManager組件;ApplicationMaster組件;YARN組件;
Hadoop 2.0 資源調度優化
YARN調度原理;CapacityScheduler;FairScheduler;
Hadoop框架組件調優
慢啟動優化;心跳優化;容錯優化;MR計算框架參數調優;
HDFS調優
RPC線程調優;本地文件系統調優;RAID與卷管理調優;小文件優化;
主題5:大數據計算模型(二)實時交互計算– Spark
Spark編程模型
Scala:面向函數的編程;Scala常見函數與開發;Scala編譯和運行;
Spark RDD開發模型
寬依賴;窄依賴;count;collect;saveAsTextFile;map;flatmap;filter;union;reduceByKey;groupByKey;Spark RDD運行機制;Spark RDD主要Transformation;Spark RDD主要Action;Spark RDD依賴關系;
Spark集群架構與關鍵組件
Spark作業運行機制
執行DAG圖;任務集;executor執行模型;
Spark開發與應用實踐
基于HDFS+Flume+Spark的服務器運行日志實時分析Spark程序實例開發與運行;Spark運行環境搭建與部署;應用案例;
主題6:SQL on Hadoop大數據查詢
基于MapReduce的大數據查詢Hive
列存儲和行存儲;Hive架構與工作原理;Hive數據加載;Hive內部表和外部表;Hive分區表和分通表;Hive的存儲方式;Hive SQL基本操作;
基于Spark的大數據查詢SparkSQL
數據表讀取、查詢與結果保存;json;Hive table;Parquet file;RDD;SparkSQL工作原理與執行機制;SparkSQL數據模型Dataframe;SparkSQL數據讀取與結果保存;SparkSQL和Hive的區別與聯系;實踐SparkSQL操作;
第三天
主題7:大數據計算模型(三) 流計算
流數據處理應用場景
流數據處理特點;流計算系統:SparkStreaming,Storm對比;
流數據計算框架:Spark Streaming
基于文件流的SparkStraeming程序;基于socket流的SparkStraeming程序;Spark Streaming基本概念;Spark Streaming數據模型DStream;Spark Streaming架構與工作機制;Spark Streaming數據源操作;Spark Streaming開發示例;
流數據計算框架:Storm
Spout,Bolt, Topology;Storm基本概念;Storm編程模型;數據流分組;并發度設置;容錯機制;
主題8:NoSQL數據庫
NoSQL數據庫
Hbase,MongoDB,Redis;關系型數據庫瓶頸;NoSQL數據庫概念,分類與適用場景;
列存儲NoSQL數據庫Hbase
高表與寬表;rowkey設計;LSM結構的數據組織與讀寫;Hmaster;RegionServer;Zookeeper;行、列簇、時間戳;Hbase原理與數據模型;Hbase系統架構;Hbase的讀寫機制;Hbase表的設計原則;Hbase適用場景;
主題9:大數據采集
RDBMS與Hadoop數據轉換工具Sqoop
Sqoop工作原理;
文件采集工具Flume
Flume組件與運行;Flume常用配置;
Kafka
Kafka基本概念: producer, broker, consumer;Kafka集群架構;Kafka運行機制;Kafka應用場景;