課程亮點
師資:*講師團隊,豐富行業經驗和企業培訓經驗
特色:小班培訓,精品課程,面授+直播+錄播,上課方式多樣
培訓:免費重聽
適用對象
不限
學習目標
了解大數據業內*新發展趨勢,深入掌握Hadoop的原理,Hadoop生態系統
課程內容
大數據背景與思維
1. 什么是大數據
2. 大數據技術的產生背景
3. 大數據應用場景
4. 大數據思維
5. 大數據產業鏈
6. 大數據是如何變革各行業的技術架構、商業模式和組織方式
7. 大數據必備的技術基礎
*天
互聯網電信大數據應用案例深度解析
大數據在通信及互聯網行業的應用案例解析-以下幾個案例將貫穿整個培訓內容, 作為每個章節的案例分析細化到每個大數據的知識點
互聯網企業遇到大數據的問題
案例分享:海量數據通信行業解決方案
案例分享:基于通信網元實時數據的海量數據解決方案
案例分享:*電信用戶畫像分析系統的大數據變現案例分析
案例分享:淘寶大數據分析案例分析
*天
海量數據處理系統
的架構設計
這個部分主要講解海量數據處理的架構設計,針對海量數據的問題設計海量數據的架構解決方案。
海量數據處理的系統場景
大數據時代的數據架構解決方案
海量數據處理的架構匯總
8種海量數據處理的架構設計比較
分布式系統架構的海量數據處理設計
海量數據處理設計
典型案例分析:結合一個500強實時數據系統的實例案例進行分析,詳細分析海量數據處理的架構設計
第二天
案例及動手實驗
HDFS實戰-Java API使用
PB 級大數據存儲系統的項目案例分析
HDFS部署、配置與性能調優實戰
典型案例分析:通過HDFS API完成一個復雜數據系統的操作過程
Hadoop MapReduce深入解析
使用 Hadoop MapReduce Streaming 編程
MapReduce流程
基本MapReduceAPI 概念
MapReduce的優化
MapReduce的任務調度
MapReduce編程實戰
滿足解決實際數據分析問題的高級Hadoop API
第三天
Hive架構及實踐案例沙盤演練
Hive系統部署與搭建
Hive工作機制
基于Hive的大數據加載過程
Hive程序編寫性能建議
MapJoin
數據傾斜
Join順序
UDF編寫注意事項
快速獲取結果TopN
通過Explain觀察Hive行為
動手實驗:完成Hive的搭建與配置
典型案例分析:基于Hive的大型電信通話記錄分析示例,詳細分析Hive的架構應用、性能調優及其使用場景與整體系統架構的結合
第四天
Spark架構及實踐
案例沙盤演練
1.2 Spark的重要擴展
1.2.1 Spark SQL和Dataframe
1.2.2 Spark Streaming
1.2.3 Spark MLlib和ML
1.2.4 GraphX
1.2.5 SparkR
2.3 運行Spark應用程序
2.3.1 Local模式運行Spark應用程序
2.3.2 Standalone模式運行Spark應用程序
2.3.3 YARN模式運行Spark
2.3.4 應用程序提交和參數傳遞
3 Spark程序開發
3.1 使用Spark Shell編寫程序
3.1.1 啟動Spark Shell
3.1.2 加載text文件
3.1.3 簡單RDD操作
3.1.4 簡單RDD操作應用
3.1.5 RDD緩存
3.2 構建Spark的開發環境
3.2.1 準備環境
3.2.2 構建Spark的Eclipse開發環境
3.2.3 構建Spark的IntelliJ IDEA開發環境
3.3 獨立應用程序編程
3.3.1 創建SparkContext對象
3.3.2 編寫簡單應用程序
3.3.3 編譯并提交應用程序
第五天
Spark Streaming應用開發
Spark Streaming Java實例開發、運行
Spark Streaming Java實例的運行過程分析
Spark Streaming內部數據傳輸過程分析
Spark Streaming應用開發總結(API回顧,典型應用模式總結)
Spark Streaming消息可靠性保證機制介紹
Spark Streaming實時大數據算法解析案例
Spark Streaming實時大數據報警案例
Spark Streaming實時大數據的調整與改進