課程亮點
師資:*講師團隊,豐富行業(yè)經(jīng)驗和企業(yè)培訓(xùn)經(jīng)驗
特色:小班培訓(xùn),精品課程,面授+直播+錄播,上課方式多樣
培訓(xùn):免費重聽
適用對象
不限
課程內(nèi)容
*天
主題1:大數(shù)據(jù)平臺方案與應(yīng)用
傳統(tǒng)大規(guī)模數(shù)據(jù)處理與分析存在的問題
大數(shù)據(jù)計算框架
離線計算框架
流式計算框架
內(nèi)存計算框架
大數(shù)據(jù)分析平臺方案
CDH 、Hortonworks、MapR
傳統(tǒng)IT公司方案:Oracle Exadata,SAP HANA
核心組件
Hadoop 1.0與2.0版本關(guān)聯(lián)與區(qū)別
Hadoop生態(tài)系統(tǒng)
Apache Hadoop方案
國外主流大數(shù)據(jù)平臺方案
國內(nèi)主流大數(shù)據(jù)平臺方案與廠商
大數(shù)據(jù)平臺方案比較
主題2:大數(shù)據(jù)存儲系統(tǒng)
HDFS分布式文件系統(tǒng)
NameNode單點故障解決方案
block的備份策略
fsimage和editslog
HDFS系統(tǒng)架構(gòu)與原理
NameNode功能詳解
DataNode功能詳解
HDFS讀寫機制
HDFS高可用方案
主題3:大數(shù)據(jù)分析技術(shù)(一)–MapReduce計算框架
MapReduce編程模型
Map處理
Reduce處理
MapReduce處理流程
MapReduce開發(fā)高級應(yīng)用
Combiner技術(shù)
Partitioner技術(shù)
多Reducers應(yīng)用
主題4:SQL on Hadoop大數(shù)據(jù)分析查詢
基于MapReduce的大數(shù)據(jù)查詢Hive
列存儲和行存儲
Hive架構(gòu)與工作原理
Hive數(shù)據(jù)加載
Hive內(nèi)部表和外部表
Hive分區(qū)表和分桶表
Hive的存儲方式
Hive SQL基本操作
第二天
主題5:大數(shù)據(jù)分析技術(shù)(二)– Spark
Spark編程模型
Scala:面向函數(shù)的編程
Scala常見函數(shù)
Spark編譯與運行
Spark RDD開發(fā)模型
Cache操作
Persist操作與存儲級別
寬依賴
窄依賴
count
collect
reduce
saveAsTextFile
map
flatmap
filter
reduceByKey
分區(qū)與并行度
Spark RDD運行機制
Spark RDD主要Transformation
Spark RDD主要Action
Spark RDD依賴關(guān)系
Spark緩存機制
Spark集群架構(gòu)與運行模式
本地模式
獨立模式
YARN模式與Mesos模式
Spark作業(yè)運行機制
執(zhí)行DAG圖
任務(wù)集
executor執(zhí)行模型
BlockManager管理
Spark開發(fā)與應(yīng)用實戰(zhàn)
基于Spark的業(yè)務(wù)日志TopN分析