課程優(yōu)勢亮點
課程技術體系全覆蓋
本套課程包含了EB級架構(gòu)設計架構(gòu)底層技術體系、EB級架構(gòu)設計數(shù)據(jù)分布式采集體系、數(shù)據(jù)中間件技術體系、數(shù)據(jù)存儲技術體系、數(shù)據(jù)處理技術體系、OLAP生態(tài)體系、穩(wěn)健架構(gòu)設計體系、集群調(diào)度管理體系、數(shù)據(jù)挖掘體系、項目架構(gòu)設計體系課程,包含了大數(shù)據(jù)技術體系全部內(nèi)容。
大數(shù)據(jù)崗位全覆蓋
本套課程設計覆蓋互聯(lián)網(wǎng)大廠全部崗位,涵蓋從技術小白到大數(shù)據(jù)架構(gòu)全部技術、課程包含大數(shù)據(jù)各類數(shù)據(jù)采集、數(shù)據(jù)緩存、數(shù)據(jù)存儲、數(shù)倉構(gòu)建、數(shù)據(jù)處理、數(shù)據(jù)挖掘、數(shù)據(jù)可視化、技術對比選型、平臺開發(fā)、技術組件的二開、質(zhì)量監(jiān)控平臺開發(fā)、源碼深度解讀等技術方面,技術覆蓋大數(shù)據(jù)全部崗位。
對標互聯(lián)網(wǎng)架構(gòu)師課程設計
本套課程中不僅面向零基礎小白,同時也適合工作多年的大數(shù)據(jù)開發(fā)人員技術提升,課程內(nèi)容既有深度又有廣度,針對每個技術點都有完整的理論知識體系及生產(chǎn)場景實戰(zhàn)案例分析,技術原理源碼級講解,企業(yè)級項目架構(gòu)設計方式及代碼級講解,基于互聯(lián)網(wǎng)大廠案例驅(qū)動教學,在通向大數(shù)據(jù)架構(gòu)師的道路上助你一臂之力。
一對一技術路線規(guī)劃
根據(jù)每位學員在工作學習中掌握的技能點不同、公司內(nèi)部使用的技術不同、學習提升目的不同,我們針對不同技術層次的同學設置一對一的技術路線規(guī)劃,只為找到針對個人最適合、高效、最特色的學習步驟,通過一對一技術路線規(guī)劃學習路徑,來達到升職漲薪的最終目的。
一對一問題答疑
在學習過程中同學難免遇到各種問題,在學習中遇到的各種問題都可以直接找到授課老師進行一對一問題答疑,對癥下藥,直到解決問題為止。此外,在工作中遇到的各種技術問題,也可以直接找到對應的老師來進行技術指導,可謂“一次學習,售后終生”,解決同學學習到職場中遇到的各種問題。
貼心助教陪伴學習
如果你擔心自己不能持之以恒學習,不用擔心,我們安排了班主任貼心督學、指導,并且還有vip學員答疑群,資深老師群內(nèi)專業(yè)解答,班級同學互相討論,學習不再是孤軍奮戰(zhàn)!
大數(shù)據(jù)課程標準
為什么要培訓成為高級數(shù)據(jù)開發(fā)工程師?
01.全鏈路數(shù)據(jù)開發(fā)培訓課程
02.以“周”為單位更新課程/前沿技術
03.至少包含3個企業(yè)級數(shù)據(jù)開發(fā)大型項目
04.項目課程占比超過40%
05.數(shù)據(jù)開發(fā)技術課程深入且廣泛
06.培養(yǎng)數(shù)據(jù)開發(fā)思維
07.多行業(yè)項目實戰(zhàn)助力高薪就業(yè)
大數(shù)據(jù)課程大綱
階段 |
周次 |
主要學習方向 |
第1階段Linux和高并發(fā)階段 |
正式班第01周 |
?計算機組成原理、Linux 系統(tǒng)安裝使用 ?Linux初級命令、Linux的文件系統(tǒng) ?Linux文本操作及權限操作、Linux的三劍客 ?Linux文本分析、Linux的網(wǎng)絡與時間 ?Linux進程管理 ?LVS-DNAT-DR-TUN 調(diào)度算法 ?Linux安裝管理(rpm,yum) ?Linux的Shell編程 ?Nginx原理與配置 ?Nginx反向代理與負載均衡 ?Zookeeper背景與介紹與環(huán)境及安裝 ?Zookeeper源語命令操作與元數(shù)據(jù)信息的意義
|
第2階段Hadoop生態(tài)體系階段 |
正式班第02周 |
?算法資源與大數(shù)據(jù)思維 ?Hadoop分布式文件系統(tǒng)架構(gòu) ?HDFS數(shù)據(jù)安全與傳輸流程 ?搭建高可用分布式集群 ?HDFS3.x高可用與聯(lián)邦機制 ?HDFS3.x的新特性、Window訪問HDFS ?MapReduce體系結(jié)構(gòu) ?MapReduce算法思想 ?MapReduce源碼剖析 ?MapReduce案例:天氣數(shù)據(jù)統(tǒng)計
|
正式班第03周 |
?MapReduce案例:好友推薦系統(tǒng) ?MapReduce案例:PageRank ?MapReduce案例:豆瓣電影250 ?MapReduce案例:TF-IDF ?數(shù)據(jù)倉庫基礎 ?Hive架構(gòu)與搭建 ?Hive查詢訪問 ?Hive DDL和數(shù)據(jù)分區(qū)分桶 ?Hive DML ?Hive執(zhí)行原理與優(yōu)化
|
|
第3階段電商日志分析 |
正式班第04周 |
?Hbase架構(gòu)與數(shù)據(jù)存儲模型 ?Hbase表結(jié)構(gòu) ?Hbase 讀寫數(shù)據(jù)流程與存儲數(shù)據(jù)結(jié)構(gòu)LSM樹 ?Hbase standalone模式安裝 ?Hbase 完全分布式安裝與Hbase 高可用 ?Hbase搭建注意與Hbase基本命令 ?項目:電商日志維度分析基本介紹 ?項目:電商日志業(yè)務分析 ?項目:電商數(shù)據(jù)來源與日志收集 ?項目:電商數(shù)據(jù)流程圖 ?項目:電商項目數(shù)據(jù)采集項目配置 ?項目:電商項目MapReduce實現(xiàn)數(shù)據(jù)清洗
|
正式班第05周 |
?項目:電商項目數(shù)據(jù)庫表設計理念 ?項目:電商項目活躍用戶TopN開發(fā)和運行 ?項目:項目總結(jié) ?項目:數(shù)據(jù)處理流程 ?Flume簡介和Flume安裝 ?Flume使用和知識拓展 ?DataX概覽和安裝 ?DataX使用和DataX-Web ?Azkaban架構(gòu)和部署 ?Azkaban的集群搭建和實戰(zhàn)
|
|
第4階段企業(yè)常用中間件 |
正式班第06周 |
?索引、分詞器和ElasticSearch數(shù)據(jù)存儲結(jié)構(gòu) ?ElasticSearch基本命令和插件安裝、JavaAPI ?基于zookeeper 的分布式協(xié)調(diào)案例 ?Kafka 分布式消息系統(tǒng)介紹 ?Kafka 應用場景 ?Kafka 生產(chǎn)消息原理 ?Kafka Topic、partition 原理 ?Kafka 集群搭建/Kafka 命令使用 ?KafkaTopic更改、刪除 ?API操作Kafka ?redis發(fā)展史與特點 ?安裝redis及使用命令行客戶端 ?redis 的常見數(shù)據(jù)類型 ?如何使用java訪問redis ?redis 的事務(transaction) ?redis優(yōu)化 ?redis的 sentinel高可用 ?redis3.x集群安裝配置
|
第5階段Spark計算框架體系階段 |
正式班第07周 |
?scala語言六大特性 ?Scala下載安裝 ?Scala環(huán)境配置 ?IDEA 開發(fā)Scala 配置 ?Scala 數(shù)據(jù)類型與類型推斷機制 ?Scala 類和對象/Scala 循環(huán)、判斷 ?Scala 基本語法 ?Scala 函數(shù)及應用(匿名函數(shù)、高階函數(shù)等) ?Scala Array 操作 ?Scala可變數(shù)組操作 ?Scala 可變列表操作 ?Scala 中Set、Map、元組操作及要點 ?Scala 樣例類 ?Scala trait特征特質(zhì) ?Scala伴生類 ?Scala 伴生對象 ?Scala 模式匹配 ?Scala actor通信模型 ?Spark 技術介紹/Spark 技術站詳解 ?Spark 演變歷史/Spark 與MR的區(qū)別 ?Spark 運行模式介紹 ?Spark 集群搭建/Spark 配置選項詳解 ?Spark 原理簡介 ?Spark RDD彈性分布式數(shù)據(jù)集 ?Spark map算子使用 ?Spark flatMap算子使用 ?Spark filter、sample算子使用 ?Spark count、foreach算子使用
|
正式班第08周 |
?持久化數(shù)據(jù)級別分類 ?持久化算子cache使用 ?Cache 要點注意事項 ?持久化算子persist使用 ?持久化算子Checkpoint ?Checkpoint 執(zhí)行流程 ?Checkpoint 注意事項 ?standalone集群的搭建 ?standalone集群部署模式的任務提交操作 ?spark on yarn部署(集群模式) ?yarn模式下的客戶端以及集群提交任務 ?yarn模式下歷史日志服務部署 ?轉(zhuǎn)換算子join union ?轉(zhuǎn)換算子mapPartitions distinct ?觸發(fā)算子foreachPartition ?spark術語解析以及寬窄依賴 ?stage概念 ?寬窄依賴切割原理 ?管道pipeline計算模式測試 ?資源調(diào)度以及任務調(diào)度流程解析 ?spark資源申請粒度 ?推測執(zhí)行機制 ?轉(zhuǎn)換算子mapPartitionsWithIndex repartition ?coalesce與repartition區(qū)別詳解 ?groupByKey與reduceByKey算子區(qū)別詳解countByKey與countByValue等算子解析 ?spark應用程序常用工具類編寫 ?spark pv,uv案例、二次排序案例、分組取topN案例 ?spark-submit任務提交命令參數(shù)詳解 ?sparkShell相關操作 ?歷史日志服務以及webUI操作解析
|
|
第6階段Spark計算框架體系階段 |
正式班第09周 |
?spark的MasterHA配置 ?共享變量之累加器以及廣播變量 ?sparkShuffle分類及差異解析 ?sparkshuffle參數(shù)調(diào)優(yōu) ?sparkshuffle的文件尋址 ?spark的內(nèi)存管理 ?spark集群啟動源碼解析 ?spark Master角色源碼(通信處理,應用注冊等) ?spark初始化部分源碼解析 ?spark schedule源碼解析 ?spark core篇復習回顧 ?spark sql篇展望 ?sparkSql核心操作對象dataSet ?sparkSql底層架構(gòu)以及謂詞下推等概念介紹 ?idea構(gòu)建項目sparkSql讀取json格式數(shù)據(jù) ?idea構(gòu)建項目sparkSql讀取非json格式數(shù)據(jù) ?sparkSql動態(tài)創(chuàng)建schema信息 ?sparkSql讀取mysql和讀取parquet ?sparkSql讀取Hive數(shù)據(jù) ?序列化問題 ?udf以及udaf函數(shù)的編寫 ?開窗函數(shù)的使用
|
正式班第10周 |
?sparkStreaming介紹 ?sparkSteaming模型圖解 ?receiver模式存在的問題 ?實時處理socket連接數(shù)據(jù) ?準實時處理微批處理的概念及注意點 ?foreachRDD算子注意事項 ?transform算子注意事項 ?updateStateByKey算子注意事項 ?window窗口操作及優(yōu)化手段 ?sparkStreaming和kafka0.8的receiver模式 ?sparkStreaming和kafka0.8的direct模式 ?sparkStreaming實際開發(fā)任務處理參數(shù)調(diào)優(yōu) ?webUI以及反壓機制的介紹 ?kylin的背景介紹/kylin的應用場景 ?kylin的部署方式/kylin安裝部署 ?KyLin和Hive/KyLin和hbase ?kylin事實表/kylin維度表
|
|
正式班第11周 |
?項目:車流量項目簡介 ?項目:車流量項目數(shù)據(jù)模擬 ?項目:車流量卡口狀態(tài)監(jiān)控圖 ?項目:車流量項目自定義累加器 ?項目:車流量項目行車軌跡 ?項目:車流量項目卡口下的行車軌跡 ?項目:車流量項目集群規(guī)模估算 ?項目:車流量項目道路轉(zhuǎn)化率 ?項目:車流量項目實時擁堵業(yè)務 ?項目:車流量項目的總結(jié)
|
|
第7階段Flink實時計算系統(tǒng)階段 |
正式班第12周 |
?Flink簡介 ?Flink架構(gòu)組成 ?Flink 開發(fā)環(huán)境配置 ?Flink 批次處理和流式處理案例 ?虛擬key的操作方式 ?daaSource的創(chuàng)建方式 ?transformation 操作符介紹 ?sink 操作符使用以及靈活使用addSink ?Flink集群部署角色介紹 ?Flink on Yarn部署方式(兩種) ?Flink并行度解析 ?Flink窗口分類使用 ?Flink時間類型以及水印 ?waterMark整體介紹及定義方式 ?Flink廣播變量和累加器的使用 ?Checkpoint的開啟與設置 ?狀態(tài)后端存儲 ?savepoint的使用以及和checkpoint的區(qū)別 ?操作鏈的使用方式 ?taskSlots的原理 ?historyserver日志服務的配置 ?kafka連接器的使用與整合
|
第8階段CDH+OIZE+HUE+IMPALA |
正式班第13周 |
?cloudera manager框架原理 ?純手工安裝cloudera manager ?cloudera manager部署CDH ?cloudera manager管理主機 ?cloudera manager管理集群、管理服務 ?cloudera manager管理實例、管理配置 ?cloudera manager管理監(jiān)控、管理資源 ?cloudera manager service圖表使用 ?cloudera manager service圖表創(chuàng)建 ?cloudera manager service的 dashboard ?Hue 介紹 ?Hue 安裝 ?Hue 的HIVE管理與使用 ?Hue 的Oozie 管理與使用 ?Hue 的metadata管理與使用 ?Hue 的用戶管理與使用 ?Impala介紹/內(nèi)存計算與 MR,SPARK 計算的比較 ?impala框架角色講解/impala的安裝 ?impala的命令行使用/impala的命令參數(shù)詳解 ?Oozie 框架角色原理 ?Oozie 的xml 配置文件 ?Oozie 的job 配置文件 ?numpy安裝/numpy基礎 ?矩陣的創(chuàng)建/矩陣的屬性 ?矩陣的常用函數(shù) ?矩陣的迭代/矩陣的形狀操作
|
第9階段機器學習和算法體系階段 |
正式班第14周 |
?線性回歸算法原理 ?多元線性回歸算法 ?貝葉斯分類算法 ?KNN分類算法 ?Kmeans算法、Kmeans++算法 ?TF-IDF算法 ?邏輯回歸分類算法 ?決策樹算法 ?隨機森林算法 ?推薦系統(tǒng)原理
|
正式班第15周 |
?項目:推薦系統(tǒng)解決的問題和價值 ?項目:推薦系統(tǒng)的架構(gòu)和場景分析 ?項目:推薦系統(tǒng)的埋點和離線召回 ?項目:協(xié)同過濾和推薦系統(tǒng)的在線召回 ?項目:推薦系統(tǒng)數(shù)據(jù)準備和離線任務(一) ?項目:推薦系統(tǒng)數(shù)據(jù)準備和離線任務(二) ?項目:推薦系統(tǒng)機器學習算法GBDT+LR ?項目:推薦系統(tǒng)機器學習算法XGBOOST和pmml部署 ?項目:推薦系統(tǒng)算法之神經(jīng)網(wǎng)絡 ?項目:推薦系統(tǒng)深度學習算法之wide&deep
|
|
正式班第16周 |
?項目:推薦系統(tǒng)ab框架和評估 ?項目:推薦項目日志收集和指標分析 ?項目:游戲數(shù)據(jù)分析項目介紹 ?項目:游戲數(shù)據(jù)分析數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)生成 ?項目:數(shù)倉建模理論和數(shù)據(jù)ETL ?項目:游戲數(shù)據(jù)渠道指標分析 ?項目:游戲數(shù)據(jù)分析用戶活躍留存指標分析 ?項目:游戲數(shù)據(jù)用戶付費指標分析 ?簡歷項目撰寫方法介紹 ?簡歷項目撰寫樣例分析
|
|
【老師介紹】
【大數(shù)據(jù)就業(yè)崗位和前景】
大數(shù)據(jù)研發(fā):
大數(shù)據(jù)分析:
大數(shù)據(jù)運維:
【學員風采】
【教學現(xiàn)場】