【課程內(nèi)容】
潮流技能 顛覆性課程
拒絕用老掉牙的淘汰項(xiàng)目練手 要做就做前沿
覆蓋大數(shù)據(jù)行業(yè)主流技術(shù)崗位,課程半年升級一次,緊跟市場與企業(yè)步伐
一、大數(shù)據(jù)入門基礎(chǔ)課程
1.JavaSE
2.MySQL
3.JDBC
4.Linux
5.shell
6.HTML
7.CSS
8.JavaScript
9.JSP
10.Servlet
二、大數(shù)據(jù)Hadoop基礎(chǔ)
1.大數(shù)據(jù)概論
2.Hadoop框架
3.HDFS分布式文件系統(tǒng)
4.MapReduce計(jì)算模型
5.全真實(shí)訓(xùn)項(xiàng)目
三、大數(shù)據(jù)離線分析
1.Hive數(shù)據(jù)倉庫
2.Sqoop ETL工具
3.Azkaban工作流引擎
4.Ooize
5.Impala
6.全真實(shí)訓(xùn)項(xiàng)目
四、大數(shù)據(jù)實(shí)時(shí)計(jì)算
1.Zookeeper分布式協(xié)調(diào)系統(tǒng)
2.HBase分布式數(shù)據(jù)庫
3.Redis數(shù)據(jù)庫
4.mogDB數(shù)據(jù)庫
5.Kudu列式存儲(chǔ)系統(tǒng)
6.Storm實(shí)時(shí)數(shù)據(jù)處理平臺(tái)
7.Kafka分布式發(fā)布訂閱消息系統(tǒng)
8.Flume海量日志采集系統(tǒng)
9.全真實(shí)訓(xùn)綜合項(xiàng)目
五、Spark數(shù)據(jù)計(jì)算
1.Scala
2.Spark
3RDD
4.Spark SQL
5. Streaming
6. Mahout
7.MLlib
8.GraphX
9.Spark R
10.Python
11.Alluxio
12.Python爬蟲
13.ElasticSearch
14.Lucene
【實(shí)戰(zhàn)項(xiàng)目】
1.Hadoop基礎(chǔ)實(shí)戰(zhàn)項(xiàng)目
項(xiàng)目名稱:搜狗搜索日志分析系統(tǒng)
數(shù)據(jù)體量:5000W+/日
硬件環(huán)境:Hadoop集群 12臺(tái)
軟件環(huán)境:Hadoop2.5.2+Hive1.2.1+MR+Oracle10g
項(xiàng)目描述:
搜狗每天產(chǎn)生大量的日志數(shù)據(jù),從日志數(shù)據(jù)里面能提取到有用的數(shù)據(jù)包括每個(gè)用戶的ID、瀏覽次數(shù)、月/日瀏覽頻率、訪問源、瀏覽內(nèi)容等等,提取這些內(nèi)容、統(tǒng)計(jì)數(shù)據(jù)分析每個(gè)用戶行為,從而做出有利的決定。
2.大數(shù)據(jù)離線實(shí)戰(zhàn)項(xiàng)目
項(xiàng)目名稱:新浪微博數(shù)據(jù)分析系統(tǒng)
日均數(shù)據(jù)體量:3GB+
硬件環(huán)境:Hadoop集群 50臺(tái)
軟件環(huán)境:MapReduce+HBase0.98.9+Storm0.9.6+Hadoop2.5.2+Kafka2.10+Zooke
eper3.4.5+CentOS-6.5-X86
項(xiàng)目描述:
此次項(xiàng)目我們需要處理微博產(chǎn)生的數(shù)據(jù),通過對數(shù)據(jù)的處理得到所需的數(shù)據(jù),微博擁有大量的用戶,大量的用戶潛在的價(jià)值是巨大,怎么挖掘這些潛在的寶藏就是我們項(xiàng)目直接的目的,為了能夠?qū)崟r(shí)的進(jìn)行數(shù)據(jù)處理使用Storm流式計(jì)算系統(tǒng),和HBase、Zookeeper、Kafka組成框架,對數(shù)據(jù)進(jìn)行處理,當(dāng)然這些都是建立在hadoop集群上實(shí)現(xiàn)的,底層的存儲(chǔ)還是HDFS。
3.大數(shù)據(jù)實(shí)時(shí)全真項(xiàng)目
項(xiàng)目名稱:網(wǎng)絡(luò)流量流向異常賬號統(tǒng)計(jì)項(xiàng)目
數(shù)據(jù)體量:每天1000億,每秒峰值100 000
硬件環(huán)境:Hadoop集群 600臺(tái)
軟件環(huán)境:Hadoop2.5.2+Hive1.2.1+MR+Oracle10g
項(xiàng)目描述:
運(yùn)營商骨干網(wǎng)上采集現(xiàn)網(wǎng)流量流向信息,根據(jù)這些原始信息檢測賬號是否存在異常,如果多個(gè)終端使用同一個(gè)寬帶賬號,超過一定閾值則觸發(fā)報(bào)警機(jī)制,例如閾值為5時(shí),同一個(gè)賬號同時(shí)連接的終端數(shù)量不能超過該值,如果超過則報(bào)警。
4.Spark階段項(xiàng)目
項(xiàng)目名稱:京東網(wǎng)上商城數(shù)據(jù)統(tǒng)計(jì)分析平臺(tái)
數(shù)據(jù)體量:5000W+/日
硬件環(huán)境:centos-6.5-x86 集群:spark standalone(Master-1,Worker-3)
軟件環(huán)境:hadoop,spark,hive,mysql,idea,navicat,kafka,flume
每日處理的數(shù)據(jù)量:3GB
項(xiàng)目描述:
基于京東網(wǎng)上商城數(shù)據(jù)統(tǒng)計(jì)分析平臺(tái)--該項(xiàng)目采用了目前大數(shù)據(jù)領(lǐng)域非常流行的技術(shù)——Spark。本項(xiàng)目使用了Spark技術(shù)生態(tài)棧中常用的三個(gè)技術(shù)框架,Spark Core、Spark SQL和Spark Streaming,進(jìn)行離線計(jì)算和實(shí)時(shí)計(jì)算業(yè)務(wù)模塊的開發(fā)。實(shí)現(xiàn)了包括:統(tǒng)計(jì)和分析UV、PV、登錄、留存、熱門商品離線統(tǒng)計(jì)、廣告流量實(shí)時(shí)統(tǒng)計(jì)3個(gè)業(yè)務(wù)模塊。
【教學(xué)優(yōu)勢】
來自清華、北大、北航的實(shí)戰(zhàn)講師和上市企業(yè)的骨灰級大咖授課
根據(jù)企業(yè)需求設(shè)計(jì)課程,并且定期更新,引入新技術(shù)
配備了價(jià)值上百萬的開發(fā)服務(wù)器,可實(shí)時(shí)感受分布式開發(fā)和云計(jì)算等
16小時(shí)老師全程陪伴,不怕學(xué)不會(huì)
線上線下結(jié)合,可以無縫銜接
學(xué)員管理以人為本,不忘初心,致力培養(yǎng)眼界高、技術(shù)牛、做人好的職場員工。
【師資介紹】
北航軟件工程碩士,16年軟件架構(gòu)開發(fā)經(jīng)驗(yàn),曾就職于東軟、DNS等知名企業(yè),新東方、達(dá)內(nèi)前教學(xué)總監(jiān),精通JAVAEE、JAVA框架、Oracle數(shù)據(jù)庫,知名企業(yè)培訓(xùn)大咖。
畢業(yè)于北京大學(xué),12年以上JAVA企業(yè)項(xiàng)目架構(gòu)和開發(fā)經(jīng)驗(yàn)。曾在二炮科技處、UPS科技、日本UCI科技等多家知名企業(yè)擔(dān)任過項(xiàng)目經(jīng)理和研發(fā)總監(jiān)