【招生對(duì)象】
零基礎(chǔ)學(xué)員
【授課方式】
遠(yuǎn)程+面授
【上課時(shí)間】
周一到周日9-18點(diǎn)
【學(xué)習(xí)目標(biāo)】
不再單一依靠開(kāi)源公開(kāi)數(shù)據(jù)網(wǎng)站的數(shù)據(jù),適當(dāng)擺脫對(duì)國(guó)家統(tǒng)計(jì)年鑒、wind數(shù)據(jù)庫(kù)、知網(wǎng)數(shù)據(jù)的依賴,能夠從更多元的渠道獲取數(shù)據(jù),使用python更高效的處理數(shù)據(jù),并用更前沿的技術(shù)分析和挖掘數(shù)據(jù)信息,為我們的科研工作減輕中間工作負(fù)擔(dān)。
【課程亮點(diǎn)】
本課程致力于講授完整的結(jié)構(gòu)化數(shù)據(jù)、文本數(shù)據(jù)的獲取、存儲(chǔ)、讀取、處理和分析過(guò)程,我們期望課程可以幫助到廣大的用戶,包括所有想要使用python編程語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)獲取和文本分析的在校師生、以及致力于將數(shù)據(jù)分析與挖掘的價(jià)值廣泛運(yùn)用到實(shí)際場(chǎng)景的商業(yè)人士。
【課程內(nèi)容】
01章概述 爬蟲與文本分析概述
01-01結(jié)構(gòu)化數(shù)據(jù)/文本數(shù)據(jù)的獲取方法概述
01-02高效的編程語(yǔ)言實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)處理與文本分析的價(jià)值
02章編程基礎(chǔ)
02-01python編程基礎(chǔ)(標(biāo)準(zhǔn)數(shù)據(jù)類型,控制流,自定義函數(shù),類,os文件處理模塊)
02-02python重要數(shù)據(jù)科學(xué)計(jì)算庫(kù)(Numpy,Pandas,Matplotlib,Pyecherts,wordcloud)
03章數(shù)據(jù)獲取
03-01爬蟲基礎(chǔ)(網(wǎng)絡(luò)爬蟲簡(jiǎn)介,爬蟲的基本原理,HTML 簡(jiǎn)介,數(shù)據(jù)存儲(chǔ))
03-02網(wǎng)頁(yè)抓?。ㄊ褂?Urllib網(wǎng)頁(yè)抓取,requests實(shí)戰(zhàn))
03-03BeautifulSoup4(簡(jiǎn)介,安裝,BS 對(duì)象的種類,遍歷文檔樹(shù),搜索文檔樹(shù))
03-04Xpath(什么是Xpath,Xpath開(kāi)發(fā)工具,Xpath常用規(guī)則)
03-05動(dòng)態(tài)渲染頁(yè)面抓?。⊿elenium的安裝,基本使用,聲明瀏覽器對(duì)象,訪問(wèn)頁(yè)面,定位元素,節(jié)點(diǎn)交互,動(dòng)作鏈,執(zhí)行 JavaScript,獲取節(jié)點(diǎn)信息,延時(shí)等待,前進(jìn)后退,Cookies,選項(xiàng)卡管理,異常處理)
03-06爬蟲實(shí)戰(zhàn)(網(wǎng)站的爬取,基電商評(píng)價(jià)文本爬?。?/p>
04章數(shù)據(jù)存儲(chǔ)與讀取
04-01可供讀取數(shù)據(jù)類型介紹(excel、pdf、txt、html、mysql數(shù)據(jù)庫(kù)文件介紹)
04-02數(shù)據(jù)的存儲(chǔ)(將數(shù)據(jù)存儲(chǔ)到excel表,txt文本,word文檔)
04-03數(shù)據(jù)的讀?。╬ython批量讀取多個(gè)多子表excel,python讀取txt文件,word文檔)
05章數(shù)據(jù)處理
05-01正則表達(dá)式(什么是正則表達(dá)式,正則表達(dá)式匹配規(guī)則,re模塊的使用)
05-02文本處理常用方法(字符串的不變性,排序行,段落格式化,二進(jìn)制轉(zhuǎn)化為ASCII,重復(fù)字詞過(guò)濾,提取郵件地址,提取URL地址,大寫轉(zhuǎn)換,符號(hào)化,刪除停用詞,同義詞與反義詞處理,文本翻譯,單詞替換,拼寫檢查,WordNet接口,語(yǔ)料訪問(wèn),標(biāo)記單詞,塊和裂口,塊分類,文本分類,雙字母組,文字改寫,文字換行,頻率分布,文字摘要,詞干算法,約束搜索)
05-03結(jié)構(gòu)化數(shù)據(jù)處理--數(shù)據(jù)清洗(numpy數(shù)值計(jì)算要點(diǎn)串講,Pandas數(shù)據(jù)處理串講,python統(tǒng)計(jì)圖表展示)
06章文本分析實(shí)戰(zhàn)
06-01重要的庫(kù)(jieba庫(kù)簡(jiǎn)介)
06-02關(guān)鍵詞提?。P(guān)鍵詞任務(wù)概述,TF-IDF算法原理,相似文章推薦原理介紹,實(shí)例:紅樓夢(mèng)文本分析的實(shí)現(xiàn),文件與詞庫(kù)的讀取,完成分詞與詞云圖的繪制)
06-03文本分類(新聞素材介紹,新聞內(nèi)容的關(guān)鍵詞提取,詞向量轉(zhuǎn)化與ngram模型,樸素貝葉斯算法完成新聞分類)
【師資力量】
辛立偉
擅長(zhǎng)數(shù)據(jù)架構(gòu)、數(shù)據(jù)分析
教學(xué)經(jīng)驗(yàn)20年
CDA數(shù)據(jù)分析研究院講師
SUN中國(guó)社區(qū)會(huì)員
趙仁乾
擅長(zhǎng)數(shù)據(jù)架構(gòu)、數(shù)據(jù)分析
教學(xué)經(jīng)驗(yàn)7年
北京郵電大學(xué)管理科學(xué)與工程碩士
北京電信規(guī)劃設(shè)計(jì)院
吳昊天
擅長(zhǎng)數(shù)據(jù)架構(gòu)、數(shù)據(jù)分析
教學(xué)經(jīng)驗(yàn)8年
電子科技大學(xué)大數(shù)據(jù)中心
CDA數(shù)據(jù)分析研究院技術(shù)負(fù)責(zé)人兼高級(jí)講師
【學(xué)員風(fēng)采】
【學(xué)員評(píng)價(jià)】
孔同學(xué)
統(tǒng)計(jì)學(xué)和數(shù)據(jù)挖掘理論是數(shù)據(jù)分析的基礎(chǔ),常規(guī)的統(tǒng)計(jì)理論和數(shù)據(jù)挖掘算法必須要學(xué)會(huì),想入行應(yīng)重點(diǎn)研究,并要學(xué)會(huì)制作風(fēng)險(xiǎn)評(píng)分卡。其他算法了解即可。
董同學(xué)
三個(gè)月的學(xué)習(xí)時(shí)間。緊湊的課程安排讓我感覺(jué)每一天都特別充實(shí),白天認(rèn)真聽(tīng)講,晚自習(xí)鞏固復(fù)習(xí),每一天都在進(jìn)步和成長(zhǎng)。 我對(duì)未來(lái)充滿了希望。
王同學(xué)
CDA的學(xué)習(xí)經(jīng)歷,給我的人生增添了一段難忘的回憶,也給我在現(xiàn)在的工作中帶來(lái)了很大的幫助,在今后的工作中要更加努力,不斷完善自己。
蘇同學(xué)
學(xué)習(xí)是一種態(tài)度,在CDA三個(gè)月集中學(xué)習(xí)的過(guò)程中,認(rèn)識(shí)了很多同學(xué),也增長(zhǎng)了一些校園以外的知識(shí),學(xué)習(xí)的過(guò)程很累很艱辛,卻覺(jué)得很值得! 痛并快樂(lè)著??!
李同學(xué)
CDA對(duì)于我而言,是一個(gè)新生活的起點(diǎn),經(jīng)過(guò)3個(gè)月的奮戰(zhàn),我學(xué)習(xí)到了許多知識(shí),更結(jié)識(shí)了許多志同道合的朋友,這是我3個(gè)月的學(xué)習(xí)生活寶貴的財(cái)富。
趙同學(xué)
首先感謝的是課堂里茫茫多的教授級(jí)導(dǎo)師的個(gè)人魅力的熏陶,其次就是,三個(gè)月持續(xù)不斷的學(xué)習(xí),讓我養(yǎng)成一個(gè)持續(xù)學(xué)習(xí)的心態(tài)和熱愛(ài)學(xué)習(xí)的態(tài)度。
【學(xué)習(xí)周期】
40課時(shí)
【機(jī)構(gòu)環(huán)境】
【機(jī)構(gòu)簡(jiǎn)介】
如荷學(xué)為北京國(guó)富如荷網(wǎng)絡(luò)科技有限公司旗下專注于數(shù)字化人才培養(yǎng)及服務(wù)的教育品牌,致力于大數(shù)據(jù)在產(chǎn)、學(xué)、研的融合應(yīng)用。服務(wù)百萬(wàn)數(shù)字化人才,是全球500強(qiáng)企業(yè)的忠實(shí)合作伙伴。
如荷學(xué)以"培養(yǎng)企業(yè)需要的專業(yè)數(shù)字化人才,搭建弓|領(lǐng)數(shù)字化時(shí)代的企業(yè)人才梯隊(duì)”為使命,為TD時(shí)代數(shù)字化人才的數(shù)據(jù)能力提升及企業(yè)數(shù)字化轉(zhuǎn)型提供標(biāo)準(zhǔn)化、效率、可落地的數(shù)據(jù)應(yīng)用側(cè)解決方案。
【發(fā)展歷程】
2006年 開(kāi)展數(shù)據(jù)統(tǒng)計(jì)、計(jì)量實(shí)戰(zhàn),學(xué)術(shù)研究等相關(guān)培訓(xùn)視頻和現(xiàn)場(chǎng)班
2007年 開(kāi)展數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)分析相關(guān)培訓(xùn)班
2011年 隨著大數(shù)據(jù)熱潮的來(lái)臨,依托累計(jì)上萬(wàn)類共享資料,多年沉淀師資團(tuán)隊(duì),論壇召集多位專家,研發(fā)CDA數(shù)據(jù)分析師體系
2013年CDA數(shù)據(jù)分析師品牌成立,提供系統(tǒng)化的大數(shù)據(jù)、數(shù)據(jù)分析人才培養(yǎng)和認(rèn)證
2014年 CDA INSTITUTE 成立 ,并推出第 一屆全國(guó)CDA數(shù)據(jù)分析師認(rèn)證考試
2015年第 一屆中國(guó)數(shù)據(jù)分析師行業(yè)峰會(huì)(CDAS)在9月11日成功舉辦,參會(huì)人數(shù)逾3000人
2016年 CDA匯聚海內(nèi)外大數(shù)據(jù)、數(shù)據(jù)分析專家上千人,推出就業(yè)班、數(shù)據(jù)科學(xué)家訓(xùn)練營(yíng)、企業(yè)內(nèi)訓(xùn)、CDA俱樂(lè)部等多個(gè)項(xiàng)目
2017年整合論壇與CDA數(shù)據(jù)分析師業(yè)內(nèi)資源,形成數(shù)據(jù)分析領(lǐng)域生態(tài)圈,并進(jìn)一步升級(jí)CDA企業(yè)內(nèi)訓(xùn)體系,正式推出大數(shù)據(jù)實(shí)驗(yàn)室
2018年北上廣深等多個(gè)城市均有校區(qū);擁有200多位專業(yè)師資;培養(yǎng)學(xué)員超過(guò)3萬(wàn)人,每年6月/12月全國(guó)28個(gè)城市舉辦CDA認(rèn)證考試
2019年已舉辦九屆數(shù)據(jù)分析師認(rèn)證考試,得到業(yè)界廣泛認(rèn)可,學(xué)員遍布各大知名企業(yè)。人工智能產(chǎn)品“好學(xué)AI”問(wèn)世,引領(lǐng)DT時(shí)代新一波技術(shù)培訓(xùn)浪潮
【品牌宣傳】
用AI讓優(yōu)質(zhì)的教育人人可得