各科研院所單位:
隨著網際網路的發展,網絡信息呈現指數式增長,要在短時間內獲取大量信息,網絡爬蟲無疑是一種最適合的方法。通過爬蟲獲取的海量信息,我們可以對其進行進一步的分析:市場預測、文本分析、機器學習方法等。
Python作為一門腳本語言,它靈活、易用、易學、適用場景多,實現程序快捷便利,早已經成為程式設計師們的一門編程利器。Python這門程式語言包羅萬象,可以說掌握了python,除了一些特殊環境和高度的性能要求,你可以用它做任何事。為提升相關科技工作者的技術水平,北京博宏科睿教育科技有限公司特舉辦2018年第二期「Python爬蟲與文本挖掘實例技術與應用」培訓班,本次培訓從爬蟲的基本知識入手,使用Python作為實現工具,一步步講述網絡爬蟲的實現,具體內容如下:
【培訓目標】
1.讓學員儘快掌握python語言的基本結構與語法與數據類型,模塊、基本用法,熟悉函數,類設計,包的使用及基本的編程方法;
2.理解python數據挖掘與分析技術在當代各種大數據相關產品中的應用,並掌握該領域最關鍵技術的原理以及技術應用過程;
3. 能開發出一些實際的應用項目並初步勝任Python的數據挖掘和機器學習工作;
4. 通過緊密結合應用實例,針對工作中存在的疑難問題進行分析講解和專題討論,進而有效提升學員解決科研及教學中實際問題的能力同時提升其從數據角度去思考的能力。
【培訓費用】
RMB:3900元/人(含報名費、培訓費、教材資料費、場地費、午餐費、證書辦理費等)培訓期間可統一協助安排食宿,費用自理。
頒發證書:參加相關培訓學員可獲得由工業和信息化部通信和信息技術創新人才培養工程頒發《數據挖掘應用工程師》職業水平證書。
請學員自備一寸照片一張(背後標註姓名及身份證號)辦理證書需要,報到當天交由會務組人員。
【時間地點】
2018年6月21日----6月24日 北 京*東城區北三環東路
(時間安排:第一天報到、授課三天)
「Python爬蟲與文本挖掘實例技術與應用」培訓班事宜
【邀請老師】
劉老師:對外經濟貿易大學大數據系副教授,海歸計算機專業博士,講授計算機應用基礎、數據結構、計算機網絡、智能計算、Python與大數據分析等課程。其研究內容涉及:科技金融(基於機器學習的選股策略研究,信用逾期預測)圖像分析理解,文本分析,智能硬體,數據挖掘、機器學習、手寫識別等內容。曾獲得過ImageCLEF2012 Photo annotation task國際圖像分類競賽中獲得第一名,ImageCLEF2015 Scalable Concept Image Annotation Task(text-base) 第四名。
【培訓對象】
從事金、醫療、保險、生態、衛生、計量、統計、銀行、通信、環境、基金等與數據分析統計相關的企事業單位技術骨幹、科研院所研究人員和大專院校相關專業教學人員及在校研究生、碩士、博士等相關人員,以及廣大Python愛好者。
【培訓方式】
(一)課程講座;
(二)專題小組研討與案例講解分析結合;
(三)歡迎學員帶著在工作中遇到的實際問題與老師一起探討;
(四)培訓教室提供操作電腦,無需自帶筆記本。
【報名方式】
報名表請傳真或電子郵件至會務處。傳真:010-51702355或郵件:edu@bohongkerui.com 報名成功後會務組將以電話或電子郵件方式通知您,並提前一周發 報到通知(詳細會議地點及乘車路線), 具體安排見第二輪通知,名額有限,報名從速。
注:學員於報到當天領取發票和紙質邀請函及上課教材。
【課程主題】
(1)、Python入門基礎; (2)、正則表達式簡介;
(3)、Python爬蟲技術入門; (4)、Python爬蟲核心技術;
(5)、Python爬蟲技術進階; (6)、文本挖掘入門;
(7)、深度學習入門; (8)、基於LSTM的文本情感分析;
(9)、疑難問題與答疑 (具體研討內容見附件2)
【聯繫方式】
聯繫人: 周 恆 手 機:173-4654-0661
電話/傳真:010-51702355 E-mail: edu@bohongkerui.com
課程安排 | 課程主題 | 課程內容 |
第一天 Python基礎與爬蟲入門 | 第一章 Python基礎 | 1.初識Python:開發環境安裝與使用 2.基本概念 3.基本數據結構(元組、列表、字符串、字典) 4.Python基本語法:(條件、循環、函數、類、模塊) 5.類介紹 6.Python文件操作實戰 7.Python異常處理實戰 |
第二章 正則表達式簡介 | 1.正則表達式簡介 2.正則表達式應用(re模塊,re.compile,re.find,re.search) 3.正則表達式匹配過程 4.利用API進行數據採集 5.正則表達式解釋HTML | |
第三章 Python爬蟲技術入門 | 1.什麼是爬蟲 2.爬蟲的分類和使用範圍 3.爬蟲基本框架 4.urllib,urllib2模塊(urllib2.urlopen,urllib2.Request) 5.手動編寫簡單爬蟲 | |
案例一:爬取葡萄酒品質分析數據,然後對數據進行整理匯總,可視化展示. 案例二:抓取分析手機號碼. 案例三:手動編寫簡單爬蟲並實戰. | ||
第二天 Python爬蟲技術進階 | 第四章 Python爬蟲技術 | 1.抓取策略和ULR去重 2.數據存儲 3.數據解釋和提取 4.模擬登陸及驗證碼識別 5.爬蟲的攻防之道與可視化爬蟲 |
第五章 Python爬蟲技術進階
| 1.著名爬蟲框架介紹 (portia,Pyspider,Newspaper,Python-goose) 2.Scrapy爬蟲框架 (spider,engine,scheduler,downloader,item pipeline) 3. Scrapy開發流程 4. Scrapy與Urllib的整合使用 | |
案例一:提取噹噹書目信息,然後對數據進行整理匯總,可視化展示. 案例二:應用Scrapy爬取名人名言 | ||
第三天 文本分析基礎和進階 | 第六章 文本挖掘入門 | 1.介紹文本分詞的方法 2. 按詞性提取關鍵詞 Jieba模塊,nltk模塊(jieba.cut,jieba.cut_for_search()) |
第七章 深度學習入門 | 1.深度學習的前世今生 2.人工神經網絡ANN TensorFlow模塊,keras模塊 | |
第八章 基於LSTM的文本情感分析 | 1.什麼是LSTM 2.文本的情感分析 3.從用戶評價中提取用戶對事物的評價 4.分析用戶對產品的態度和情感 | |
案例一:手寫數字圖像識別 案例二:提取用戶對事物的評價和對產品的態度和情感 | ||
疑難解答 | 學員可結合自身感興趣需要解決的疑難問題,可帶著相關問題諮詢授課老師。 |
附件三:
「Python爬蟲與文本挖掘實例技術與應用」培訓班回執表
(傳真電話:010—51702355)(多人報名此表可複製填寫)
單 位 信 息 | |||||||||||
開票抬頭 | 所屬行業 | ||||||||||
納稅人識別號 | |||||||||||
開票項目 | □會議費 □培訓費 □資料費 □會務費 | 選 擇 | √ | ||||||||
單位地址 | 郵 編 | ||||||||||
聯 系 人 | 部 門 | 職 務 | |||||||||
辦公電話 | 手 機 | 郵 箱 | |||||||||
需求反饋 | ① | ||||||||||
② | |||||||||||
③ | |||||||||||
④ | |||||||||||
人 員 信 息 | |||||||||||
姓名 | 性別 | 部門 | 職務/職稱 | 手機 | 郵箱 | 傳真 | |||||
會議費用: |
萬 仟 佰 拾 元 | 房 間 預 訂√ | □是 □否 ()單間()標間 入住時間( ) 入住天數( ) | ||||||||
諮詢顧問: 周 恆 手 機: 173-4654-0661 | |||||||||||
諮詢熱線: 010-51702355 郵 箱: edu@bohongkerui.com | |||||||||||
繳費方式:√ □ 銀行轉帳 □ 繳納現金 □ 現場刷卡 | |||||||||||
戶 名: 北京博宏科睿教育科技有限公司 | |||||||||||
帳 號: 1100 1094 1000 5300 8453 | |||||||||||
開 戶 行:中國建設銀行北京古城支行 |