Python作為一門面向對象的程式語言,簡潔的語法使得編寫數十行代碼即可實現爬蟲功能,獲取海量網際網路數據。使用Python來編寫爬蟲實現簡單且效率高,同時爬取的數據可以使用Python強大的第三方數據處理庫來進行分析,最重要的是學習成本低,如此之好的東西怎能不學習呢?
會議主題Python爬蟲與文本分析應用案例研討會
會議目標
本課程將主要講解Python爬蟲技術採集數據,並使用文本分析的技術來解決一些市場研究,尤其是產品研究中的一些具體問題,比如產品提及、產品評價、品牌形象等。本課程的授課方式是通過python和knime編程的方式,課程最終目的是實現各種分析的自動化流程,課程成果可以在今後工作中復用。
為什麼要學爬蟲技術,學了以後有什麼好處?
不論您是想要做市場調查、趨勢分析、還是想要做科研,都需要從自己機構外部找數據,但是網站有千百種,從單純的下載文件,到整理成乾淨的數據表,數據藏在哪裡,要拿甚麼鑰匙去敲門,都是透過每個精心設計的範例去學習的。拿到數據之後,不同的數據類型有不同的處理方式,最後怎麼有能力說出一個故事,都是這堂課的學習主軸。
網上有很多爬蟲課程,為什麼要選雪晴數據網?
市場上真的有各種爬蟲課程,各有各的特色及優點,有的還是免費的,這裡我們不比較各自的不同,就說說我們有什麼優點吧:
·優秀的講師團隊:我們的講師不但有多年的工作經驗,也有豐富的教學經驗,不但技術過硬,也善於用通俗的語言講解複雜的知識點,更有耐心為學員解答學習過程中的問題。每次課程我們都會反覆研究,花大量時間準備課程材料,力求用最適合的案例和方式為學員講解。
·案例教學的方法:我們從2013年開始舉辦公開的技術培訓,也曾多次給企業做內部培訓,從多年的教學實踐中,我們發現,用傳統以知識點講解為主線,案例為輔的方式,效果並不好。學員反映,聽了後面忘前面,學了一堆東西卻不知道怎麼用。經過多次嘗試,我們摒棄了這種教學方式,採用以案例為主線,在案例中講解知識點的方法,在一個案例中串聯多個知識點,利用遺忘曲線的原理,我們用多個案例重現數據分析的流程,學員自然會舉一反三了。
·選取有實用價值的案例:iris數據集、titanic數據、NBA比賽數據跟我們的工作和科研有什麼關係?基本沒關係,那我們在講課的時候就不會用這種數據。而且我們教的是如何使用數據分析技術,並不是教你怎麼寫代碼,我們不培養碼農的。所以我們選擇的案例,都是有現實的商業意義,或者科研價值。在講解過程中,不但告訴你代碼怎麼寫,還會教你怎麼解決問題,為什麼要這麼做。
· 貼心的助教制度:我們每次開課都會有助教,因為是手把手的課程,助教的存在,就是為了能解答您的問題,確保您有學會,滿載回家。而且我們的助教都有實戰經驗,有的來自業界,有的可能就是前幾批的優秀學員,我們也歡迎您以後加入我們的助教或講師團隊。
·對課程品質的堅持:我們在不同場合講解過課程的內容,不斷調整打磨課程,即使是相近的主題,我們也會對課程內容和案例進行升級,挑選出最適合市場趨勢的案例和技術來講解。比如這次Python爬蟲與文本分析課程,較6月份的那次課程,我們更換了幾乎所有的案例,並在文本分析部分,引入knime軟體做為講解的平臺,整個分析過程都在可視化的環境下進行,通過簡單的拖曳和設置就可以完成一個分析流程的開發(如下圖所示,每個節點都包含一段預先定義好的Python代碼,完成分析流程中的一步),這樣大大降低了學員的理解難度,提高了Python代碼的復用度。
使用knime做為開發環境,可以在少寫好多Python代碼
沒有學過Python,也可以來上課嗎?
當然可以。其實每次都有對編程一無所知的小白來參加我們的課程,他們甚至對電腦的很多知識都不甚了解,經過三四天的課程,不少人不但跟下來了,還很有收穫。對python有一點認識的朋友相信一定可以得心應手,針對完全沒有碰過python的新手,報名之後我們會推薦您Python的基礎在線課程進行課前的練習,也可以提前一天報到,參加我們的課前輔導。
可不可以只學前兩天的Python爬蟲課程
當然可以,第三天的文本分析部分比較專業,可能並不適合所有人,你可以只學前兩天的課程,也可以只學第三天的課程,費用也不一樣,具體的細節請往下看
參會對象
從事金融、醫療、保險、生態、衛生、計量、統計、銀行、通信、環境、基金等與數據分析統計相關的企事業單位技術骨幹、科研院所研究人員和大專院校相關專業教學人員及在校研究生、碩士、博士等相關人員,以及廣大Python愛好者。
講師介紹
陳堰平,雪晴數據網創始人,北京理工大學大數據創新學習中心業界導師團成員,2017年1月獲「微軟最有價值專家」榮譽稱號。碩士畢業於中國人民大學統計學院,即將赴臺灣交通大學攻讀博士學位,曾獲CQF國際數量金融認證,先後任新華社指數中心技術總監、SupStat Analytics中國區首席技術官。在統計諮詢、數據挖掘、開發數據驅動的商業解決方案等領域有近十年的經驗,曾為國家統計局、微軟、惠普、德勤諮詢、聯想、豐田、招商銀行、花旗銀行、東方航空、中國移動、中國電信、中國聯通等機構做過數據科學方面的培訓和諮詢。
曾有傑,人人車計算平臺架構師及策略小組負責人,前搜狐大數據平臺研發工程師,多年數據分析與開發的工作經驗,擅長網絡爬蟲技術和自然語言處理,對大數據平臺、數據挖掘有豐富的實戰經驗。
談和,中國傳媒大學網際網路信息研究院博士生。中國傳媒大學大數據挖掘與社會計算實驗室研究員,主要負責數據抓取、文本處理以及可視化開發。同時也是中國傳媒大學數據新聞專業的授課者之一,負責教授信息圖設計製作和可視化編程等技能。目前的研究方向為網際網路群體傳播與群體行為、社會媒體研究中的自然語言處理。
主題安排
第一天
案例一: 爬取電影票房數據,然後對數據進行整理匯總,可視化展示
案例二: 抓取各級行政區域的天氣數據
案例三: 從東方財富網抓取基金數據
案例四: 抓取土地流轉數據
案例五: 抓取歷屆政府工作報告,並繪製詞雲圖
案例六: 抓取全國土地交易數據
案例七: 抓取北京交通委公布的交通指數
案例八: 批量下載上交所上市公司公告
第一講
Python環境的搭建與基礎語法
1. 安裝anaconda套件
2. Jupyter Notebook的使用
3. 基本數據結構(列表、字典、元組)
4. 基本語法(條件、循環、函數、類)
第二講
數據導入導出、數據整理與變換
1. 使用Pandas庫導入/導出數據
2. 使用Pandas篩選、整理數據,分組匯總
3. 數據變換,重編碼
第三講
可視化與描述性統計
1. 餅圖、柱形圖、折線圖、箱線圖
2. 列聯表與馬賽克圖
3. 文本的詞雲圖
第四講
Python爬蟲技術初步
1. 網頁結構分析
2. 網絡協議
3. requests庫介紹 4. Beautiful Soup庫的介紹
5. 使用requests和Beautiful Soup寫爬蟲
6. 定時自動執行爬蟲程序
第二天
案例九
獲取電商網站的商品評論文本
案例十
獲取微博上用戶對指定關鍵詞的評論文本
第五講
Python爬蟲技術進階
1. Ajax異步加載頁面的數據提取
2. XPath介紹
3. 正則表達式介紹
4. 利用scrapy框架獲取靜態頁面數據
5. 使用scrapy結合selenium、phantomjs獲取動態數據
6. 模擬瀏覽器登錄網站、繞開驗證碼
第三天
案例
根據關鍵詞在社交網絡上抓取與汽車、3C產品的相關評論,使用自然語言處理技術做輿情分析、品牌形象評價、意見挖掘和情感分析,用於產品設計和營銷決策
第六講
文本挖掘入門
· 介紹文本分詞的方法
· 按詞性提取關鍵詞
第七講
產品形象分析和提及率分析
· 提取與產品或品牌形象相關的描述
· 了解自己與競品的提及率
第八講
用戶評價內容分析
· 構建用戶評價指標
· 提取對應指標中的內容
第九講
品牌形象和品牌性格分析
· 品牌形象評價指標的構建
· 從文本中自動提取出品牌形象各指標值
第十講
意見挖掘和情感分析
· 從用戶評價中提取用戶對事物的評價
· 分析用戶對產品的態度和情感
時間地點
2017年7月21日-- 23日 北京理工大學(具體地點另行通知)
(時間安排:外地參會人員7月20日報到,21日~23日正式會議,24日安排答疑)
參會費用
我們推出三種套餐,請根據自身需要選擇。以下價格含會議註冊費、資料費、場地費。食宿費用自理。
課程套餐 | 在職人員 | 學生 |
前兩天爬蟲技術 | 2200 | 1700 |
第三天文本分析 | 1200 | 900 |
全三天課程 | 3200 | 2500 |
參與雪晴數據網獎學金計劃,更可以減免大筆學費,只要你足夠勤奮,可以免費學!!
針對雪晴數據網註冊用戶以及北京友萬信息科技有限公司的用戶,還有一定的優惠,具體優惠幅度請與工作人員協商。
與會者可申請工信部《數據挖掘與分析應用高級工程師》職業技術水平證書,通過考核後即可獲得證書,需另交考試費、證書工本費共400元。
獎學金計劃
1. 為雪晴數據網(www.xueqing.tv)投稿的用戶(原創或翻譯文章),可以獲得代金券(按文章質量,獎勵50到200元不等),以抵扣線上線下課程學費,投稿請聯繫管理員contact@xueqing.tv
2. 註冊並登錄雪晴數據網,進入用戶中心,然後進入邀請頁面(http://www.xueqing.tv/me/invite ),獲得邀請連結後,轉發給好友,如果對方成功註冊,雙方都可獲得獎勵,可抵扣學費。
3. 累計五天(可不連續)轉發本課程通知到自己朋友圈,並附上推薦理由,截圖發給我們的工作人員,報名可優惠200元。
優惠政策
1. 現場班老學員8折優惠
2. 三人以上同時報名9折優惠
3. 五人以上同時報名8折優惠
報名方式
請前往http://xueqingtv.mikecrm.com/AGdSi43填寫報名表,我們的工作人員隨後會聯繫您。確認報名後,請通過以下三種支付方式中的一種來繳費(請保留支付憑證,拍照或截圖發給我們的工作人員 ):
方式一: 對公轉帳
開戶名 繪辰科技(北京)有限公司
開戶銀行 中國工商銀行股份公司北京大鐘寺東路支行
帳號 0200151609100034763
方式二: 支付寶
帳號 pay@xueqingtv.com
戶名 繪辰科技(北京)有限公司
方式三: 現場繳費
外地學員請於7月20號提前報到,北京學員可於21號早上8點~8點半報到,繳費並領取發票和紙質邀請函,以及上課教材。
由於21號早上現場人比較多,鼓勵北京學員也於20號報到
主辦機構
主辦方:雪晴數據網
協辦方:
· 北京理工大學大數據創新學習中心
· 北京友萬信息科技有限公司
· 爬蟲俱樂部
合作出版社:清華大學出版社、中國人民大學出版社、機械工業出版社
聯繫方式
聯繫人:陳潔老師
手機/微信:136-6072-3699
QQ :529698127 驗證信息請填寫友萬科技Python培訓
Email: peixun@uone-tech.cn