Python爬蟲與文本分析應用案例研討會

2020-12-27 中國教育裝備採購網

  

  Python作為一門面向對象的程式語言,簡潔的語法使得編寫數十行代碼即可實現爬蟲功能,獲取海量網際網路數據。使用Python來編寫爬蟲實現簡單且效率高,同時爬取的數據可以使用Python強大的第三方數據處理庫來進行分析,最重要的是學習成本低,如此之好的東西怎能不學習呢?

  會議主題Python爬蟲與文本分析應用案例研討會

  會議目標

  本課程將主要講解Python爬蟲技術採集數據,並使用文本分析的技術來解決一些市場研究,尤其是產品研究中的一些具體問題,比如產品提及、產品評價、品牌形象等。本課程的授課方式是通過python和knime編程的方式,課程最終目的是實現各種分析的自動化流程,課程成果可以在今後工作中復用。

  為什麼要學爬蟲技術,學了以後有什麼好處?

  不論您是想要做市場調查、趨勢分析、還是想要做科研,都需要從自己機構外部找數據,但是網站有千百種,從單純的下載文件,到整理成乾淨的數據表,數據藏在哪裡,要拿甚麼鑰匙去敲門,都是透過每個精心設計的範例去學習的。拿到數據之後,不同的數據類型有不同的處理方式,最後怎麼有能力說出一個故事,都是這堂課的學習主軸。

  網上有很多爬蟲課程,為什麼要選雪晴數據網?

  市場上真的有各種爬蟲課程,各有各的特色及優點,有的還是免費的,這裡我們不比較各自的不同,就說說我們有什麼優點吧:

  ·優秀的講師團隊:我們的講師不但有多年的工作經驗,也有豐富的教學經驗,不但技術過硬,也善於用通俗的語言講解複雜的知識點,更有耐心為學員解答學習過程中的問題。每次課程我們都會反覆研究,花大量時間準備課程材料,力求用最適合的案例和方式為學員講解。

  ·案例教學的方法:我們從2013年開始舉辦公開的技術培訓,也曾多次給企業做內部培訓,從多年的教學實踐中,我們發現,用傳統以知識點講解為主線,案例為輔的方式,效果並不好。學員反映,聽了後面忘前面,學了一堆東西卻不知道怎麼用。經過多次嘗試,我們摒棄了這種教學方式,採用以案例為主線,在案例中講解知識點的方法,在一個案例中串聯多個知識點,利用遺忘曲線的原理,我們用多個案例重現數據分析的流程,學員自然會舉一反三了。

  ·選取有實用價值的案例:iris數據集、titanic數據、NBA比賽數據跟我們的工作和科研有什麼關係?基本沒關係,那我們在講課的時候就不會用這種數據。而且我們教的是如何使用數據分析技術,並不是教你怎麼寫代碼,我們不培養碼農的。所以我們選擇的案例,都是有現實的商業意義,或者科研價值。在講解過程中,不但告訴你代碼怎麼寫,還會教你怎麼解決問題,為什麼要這麼做。

  · 貼心的助教制度:我們每次開課都會有助教,因為是手把手的課程,助教的存在,就是為了能解答您的問題,確保您有學會,滿載回家。而且我們的助教都有實戰經驗,有的來自業界,有的可能就是前幾批的優秀學員,我們也歡迎您以後加入我們的助教或講師團隊。

  ·對課程品質的堅持:我們在不同場合講解過課程的內容,不斷調整打磨課程,即使是相近的主題,我們也會對課程內容和案例進行升級,挑選出最適合市場趨勢的案例和技術來講解。比如這次Python爬蟲與文本分析課程,較6月份的那次課程,我們更換了幾乎所有的案例,並在文本分析部分,引入knime軟體做為講解的平臺,整個分析過程都在可視化的環境下進行,通過簡單的拖曳和設置就可以完成一個分析流程的開發(如下圖所示,每個節點都包含一段預先定義好的Python代碼,完成分析流程中的一步),這樣大大降低了學員的理解難度,提高了Python代碼的復用度。

  

   使用knime做為開發環境,可以在少寫好多Python代碼

  沒有學過Python,也可以來上課嗎?

  當然可以。其實每次都有對編程一無所知的小白來參加我們的課程,他們甚至對電腦的很多知識都不甚了解,經過三四天的課程,不少人不但跟下來了,還很有收穫。對python有一點認識的朋友相信一定可以得心應手,針對完全沒有碰過python的新手,報名之後我們會推薦您Python的基礎在線課程進行課前的練習,也可以提前一天報到,參加我們的課前輔導。

  可不可以只學前兩天的Python爬蟲課程

  當然可以,第三天的文本分析部分比較專業,可能並不適合所有人,你可以只學前兩天的課程,也可以只學第三天的課程,費用也不一樣,具體的細節請往下看

  參會對象

  從事金融、醫療、保險、生態、衛生、計量、統計、銀行、通信、環境、基金等與數據分析統計相關的企事業單位技術骨幹、科研院所研究人員和大專院校相關專業教學人員及在校研究生、碩士、博士等相關人員,以及廣大Python愛好者。

  講師介紹

  陳堰平,雪晴數據網創始人,北京理工大學大數據創新學習中心業界導師團成員,2017年1月獲「微軟最有價值專家」榮譽稱號。碩士畢業於中國人民大學統計學院,即將赴臺灣交通大學攻讀博士學位,曾獲CQF國際數量金融認證,先後任新華社指數中心技術總監、SupStat Analytics中國區首席技術官。在統計諮詢、數據挖掘、開發數據驅動的商業解決方案等領域有近十年的經驗,曾為國家統計局、微軟、惠普、德勤諮詢、聯想、豐田、招商銀行、花旗銀行、東方航空、中國移動、中國電信、中國聯通等機構做過數據科學方面的培訓和諮詢。

  

  曾有傑,人人車計算平臺架構師及策略小組負責人,前搜狐大數據平臺研發工程師,多年數據分析與開發的工作經驗,擅長網絡爬蟲技術和自然語言處理,對大數據平臺、數據挖掘有豐富的實戰經驗。

  談和,中國傳媒大學網際網路信息研究院博士生。中國傳媒大學大數據挖掘與社會計算實驗室研究員,主要負責數據抓取、文本處理以及可視化開發。同時也是中國傳媒大學數據新聞專業的授課者之一,負責教授信息圖設計製作和可視化編程等技能。目前的研究方向為網際網路群體傳播與群體行為、社會媒體研究中的自然語言處理。

  主題安排

  第一天

  案例一: 爬取電影票房數據,然後對數據進行整理匯總,可視化展示

  案例二: 抓取各級行政區域的天氣數據

  案例三: 從東方財富網抓取基金數據

  案例四: 抓取土地流轉數據

  案例五: 抓取歷屆政府工作報告,並繪製詞雲圖

  案例六: 抓取全國土地交易數據

  案例七: 抓取北京交通委公布的交通指數

  案例八: 批量下載上交所上市公司公告

  第一講

  Python環境的搭建與基礎語法

  1. 安裝anaconda套件

  2. Jupyter Notebook的使用

  3. 基本數據結構(列表、字典、元組)

  4. 基本語法(條件、循環、函數、類)

  第二講

  數據導入導出、數據整理與變換

  1. 使用Pandas庫導入/導出數據

  2. 使用Pandas篩選、整理數據,分組匯總

  3. 數據變換,重編碼

  第三講

  可視化與描述性統計

  1. 餅圖、柱形圖、折線圖、箱線圖

  2. 列聯表與馬賽克圖

  3. 文本的詞雲圖

  第四講

  Python爬蟲技術初步

  1. 網頁結構分析

  2. 網絡協議

  3. requests庫介紹 4. Beautiful Soup庫的介紹

  5. 使用requests和Beautiful Soup寫爬蟲

  6. 定時自動執行爬蟲程序

  第二天

  案例九

  獲取電商網站的商品評論文本

  案例十

  獲取微博上用戶對指定關鍵詞的評論文本

  第五講

  Python爬蟲技術進階

  1. Ajax異步加載頁面的數據提取

  2. XPath介紹

  3. 正則表達式介紹

  4. 利用scrapy框架獲取靜態頁面數據

  5. 使用scrapy結合selenium、phantomjs獲取動態數據

  6. 模擬瀏覽器登錄網站、繞開驗證碼

  第三天

  案例

  根據關鍵詞在社交網絡上抓取與汽車、3C產品的相關評論,使用自然語言處理技術做輿情分析、品牌形象評價、意見挖掘和情感分析,用於產品設計和營銷決策

  第六講

  文本挖掘入門

  · 介紹文本分詞的方法

  · 按詞性提取關鍵詞

  第七講

  產品形象分析和提及率分析

  · 提取與產品或品牌形象相關的描述

  · 了解自己與競品的提及率

  第八講

  用戶評價內容分析

  · 構建用戶評價指標

  · 提取對應指標中的內容

  第九講

  品牌形象和品牌性格分析

  · 品牌形象評價指標的構建

  · 從文本中自動提取出品牌形象各指標值

  第十講

  意見挖掘和情感分析

  · 從用戶評價中提取用戶對事物的評價

  · 分析用戶對產品的態度和情感

  

時間地點

  2017年7月21日-- 23日 北京理工大學(具體地點另行通知)

  (時間安排:外地參會人員7月20日報到,21日~23日正式會議,24日安排答疑)

  

參會費用

  我們推出三種套餐,請根據自身需要選擇。以下價格含會議註冊費、資料費、場地費。食宿費用自理。

  

課程套餐

在職人員

學生

前兩天爬蟲技術

2200

1700

第三天文本分析

1200

900

全三天課程

3200

2500

  參與雪晴數據網獎學金計劃,更可以減免大筆學費,只要你足夠勤奮,可以免費學!!

  針對雪晴數據網註冊用戶以及北京友萬信息科技有限公司的用戶,還有一定的優惠,具體優惠幅度請與工作人員協商。

  與會者可申請工信部《數據挖掘與分析應用高級工程師》職業技術水平證書,通過考核後即可獲得證書,需另交考試費、證書工本費共400元。

  

獎學金計劃

  1. 為雪晴數據網(www.xueqing.tv)投稿的用戶(原創或翻譯文章),可以獲得代金券(按文章質量,獎勵50到200元不等),以抵扣線上線下課程學費,投稿請聯繫管理員contact@xueqing.tv

  2. 註冊並登錄雪晴數據網,進入用戶中心,然後進入邀請頁面(http://www.xueqing.tv/me/invite ),獲得邀請連結後,轉發給好友,如果對方成功註冊,雙方都可獲得獎勵,可抵扣學費。

  3. 累計五天(可不連續)轉發本課程通知到自己朋友圈,並附上推薦理由,截圖發給我們的工作人員,報名可優惠200元。

  

優惠政策

  1. 現場班老學員8折優惠

  2. 三人以上同時報名9折優惠

  3. 五人以上同時報名8折優惠

  

報名方式

  請前往http://xueqingtv.mikecrm.com/AGdSi43填寫報名表,我們的工作人員隨後會聯繫您。確認報名後,請通過以下三種支付方式中的一種來繳費(請保留支付憑證,拍照或截圖發給我們的工作人員 ):

  方式一: 對公轉帳

  開戶名 繪辰科技(北京)有限公司

  開戶銀行 中國工商銀行股份公司北京大鐘寺東路支行

  帳號 0200151609100034763

  方式二: 支付寶

  帳號 pay@xueqingtv.com

  戶名 繪辰科技(北京)有限公司

  方式三: 現場繳費

  外地學員請於7月20號提前報到,北京學員可於21號早上8點~8點半報到,繳費並領取發票和紙質邀請函,以及上課教材。

  由於21號早上現場人比較多,鼓勵北京學員也於20號報到

  

主辦機構

  主辦方:雪晴數據網

  協辦方

  · 北京理工大學大數據創新學習中心

  · 北京友萬信息科技有限公司

  · 爬蟲俱樂部

  合作出版社:清華大學出版社、中國人民大學出版社、機械工業出版社

  

聯繫方式

  聯繫人:陳潔老師

  手機/微信:136-6072-3699

  QQ :529698127 驗證信息請填寫友萬科技Python培訓

  Email: peixun@uone-tech.cn

相關焦點

  • 「Python爬蟲與文本實例技術與應用」培訓班通知
    通過爬蟲獲取的海量信息,我們可以對其進行進一步的分析:市場預測、文本分析、機器學習方法等。     Python作為一門腳本語言,它靈活、易用、易學、適用場景多,實現程序快捷便利,早已經成為程式設計師們的一門編程利器。Python這門程式語言包羅萬象,可以說掌握了python,除了一些特殊環境和高度的性能要求,你可以用它做任何事。
  • 2018年6月份Python網絡爬蟲與文本挖掘
    通過爬蟲獲取的海量信息,我們可以對其進行進一步的分析:市場預測、文本分析、機器學習方法等。 Python作為一門腳本語言,它靈活、易用、易學、適用場景多,實現程序快捷便利,早已經成為程式設計師們的一門編程利器。Python這門程式語言包羅萬象,可以說掌握了python,除了一些特殊環境和高度的性能要求,你可以用它做任何事。
  • Python視頻教程網課編程零基礎入門數據分析網絡爬蟲全套Python...
    項目 15flask框架 17愛家租房項目 18通用爬蟲模塊使用 19Mongodb資料庫 20爬蟲scrapy框架及案例 21數據分析 22機器學習 23深度學習 24數據結構和算法 25python網絡爬蟲 26機器學習入門篇 27
  • 2020重磅升級「Python數據科學入門與網絡爬蟲案例實戰研討會」
    Python作為一門面向對象的程式語言,簡潔的語法使得編寫十幾行代碼即可實現爬蟲功能,獲取海量網際網路數據。使用Python來編寫爬蟲實現簡單且效率高,同時爬取的數據可以使用Python強大的第三方數據處理庫來進行分析,最重要的是學習成本低,如此之好的東西怎能不學習呢?
  • Python開發簡單爬蟲【學習資料總結】
    (6)Pygame實戰飛機大戰 python語言高級:(python語言的高級庫,常用的企業級開發案例實戰) (1)Python常見第三方庫與網絡編程 (2)面向對象,Python正則表達式 (3)求職數據爬蟲,金融數據爬蟲
  • Python大數據綜合應用 :零基礎入門機器學習、深度學習算法原理與案例
    尹老師,數據科學家,浙江大學物理學博士,浙江某高校數據科學專業負責人,兼任某網絡科技上市公司大數據總監,受聘擔任多家大數據教學機構主講教師,開發多套python高級編程、機器學習、網絡爬蟲與文本挖掘系列課程,10+年python軟體開發數據產品經驗,熟悉R \Javascript等多種程式語言,具有豐富的python統計建模、數據挖掘、大數據技術教學經驗
  • 機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用...
    原標題:機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用高級研修班通信和信息技術創新人才培養工程項目辦公室 通人辦〔2018〕 第5號 機器學習、深度學習算法原理與案例實踐暨Python
  • Python爬蟲案例教與學(教學大綱+教案+視頻))
    通過學習本課程,使學生掌握Python語言的基本語法以及面向程序設計的基本思想和方法,掌握使用Python第三方庫進行Python爬蟲項目的開發,學習掌握好爬蟲的一些基礎知識(urllib、requests、Selenium、Xpath、CSS、正則表達式、BeautifulSoup庫)和Python爬蟲相關第三方庫的使用經驗。
  • 連享會直播課:文本分析-爬蟲-機器學習
    1.1 課程提要課程目標: 掌握爬蟲、文本分析和機器學習的核心方法和基本分析流程。二人於 2016 年發表於 Journal of Accounting Research 的另一篇介紹文本分析在會計和金融領域應用的綜述性文章目前已被引用 300 餘次。
  • Python 網頁爬蟲 & 文本處理 & 科學計算 & 機器學習 & 數據挖掘兵器譜
    當然,這也僅僅是拋磚引玉,希望大家能提供更多的線索,來匯總整理一套Python網頁爬蟲,文本處理,科學計算,機器學習和數據挖掘的兵器譜。一、Python網頁爬蟲工具集一個真實的項目,一定是從獲取數據開始的。
  • 文本分析進階&python網絡爬蟲課程報名/千萬級中文公開語料數據分享
    使用網絡世界數據進行研究,面臨兩大難點:• 數據的大規模自動獲取• 文本數據(非結構化數據)的處理與分析數據獲取需要藉助Python程式語言設計網絡爬蟲,而獲得的數據中有相當比例數據是非結構化數據,這就需要文本數據分析技術。
  • Python網頁爬蟲&文本處理&科學計算&機器學習&數據挖掘兵器譜(轉)
    當然,這也僅僅是拋磚引玉,希望大家能提供更多的線索,來匯總整理一套Python網頁爬蟲,文本處理,科學計算,機器學習和數據挖掘的兵器譜。一、Python網頁爬蟲工具集一個真實的項目,一定是從獲取數據開始的。
  • 連享會-文本分析與爬蟲專題
    二人於 2016 年發表於 Journal of Accounting Research 的另一篇介紹文本分析在會計和金融領域應用的綜述性文章目前已被引用 300 餘次。最後,為了實現更為複雜的爬蟲和文本分析任務,在第 5-8 講中,我們將轉入 Python。C. 為什麼要學 Python 和 R?Python 的易用和流行趨勢已經不必多言。作為 Stata 的有益補充,Python 在文本分析、爬蟲、機器學習等方面有獨特優勢。
  • 五分鐘學會Python網絡爬蟲
    什麼是爬蟲網絡爬蟲:又被稱為網頁蜘蛛,網絡機器人,是一種按照一定的規則,自動的抓取全球資訊網信息的程序或者腳本。大數據時代,要進行數據分析,首先要有數據源,可數據源從哪裡來,花錢買,沒預算,只能從其它網站就行抓取。細分下來,業內分為兩類:爬蟲和反爬蟲。反爬蟲:顧名思義,就是防止你來我網站或APP上做爬蟲的。
  • Python爬蟲要違法了嗎?小編告訴大家:守住規則,大膽去爬
    但不知為什麼,抓取別人網站數據時,總會產生莫名恐慌生怕自己一不小心就侵權了,然後被關在監獄摩擦很多人學習python,不知道從何學起。很多人學習python,掌握了基本語法過後,不知道在哪裡尋找案例上手。很多已經做案例的人,卻不知道如何去學習更加高深的知識。
  • Python爬蟲的兩套解析方法和四種爬蟲實現
    對於大多數朋友而言,爬蟲絕對是學習python的最好的起手和入門方式。
  • 廖雪峰老師的Python商業爬蟲課程 Python網絡爬蟲實戰教程 體會不一樣的Python爬蟲課程
    :1個├─(50) 20181209.zip(30)\資料\3\第五節;目錄中文件數:1個├─(51) python二期12.16.zip(31)\資料\3\第八節;目錄中文件數:1個├─(52) python二期12.20.zip(32)\資料\3\第六節;目錄中文件數:1個├─(53) python二期12.19.zip(33)\資料
  • python爬蟲入門-通過茅臺腳本講些爬蟲知識,應用和價值
    搶茅臺的腳本其實屬於爬蟲腳本的一類,它實現了模擬登陸,模擬訪問並抓取數據。我們從爬蟲開始來學習Python做項目,從這篇開始記錄下爬蟲相關的筆記和知識點。正文什麼是爬蟲到底什麼是爬蟲?你可以理解為爬蟲是網際網路上的一隻蜘蛛,如果遇到一些網絡數據或資源,這隻「蜘蛛」可以把這些數據和資源爬取下來。
  • python數據分析案例-數據獲取
    ,在這裡探長將從數據的獲取開始,進而對數據清洗、數據分析及可視化進行案例分析。Part 0 - 項目概覽    數據獲取、數據清洗、數據分析及可視化是數據分析流程的三大步驟,在本次項目中探長將以手機為分析對象,通過多維度的數據分析了解當前手機市場概況;    今天探長將首先從數據分析流程的第一步-數據獲取進行展開,後續會對獲取到的數據進行清洗、分析及可視化。
  • 簡單講解價值1K的Python爬蟲外包案例
    對於這個外包給予的網站信息,那麼我們就爬取選擇第一個吧獵聘網>,也就簡單實現,並不會進行打包處理,以及輸入關鍵字爬取,因為打包以及輸入關鍵詞爬取數據,在公眾號往期的文章都是有相關的案例