2020重磅升級「Python數據科學入門與網絡爬蟲案例實戰研討會」

2021-01-08 中國教育裝備採購網

  Python作為一門面向對象的程式語言,簡潔的語法使得編寫十幾行代碼即可實現爬蟲功能,獲取海量網際網路數據。使用Python來編寫爬蟲實現簡單且效率高,同時爬取的數據可以使用Python強大的第三方數據處理庫來進行分析,最重要的是學習成本低,如此之好的東西怎能不學習呢?

  2020重磅升級的Python數據科學入門與網絡爬蟲案例實戰研討會開始報名啦!

  原來數據的獲取不是我們想的那樣,教您玩轉Python爬蟲入門+進階+實戰 。

  § 學習基礎Python

  § 重視遞歸思維求解能力與訓練

  § 你可能不知道而你應該知道的Python知識

  § 編程的藝術

  § Python網絡爬蟲介紹

  § 網絡爬蟲的流程

  § 網頁結構和網絡協議

  § 利用requests和BeautifulSoup模塊抓取靜態網頁

  § 利用selenium抓取動態頁面

  講師介紹:

  Allen Chen

  微軟(中國)有限公司 解決方案架構師

  中國青年統計學家協會常務理事,微軟認證講師,2017~2018年入選微軟最有價值專家。在高級分析、數據挖掘、人工智慧等領域有十年的經驗,為企業級客戶提供相關項目的架構設計、諮詢培訓、測試開發支持等服務,服務過金融、網際網路、通信、諮詢、航空、醫療等行業的客戶。

  時間及地點 :

  報導時間:

  2020年02月11日 下午 13:00-18:00

  2020年02月12日 上午 08:00-09:00

  培訓時間:

  2020年02月12日~14 日

  上午 09:00-12:00

  下午 14:00-17:00

  答疑 17:00-17:30

  培訓地點:北京市

  參會對象:

  從事金融、醫療、保險、生態、衛生、計量、統計、銀行、通信、環境、基金等與數據分析統計相關的企事業單位技術骨幹、科研院所研究人員和大專院校相關專業教學人員及在校研究生、碩士、博士等相關人員,以及廣大Python愛好者。

  福利升級:我們會根據學員的意願從案例庫裡來選擇案例講解,學員也可以提供自己想要抓取數據的連結,老師現場講解。

  課程大綱:

第一天:python基礎語法和網絡知識簡介

  第一講:Python環境的搭建

  1. 作業系統的配置

  2. 安裝anaconda套件

  3. Jupyter Notebook的使用

  第二講:Python基礎語法

  1. 基本數據結構(列表、字典、元組)

  2. 基本語法(條件、循環、函數、類)

  第三講:數據導入導出、數據整理與變換

  1. 使用Pandas模塊導入/導出數據

  2. 使用Pandas篩選、整理數據,分組匯總

  3. 數據變換,重編碼

  第四講:可視化與描述性統計

  1. 餅圖、柱形圖、折線圖、箱線圖

  2. 在線可視化的工具

  第五講:網絡和網頁基礎知識

  1. 網絡協議

  2. 網頁加載過程

  3. 網頁結構

  4. HTML簡介

  5. CSS選擇器

  6. Xpath

第二天:靜態網站的抓取

  第六講:相關Python模塊

  1. 用Requests模塊獲取網頁

  2. 用BeautifulSoup模塊解析網頁元素

  3. 用requests和Beautiful Soup寫簡單的爬蟲程序

  § 案例: 爬取電影票房數據

  第七講:靜態網站抓取的高級策略

  1. 尋找目標內容的真正網址

  2. 翻頁的處理

  3. 提交表單後才能獲取內容的網頁如何爬取

  4. 如何下載文件

  5. 偽造Cookie繞過網站反爬機制

  § 案例: 抓取北京交通委公布的交通指數

  § 案例: 批量下載上交所上市公司公告

  § 案例: 抓取全國土地交易數據

  § 案例:生態環境部網站全國城市空氣品質日報

  § 案例:大眾點評店鋪信息的抓取

第三天:動態網站的抓取

  第八講:通過API接口獲取數據

  1. 什麼是Ajax異步加載

  2. 什麼是JSON格式

  3. API接口返回JSON數據時如何解析

  4. API接口返回其他數據格式時如何解析

  5. 從動態地圖中抓取並解析數據

  § 案例: 從東方財富網抓取基金數據

  § 案例:上海醫療服務信息便民查詢系統網站

  § 案例:財政部PPP項目儲備清單

  § 案例:汽車消費者投訴受理處置信息的抓取

  第九講:用Selenium模擬瀏覽器獲取數據

  1. Selenium的簡介

  2. 用Selenium結合Xpath Helper抓取數據

  3. 模擬瀏覽器登錄網站、繞開驗證碼

  § 案例: 中國保險行業協會新聞列表的抓取

  § 案例: 抓取電商網站商品信息和評論

  § 案例:抓取歷史航班信息

  § 案例:微博數據的抓取

  第十講:疑難問題的應對

  1. 網站內容定時更新,要怎麼自動去抓取

  2. 正則表達式的使用

  3. 使用異常處理,讓程序更穩健

  4. 能定位到網頁元素但不知如何提取

  5. 幾種反爬蟲機制的應對策略

  為什麼要學爬蟲技術,學了以後有什麼好處?

  不論您是想要做市場調查、趨勢分析、還是想要做科研,都需要從自己機構外部找數據,但是網站有千百種,從單純的下載文件,到整理成乾淨的數據表,數據藏在哪裡,要拿甚麼鑰匙去敲門,都是透過每個精心設計的範例去學習的。拿到數據之後,不同的數據類型有不同的處理方式,最後怎麼有能力說出一個故事,都是這堂課的學習主軸。

  網上有很多爬蟲課程,為什麼要選我們的課程呢?

  市場上真的有各種爬蟲課程,各有各的特色及優點,有的還是免費的,這裡我們不比較各自的不同,就說說我們有什麼優點吧:優秀的講師團隊:我們的講師不但有多年的工作經驗,也有豐富的教學經驗,不但技術過硬,也善於用通俗的語言講解複雜的知識點,更有耐心為學員解答學習過程中的問題。每次課程我們都會反覆研究,花大量時間準備課程材料,力求用最適合的案例和方式為學員講解。

  案例教學的方法:我們從2016年開始舉辦公開的技術培訓,也曾多次給企業做內部培訓,從多年的教學實踐中,我們發現,用傳統以知識點講解為主線,案例為輔的方式,效果並不好。學員反映,聽了後面忘前面,學了一堆東西卻不知道怎麼用。經過多次嘗試,我們摒棄了這種教學方式,採用以案例為主線,在案例中講解知識點的方法,在一個案例中串聯多個知識點,利用遺忘曲線的原理,我們用多個案例重現數據分析的流程,學員自然會舉一反三了。

  選取有實用價值的案例:iris數據集、titanic數據、NBA比賽數據跟我們的工作和科研有什麼關係?基本沒關係,那我們在講課的時候就不會用這種數據。而且我們教的是如何使用數據分析技術,並不是教你怎麼寫代碼,我們不培養碼農的。所以我們選擇的案例,都是有現實的商業意義,或者科研價值。在講解過程中,不但告訴你代碼怎麼寫,還會教你怎麼解決問題,為什麼要這麼做。

  貼心的助教制度:我們每次開課都會有助教,因為是手把手的課程,助教的存在,就是為了能解答您的問題,確保您有學會,滿載回家。而且我們的助教都有實戰經驗,有的來自業界,有的來自前幾批的優秀學員,我們也歡迎您以後加入我們的助教或講師團隊。

  對課程品質的堅持:我們在不同場合講解過課程的內容,不斷調整打磨課程,即使是相近的主題,我們也會對課程內容和案例進行升級,挑選出最適合市場趨勢的案例和技術來講解,並升級了大量案例。

  沒有學過Python,也可以來上課嗎?

  當然可以。我們的課程專門面向非計算機專業的學員,其實每次都有對編程一無所知的小白來參加我們的課程,他們甚至對電腦的很多知識都不甚了解,經過兩三天的課程,不但跟下來了,還很有收穫。對Python有一點認識的朋友相信一定可以得心應手,針對完全沒有碰過Python的新手,報名之後我們會推薦您Python的基礎在線課程進行課前的練習,也可以提前一天報到,參加我們的課前輔導。

  參會費用:

  全價:3600元/人;

  學生價:3000元/人(需出示學生證)

  友萬用戶(8.5折):3060元/人

  團報價格(三人及以上8.5折):3060元/人

  注: 以上所有優惠不疊加! 費用均含報名費、材料費,差旅及食宿費自理。

  特別優惠:轉發課程連結到微信朋友圈,在以上優惠基礎上直減200元或領取價值200元(培訓代金券一張),可憑此券參加我司主辦的任意一場培訓活動進行抵扣,有效期為2年。本活動優惠截止至1月31日。(詳細轉發需求請聯繫工作人員確認。)

  報名方式:

  識別下圖二維碼立即填寫在線報名表,我們的工作人員隨後會聯繫您。確認報名後,請通過以下支付方式中的一種來繳費( 請保留支付憑證,拍照或截圖發給我們的工作人員。)

  報名連結:http://uone-tech.cn/Uone-Api/web/detail.html?Id=977eda9e-1f1f-4944-be55-fcda0ca771da&flag=2

  支付方式:

  方式一:

  對公轉帳

  繳費開戶名:北京友萬信息科技有限公司

  開戶行:中國建設銀行北京昌平支行

  帳 號:11050181360009366857

  方式二:現場刷(公務卡)繳費

  如現場刷卡需預繳500元留位費至主辦方指定帳戶,現場刷卡後以現金方式返還。外地學員請於2020年2月11號提前報到,北京學員可於12號早上8:00-9:00報到,繳費並領取發票和紙質邀請函,以及上課教材。由於12號早上現場人比較多,鼓勵北京學員也於11號報到。

  其它事項:

  · 主辦方將提供培訓課程所需的Python軟體;

  · 請學員自帶筆記本電腦並提前自行安裝軟體;

  · 本次課程食宿差旅費用由學員自理,外地學員請提前安排好行程;

  · 課程結束後,學員可申請由主辦方「北京友萬信息科技有限公司」提供的結業證書。

  · 請於課程開始前完成報名工作並及時與會務組保持溝通。

  主辦機構:

  主辦方:北京友萬信息科技有限公司協辦方:北理工大數據創新學習中心

  聯繫方式:

  諮詢郵箱:marketing@uone-tech.cn

  溫馨提示:按預報名順序排座位

  主辦方簡介:

  北京友萬信息科技有限公司,簡稱:友萬科技。英文全稱:Beijing Uone Info&Tech Co.,Ltd,簡稱:Uone-Tech,是一家專注於引進國外市場軟硬體產品的高科技企業。總部位於中關村昌平科技園區,是中國大陸領先的教育和科學軟體分銷商,該公司已在中國300多所高校建立了可靠的分銷渠道,擁有最成功的教學資源和數據管理專家。Uone-Tech將能夠有效地推廣科學軟體,促進採購和遵守中國當地的採購慣例,同時向中國用戶提供高質量的客戶支持和培訓服務。

相關焦點

  • Python開發簡單爬蟲【學習資料總結】
    >python語言基礎:(帶你熟悉python語言的特性,學會使用python開發環境,使用python開發一些簡單的案例) (1)Python3入門,數據類型,字符串 (2)判斷/循環語句,函數, (3)類與對象,繼承,多態 (4)tkinter界面編程
  • 「Python爬蟲與文本實例技術與應用」培訓班通知
    為提升相關科技工作者的技術水平,北京博宏科睿教育科技有限公司特舉辦2018年第二期「Python爬蟲與文本挖掘實例技術與應用」培訓班,本次培訓從爬蟲的基本知識入手,使用Python作為實現工具,一步步講述網絡爬蟲的實現,具體內容如下:            【培訓目標】    1.讓學員儘快掌握python語言的基本結構與語法與數據類型,
  • 初學者如何用「python爬蟲」技術抓取網頁數據?
    在當今社會,網際網路上充斥著許多有用的數據。我們只需要耐心觀察並添加一些技術手段即可獲得大量有價值的數據。而這裡的「技術手段」就是指網絡爬蟲。 今天,小編將與您分享一個爬蟲的基本知識和入門教程:什麼是爬蟲?網絡爬蟲,也叫作網絡數據採集,是指通過編程從Web伺服器請求數據(HTML表單),然後解析HTML以提取所需的數據。
  • 資料|精通 Python 網絡爬蟲:核心技術、框架與項目實戰
    隨著大數據時代的到來,我們經常需要在海量數據的網際網路環境中搜集一些特定的數據並對其進行分析,我們可以使用網絡爬蟲對這些特定的數據進行爬取,並對一些無關的數據進行過濾,將目標數據篩選出來。對特定的數據進行爬取的爬蟲,我們將其稱為聚焦網絡爬蟲。在大數據時代,聚焦網絡爬蟲的應用需求越來越大。
  • Python入門到機器學習,網絡爬蟲分析到實踐,這幾本書不要錯過
    Python編程從入門到實踐另外,《Python編程 從入門到實踐 第2版(圖靈出品)》這本書籍屬於Python3.x編程入門圖書,機器學習,數據處理,網絡爬蟲熱門程式語言,從基本概念到完整項目開發,從入門到實踐,幫助零基礎讀者迅速掌握
  • Python爬蟲培訓機構推薦新手怎麼學習Python爬蟲
    近兩年,大數據和AI人工智慧的興起,讓Python成為全球4大流行程式語言之一,這一現狀在2018年會持續升溫,因此,對於想從事Python編程的人員來說,目前是學習的絕佳時期!接下來是Python爬蟲培訓機構推薦。
  • 十六本python入門學習書籍推薦,python入門新手必看
    隨著人工智慧時代的到來,python程式語言一步登天衝到編程排行榜第一名,因此更多朋友想轉行學習python程式語言的朋友,可以一起看一下:python入門新手必看的十六本python入門學習書籍1、python基礎教程司維所著圖書:本書包括Python程序設計的方方面面,首先從Python的安裝開始,隨後介紹了Python的基礎知識和基本概念,
  • 學習python必備暢銷書排行榜top5書單
    所以,掌握一門python語言也是一種不錯的選擇。本文將從零基礎到高級精通,說說學習python必備的暢銷書,top1:《python編程從入門到實踐》,對於初學者來說,每次都是從入門到放棄,那是因為有些書編寫的學習方法路線不合理,或者實戰案例太少,也容易讓人不知所用。
  • Python科學計算入門書籍推薦
    話說回來,這近些日子,隨著機器學習的熱潮,python也算是程序界的蒂花之秀了,幾乎到處都能看到它的聲影。算下來,我也有「幾乎4年」的python開發時間了,期間還使用python來參加全國研究生數學建模比賽並連續兩年拿到了國二。都說python入門簡單,網上也有很多學習資源。但是大多數都比較亂,沒有一個明確的順序和方向。
  • 重磅!學掌門「Python 商業(大)數據分析師」課程新品發布!
    重磅!學掌門「Python 商業(大)數據分析師」課程新品發布! 2020 年 12 月 4 日,博為峰旗下學掌門召開了《Python 商業(大)數據分析師》新課程發布會。
  • 聊聊學python轉行、具體學習方法、自學python用於辦公、寫爬蟲等...
    Python這幾年都挺火的,比如說應用於數據分析、機器學習、自動化辦公、寫爬蟲採集數據等等……因為我之前發過幾篇和python有關的推文,所以不止一個朋友加私信問我說,你是怎麼學的,能不能談一談學習的經驗和技巧。
  • Python爬蟲入門之請求庫的安裝
    請求庫的安裝爬蟲可以簡單地分為幾步:抓取頁面、分析頁面和存儲數據。在抓取頁面的過程中,我們需要模擬瀏覽器向伺服器發出請求,所以需要用到一些python庫來實現HTTP請求操作。在爬蟲的講解過程中,我們將用到的第三方庫有requests、Selenium和aiohttp等。我們將先介紹這些請求庫的方法。
  • 代碼森林帶你實踐熱門編程書籍——《Python編程:從入門到實踐》
    Python主要用於機器學習、爬蟲、數據分析、腳本編寫、人工智慧等領域,語言簡潔靈活,高效方便。要想學好Python,小白應該選擇什麼樣的書籍呢?第一本你必須要擁有的書籍一定是《Python編程:從入門到實踐》它是一本針對所有層次的Python讀者的編程學習書——《Python編程:從入門到實踐》本書內容本書旨在讓你成為優秀的程式設計師,具體地說,是優秀的Python程式設計師。通過閱讀本書,你將迅速掌握編程概念,打下堅實的基礎,並養成良好的習慣。
  • 網絡爬蟲作用有哪些?如何構建網絡爬蟲?
    人們正在以前所未有的速度轉向網際網路,我們在網際網路上做的很多行為產生了大量的「用戶數據」,比如評論,微博,購買記錄等等。這一點也不奇怪,網際網路目前是分析市場趨勢,監視競爭對手或者獲取銷售線索的最佳場所,數據採集以及分析能力已成為驅動業務決策的關鍵技能。而網絡爬蟲則是數據採集的主要方法。下面具體為大家介紹網絡爬蟲作用有哪些?如何構建網絡爬蟲?什麼是網絡爬蟲?
  • 入門Python爬蟲——獲取數據篇
    作者: 李菲 來源:人工智慧學習圈在如今的大數據時代,相信大家都對Python一詞有所耳聞。而Python爬蟲,簡單來說,即通過Python程序獲取對我們有用的數據。常用於商業分析,不過偶爾也可以輔助我們解決在日常生活中遇到的一些問題。
  • 簡單使用scrapy爬蟲框架批量採集網站數據
    前言 本文的文字及圖片來源於網絡,僅供學習、交流使用,不具有任何商業用途,如有問題請及時聯繫我們以作處理。 本篇文章就使用python爬蟲框架scrapy採集網站的一些數據。
  • Python——網絡爬蟲、登錄、代理設置
    (url重寫技術:將sessionid拼接到url裡)二、代理設置在我們爬取網絡上的數據時,經常會遇到一些網站採取了防爬取技術,或是因為自己採集網站信息的強度和採集速度太大,給對方伺服器帶去了更多的壓力。在我們爬取數據時,如果一直使用同一個ip,很可能就會被進位訪問頁面,所以,做網絡爬蟲都躲不過去ip問題。
  • Python網頁爬蟲工具有哪些?
    一個真實的項目,一定是從獲取數據開始的。不管文本處理,機器學習和數據發掘,都需求數據,除了通過一些途徑購買或者下載的專業數據外,常常需求我們自己著手爬數據,爬蟲就顯得分外重要。那麼,Python網頁爬蟲東西有哪些呢?
  • 雲立方網科普:常用高效的Python爬蟲框架有哪些?
    Python是現在非常流行的程式語言,而爬蟲則是Python語言中最典型的應用,下面是總結的高效Python爬蟲框架,大家看看是否都用過呢。 Scrapy是一個為了爬取網站數據,提取結構性數據而編寫的應用框架,可以應用在包括數據挖掘,信息處理或存儲歷史數據等一系列的程序中
  • 從零開始學會Python 爬蟲,該怎麼做?
    Python離我們最近的案例可能是春運的時候程式設計師利用Python各種腳本的搶票源碼搶到回家的車票了。其實,Python能做的不僅僅是搶票哦,今天小編就給大家總結了一些Python爬取各種東西的案例,讓你看看Python到底有多強大。