宅家太無聊?每天一個數據科學項目,數據集都準備好了!

2021-03-02 CDA數據分析師

大數據文摘出品

來源:medium

編譯:張大筆茹、夏雅薇

相信很多同學一直苦於沒有數據集可以練習,這裡給大家提供了一份可以利用業餘時間完成的數據科學項目清單,一共14個!

項目分為三種類型:

最容易上手的就是數據可視化, 以下三個數據集可以用於創建一些有意思的的可視化效果並加到你的簡歷中。

學習如何使用Plotly構建動態可視化數據,展示冠狀病毒是如何在全球範圍內傳播的。Plotly很好用,它可以做動態可視化,好看且操作簡單。

難易程度:簡單

數據集:

https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset

教程:

https://towardsdatascience.com/visualizing-the-coronavirus-pandemic-with-choropleth-maps-7f30fccaecf5

2019-2020年的叢林大火季,也稱為黑色夏天,由2019年6月開始的幾場極端野火組成的。據維基百科統計,這場大火燒毀了約1,860萬公頃的土地和5,900多座建築物。

這是一個有趣的項目,可以利用Plotly或Matplotlib數據可視化工具來可視化野火的規模和對地理的影響。

難易程度:簡單

數據集:

https://www.kaggle.com/carlosparadis/fires-from-space-australia-and-new-zeland

你是否懷疑過全球變暖的觀點?創建一些數據可視化效果,顯示地球表面溫度如何隨時間變化,並可以通過創建折線圖或其他動畫的Choropleth貼圖來實現!也可以創建一個預測模型來預測未來五十年內地球的溫度。

難易程度:介於簡單到中等之間

數據集:

https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data/kernels

探索性數據分析(EDA),也稱為數據挖掘,意思是數據分析過程中使用了多種技術來更好理解數據。

自2008年以來,Airbnb使遊客和房東出行更方便,提出更多個性化的體驗世界的方式。該數據集包含有關2019年紐約出租的信息以及包含其地理信息,價格,評論數量等。

可以分析的一些角度如下:

哪些區域生意最好,為什麼?

哪些區域的流量比其他區域大,為什麼?

價格,評論數量和預訂天數之間是否存在一些關係?

難易程度:中等

數據集:

https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data

IBM公開了一個綜合數據集,可以使用它來了解各種因素如何影響員工的流失率和滿意度。一些變量包括教育程度,工作相關性,績效評估和工作生活平衡程度等。

分析此數據集,找到任何確實影響員工滿意度的變量,另外,還可以看看是否可以對變量進行重要程度排名。

難易程度:簡單

數據集:

https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset

你認為你的國家擁有世界上最好的大學嗎?成為「最好」大學的衡量標準是什麼?該數據集包含三個全球大學排名方式。使用此數據,你是否可以回答以下問題:

頂尖的大學都在哪些國家?

決定世界排名的主要因素是什麼?

難易程度:簡單

數據集:

https://www.kaggle.com/mylesoneill/world-university-rankings

喝酒會影響學生的成績嗎?如果不會,那有什麼別的影響嗎?這個數據是從中學數學和葡萄牙語課程的學生進行的一項調查中獲得的。它包含幾個變量,例如飲酒量,家庭人數,參與課外活動。

利用這些數據,挖掘學校成績與各種因素之間的關係。另外,看看是否可以根據其他變量來預測學生的成績!

難易程度:簡單

數據集:

https://www.kaggle.com/uciml/student-alcohol-consumption

對所有遊戲玩家來說,這是一個包含來自七代802個 Pokemon的信息數據集。試著回答以下幾個問題!

難易程度:簡單

數據集:

https://www.kaggle.com/rounakbanik/pokemon

世衛組織建立了一段時間內所有國家健康狀況的數據集,其中包括預期壽命,成人死亡率等方面的統計數據。使用此數據集,探索各種變量之間的關係,預測對預期壽命的最大影響因素是什麼?

請嘗試回答以下問題:

最初選擇的各種預測因素是否真的影響預期壽命?實際影響預期壽命的預測變量有哪些?

預期壽命值低於(<65)的國家是否應該增加其醫療保健支出以改善其平均壽命?

嬰兒和成人死亡率如何影響預期壽命?

預期壽命與飲食習慣,生活方式,運動,吸菸,飲酒等是正相關還是負相關?

是否接受教育對人類壽命有何影響?

預期壽命與飲酒是正相關還是負相關?

人口稠密的國家的預期壽命是否有降低的趨勢?

免疫覆蓋率對預期壽命有什麼影響?

難易程度:簡單

數據集:

https://www.kaggle.com/kumarajarshi/life-expectancy-who

該數據集由美國區域傳輸組織PJM網站上的功耗數據組成,使用此數據集,查看是否可以構建時間序列模型來預測能耗。除此之外,還可以查看是否可以找到一天中每個小時的趨勢,假日用電量以及長期趨勢!

難度:中高級

數據集:

https://www.kaggle.com/robikscube/hourly-energy-consumption

該數據集取自Analytics Vidhya,包括 615行和13列有關已批准和尚未批准的歷史貸款信息。你是否可以創建一個模型來預測貸款是否會獲批。

難易程度:簡單

數據集:

https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/

Craigslist是全球最大的二手車經銷商,該數據集由Craigslist的抓取數據組成,每隔幾個月更新一次。使用此數據集,查看是否可以創建一個數據集來預測一輛汽車價格是否被高估或低估了。

難易程度:中等

數據集:

https://www.kaggle.com/austinreese/craigslist-carstrucks-data

  

該數據集顯示了兩天內發生的交易,其中284,807筆交易中有492筆欺詐。數據高度正態分布,欺詐佔所有交易的0.172%。學習如何使用不正太的數據集並建立信用卡欺詐檢測模型。

難易程度:中高級

數據集:

https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets

通過10,000多張圖像來構建神經網絡來檢測皮膚癌。這絕對是最難的項目,需要有關神經網絡和圖像識別的儲備知識。

難易程度:難

數據集:

https://www.kaggle.com/kmader/skin-cancer-mnist-ham10000

相關報導:

https://towardsdatascience.com/14-data-science-projects-to-do-during-your-14-day-quarantine-8bd60d1e55e1

美國失業人數突破2200萬!這個動態圖我用Python畫出來了

Python爬取15萬條《我是餘歡水》彈幕,還原一個喪到極致的中年人生

喜歡本篇內容請點個「在看」哦!❤️

相關焦點

  • 一個數據科學負責人眼中的數據科學:太無聊了!
    在 Dessa 的數據科學負責人 Ian Xiao 看來,或許並非如此。他認為,數據科學家的工作往往是非常「無聊的」,在決定踏上這條道路之前,我們必須對此做好心理準備,建立自己的應對機制。以下是他的全文。
  • 14個超有趣的數據科學項目,數據集都準備好了!
    對於對數據,數據分析或數據科學感興趣的人,我們提供了一份可以利用業餘時間完成的數據科學項目清單,一共14個! 這是一個有趣的項目,可以利用Plotly或Matplotlib數據可視化工具來可視化野火的規模和對地理的影響。
  • 疫情期間如何宅家充電?這些數據科學課程免費看!
    疫情期間宅家覺得太無聊?別再浪費時間啦,不試試怎麼知道自己潛力無限呢?莎士比亞在隔離期間完成了《李爾王》;牛頓在隔離期間為運動定律的發現奠定了基礎;現在輪到你隔離在家,只想拍拍抖音搞笑視頻嗎?就算做不到改變戲劇世界或者在物理界掀起幾輪變革,也別小瞧自己。你完全可以鞏固自己數據科學的技能,疫情結束後一躍踏上職業之路。
  • 14個超有趣的數據分析項目,數據集都給你整理好啦
    轉載自大數據文摘對於那些對數據,數據分析或數據科學感興趣的人,提供一份可以利用業餘時間完成的數據科學項目清單
  • 疫情之下,視頻平臺的「宅家」大數據
    2月28日,B站發布《宅家抗疫大數據報告》,數據顯示,2月18至3月18日之間,B站用戶觀看疫情相關視頻19億次,UP主創作相關視頻總時長61218小時,疫情科普類視頻獲得3.6億次播放。  抖音聯合全國高校開展「停課不停學」項目,共抗疫情,知識防禦第一線。
  • 研究生項目解析 | 數據科學 & 商業分析
    Data Science作為一個寬口徑的新興職業方向,充滿了工作機會,同時,無論你是學什麼專業出身的,都有新專業、新領域的知識要學。比如工作期間,學統計的去研究一下優化、計量經濟,學計算機的深入加強統計知識,都可能有機會。美國目前共有45所大學開設的數據分析相關專業碩士研究生課程項目。
  • 什麼是數據科學?
    作者 | CDA數據分析師數據科學是一個研究領域,涉及通過使用各種科學方法,算法和過程從大量數據中提取見解。它可以幫助您從原始數據中發現隱藏的模式。由於數理統計,數據分析和大數據的發展,數據科學這個術語已經出現。
  • 數據科學簡介:分數據、結構和數據科學管道(一)
    數據是一種商品,但是,如果無法處理數據,數據的價值就值得懷疑。數據科學是一個多學科領域,其目的是從所有形式的數據中提取價值。本文從數據、數據結構以及可用於將數據轉換為價值的高級流程方面來探討數據科學領域。  數據科學是一個流程。這並不是說數據是機械的,缺乏創造力的。
  • 柯西科研 | 超高含金量海外量化數據科學背景提升項目—Kaggle
    2017年Kaggle被谷歌收購,知名度進一步提升,吸引了全球近300萬的數據科學愛好者。Kaggle上的競賽有各種分類,例如獎金極高競爭激烈的的「Featured」,相對平民化的「Research」等等。但他們整體的項目模式是一樣的,就是通過出題方給予的訓練集建立模型,再利用測試集算出結果用來評比。
  • 統計數據:一個成功數據科學項目的最佳起點
    要想開啟一個兼具意義和效果的數據科學項目,需要深入理解原始數據和相關領域知識。初步的統計工具和可視化圖表,能幫助人們更深入、直觀地理解數據及其行為。統計學包含許多基本概念,如描述性統計和推斷性統計。描述性統計使用均值、標準差等指標總結樣本數據,推斷性統計從隨機變化的數據中得出結論。
  • 【大數據文摘】高質量數據集哪裡來?
    然而討論的共同中心是,在當下最前沿的機器學習方面,數據是一個相當關鍵的組成部分。獲取高質量的初始數據對於那些運用機器學習作為他們業務核心技術的創業公司來說是十分重要的。雖然許多算法和軟體工具都是開源和共享的,但是好的數據通常是私人專有而且難以創建的。
  • 資深宅女的元氣好物天貓精靈,宅家無聊根本不存在
    引文:前段時間,不少人宅家都高呼無聊,作為資深宅女,我可有法子讓大家宅家也不覺得無聊!只需要一部AI智能小精靈,宅家生活也能元氣滿滿,這個小精靈就是---天貓精靈方糖R。宅家除了睡就是吃?NO NO NO,當 引文:前段時間,不少人宅家都高呼無聊,作為資深宅女,我可有法子讓大家宅家也不覺得無聊!只需要一部AI智能小精靈,宅家生活也能元氣滿滿,這個小精靈就是---天貓精靈方糖R。
  • 14個數據分析和機器學習項目!附數據集
    大數據文摘出品 來源:medium編譯:張大筆茹、夏雅薇對於那些對數據,數據分析或數據科學感興趣的人,提供一份可以利用業餘時間完成的數據科學項目清單,一共14個!項目分為三種類型:最容易上手的就是數據可視化, 以下三個數據集可以用於創建一些有意思的的可視化效果並加到你的簡歷中。學習如何使用Plotly構建動態可視化數據,展示冠狀病毒是如何在全球範圍內傳播的。Plotly很好用,它可以做動態可視化,好看且操作簡單。
  • 準備好進入數據科學領域了嗎?先問問自己這14個問題 - 大數據_CIO...
    但在進入數據科學領域前,有必要看看以下問題,以評估數據科學是否真的適合你。   1. 什麼是數據科學?   數據科學是一個廣闊的領域,包括幾個細分領域,如數據準備和探索、數據表示和轉換、數據可視化、預測分析、機器學習、深度學習、人工智慧等。
  • 飯圈女孩宅家野生數據:誰家愛健身,誰家愛爬牆?
    FUNJI了解到,一個正常的青少年/成年人的宅家姿勢通常有三種:坐著、癱著和躺著。FUNJI編輯部的有志青年們為了消滅宅家臥倒這幾乎為零的運動量,為了消磨這一睜眼就又延長了的無邊假期,點開了收藏夾中已經落灰很久的健身視頻,刷起了網友自製的各種明星個人安利cut,然而,卻在視頻中發現了大量飯圈女孩的身影...滴!XX女友第一天打卡!
  • 南加州大學--數據科學項目
    我們的目標是創建一個教育項目,專注於如何應用信息來解決學術界、工業界和政府的現實問題;如何將工程學與眾多不同的學科相結合來實現這樣的解決方案;以及我們如何確保必要的數據、軟體和基礎設施的安全。我們相信,未來取決於這些混血學生,而學術界、工業界和政府都渴望這種背景。為了啟動這個項目,我們提供的學位將解決工程學的兩大挑戰:網絡安全和大數據。認識到當今的問題不能通過單一的研究領域來解決,數據科學項目也計劃在不久的將來將工程與醫學、商業、通信、藝術和法律相結合。信息改變世界。技術賦予我們對信息的力量,打破了生活各個領域的障礙。
  • 數據科學作品集中必須具備的4類項目
    數據科學是一個非常廣闊的領域,「數據科學」作為統稱涵蓋許多主題,包括機器學習、計算機版本、人工智慧和自然語言處理的所有子領域。儘管主題眾多,但要證明作為數據科學家的價值,只需要展示自己具備數據科學核心概念中的能力即可。
  • 「媽媽,宅家好無聊」,這些高質量陪伴必殺技,破除網癮「魔咒」
    (文章來源:豆豆貝育兒課堂)疫情當前,全國上下響應「宅家號召」,「專家說動我再動」成了每個家庭的口號,可口號喊得很容易,真正實施起來可不簡單。很多網友在連續憋了N天不忍感慨:「原來豬過得也不容易!」尤其是一些有小孩的家庭,生性好動的萌娃們天天宅在家都快崩潰了。
  • 病毒無情,宅家無聊?有這些好物陪伴趣味無窮
    來源:新浪眾測作者:科技來客引言因為新冠狀肺炎病毒的肆虐,我和大家一樣從年初一到現在都沒有怎麼出過門,而我所在的城市還算是疫情比較輕的,可想而知在疫情比較重的地區,大家出門更是不容易,而宅家幾乎成為了2020年中國人集體「迎接」新年的新禮儀。
  • 如何制定一個成功的數據科學培訓計劃
    Hiebing公司首先組建了一個營銷科學團隊,負責理解有關數據的合理問題,然後使用現有的最佳方法來解釋並恰當地提出。「然而,下一個挑戰是將這一方式擴展到組織內的其他部門,因為我們的營銷科學團隊無法密切參與我們正在進行的所有項目,」範德沃爾說。