14個超有趣的數據科學項目,數據集都準備好了!

2021-01-14 章魚大數據

對於對數據,數據分析或數據科學感興趣的人,我們提供了一份可以利用業餘時間完成的數據科學項目清單,一共14個!

項目分為三種類型:

可視化項目

探索性數據分析(EDA)項目

預測建模

可視化項目

最容易上手的就是數據可視化, 以下三個數據集可以用於創建一些有意思的的可視化效果並加到你的簡歷中。

新冠病毒可視化

學習如何使用Plotly構建動態可視化數據,展示冠狀病毒是如何在全球範圍內傳播的。Plotly很好用,它可以做動態可視化,好看且操作簡單。

難易程度:簡單

數據集:

https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset

教程:

https://towardsdatascience.com/visualizing-the-coronavirus-pandemic-with-choropleth-maps-7f30fccaecf5

澳洲大火數據可視化

2019-2020年的叢林大火季,也稱為黑色夏天,由2019年6月開始的幾場極端野火組成的。據維基百科統計,這場大火燒毀了約1,860萬公頃的土地和5,900多座建築物。

這是一個有趣的項目,可以利用Plotly或Matplotlib數據可視化工具來可視化野火的規模和對地理的影響。

難易程度:簡單

數據集:

https://www.kaggle.com/carlosparadis/fires-from-space-australia-and-new-zeland

地表溫度可視化

你是否懷疑過全球變暖的觀點?創建一些數據可視化效果,顯示地球表面溫度如何隨時間變化,並可以通過創建折線圖或其他動畫的Choropleth貼圖來實現!也可以創建一個預測模型來預測未來五十年內地球的溫度。

難易程度:介於簡單到中等之間

數據集:

https://www.kaggle.com/berkeleyearth/climate-change-earth-surface-temperature-data/kernels

探索性數據分析項目

探索性數據分析(EDA),也稱為數據挖掘,意思是數據分析過程中使用了多種技術來更好理解數據。

紐約Airbnb數據挖掘

自2008年以來,Airbnb使遊客和房東出行更方便,提出更多個性化的體驗世界的方式。該數據集包含有關2019年紐約出租的信息以及包含其地理信息,價格,評論數量等。

可以分析的一些角度如下:

哪些區域生意最好,為什麼?

哪些區域的流量比其他區域大,為什麼?

價格,評論數量和預訂天數之間是否存在一些關係?

難易程度:中等

數據集:

https://www.kaggle.com/dgomonov/new-york-city-airbnb-open-data

哪些因素與員工離職和績效有關

IBM公開了一個綜合數據集,可以使用它來了解各種因素如何影響員工的流失率和滿意度。一些變量包括教育程度,工作相關性,績效評估和工作生活平衡程度等。

分析此數據集,找到任何確實影響員工滿意度的變量,另外,還可以看看是否可以對變量進行重要程度排名。

難易程度:簡單

數據集:

https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset

世界大學排名

你認為你的國家擁有世界上最好的大學嗎?成為「最好」大學的衡量標準是什麼?該數據集包含三個全球大學排名方式。使用此數據,你是否可以回答以下問題:

頂尖的大學都在哪些國家?

決定世界排名的主要因素是什麼?

難易程度:簡單

數據集:

https://www.kaggle.com/mylesoneill/world-university-rankings

飲酒與在校表現

喝酒會影響學生的成績嗎?如果不會,那有什麼別的影響嗎?這個數據是從中學數學和葡萄牙語課程的學生進行的一項調查中獲得的。它包含幾個變量,例如飲酒量,家庭人數,參與課外活動。

利用這些數據,挖掘學校成績與各種因素之間的關係。另外,看看是否可以根據其他變量來預測學生的成績!

難易程度:簡單

數據集:

https://www.kaggle.com/uciml/student-alcohol-consumption

寵物小精靈數據挖掘

對所有遊戲玩家來說,這是一個包含來自七代802個 Pokemon的信息數據集。試著回答以下幾個問題!

哪一代寵物小精靈最強?哪代最弱?

哪種類型神奇寶貝最強?哪種最弱?

能否建立分類器來識別神奇寶貝?

身體特徵與力量狀態(進攻,防守,速度等)之間是否有相關性?

難易程度:簡單

數據集:

https://www.kaggle.com/rounakbanik/pokemon

探索影響預期壽命的因素

世衛組織建立了一段時間內所有國家健康狀況的數據集,其中包括預期壽命,成人死亡率等方面的統計數據。使用此數據集,探索各種變量之間的關係,預測對預期壽命的最大影響因素是什麼?

請嘗試回答以下問題:

最初選擇的各種預測因素是否真的影響預期壽命?實際影響預期壽命的預測變量有哪些?

預期壽命值低於(

嬰兒和成人死亡率如何影響預期壽命?

預期壽命與飲食習慣,生活方式,運動,吸菸,飲酒等是正相關還是負相關?

是否接受教育對人類壽命有何影響?

預期壽命與飲酒是正相關還是負相關?

人口稠密的國家的預期壽命是否有降低的趨勢?

免疫覆蓋率對預期壽命有什麼影響?

難易程度:簡單

數據集:

https://www.kaggle.com/kumarajarshi/life-expectancy-who

預測模型

能源消耗的時間序列預測

該數據集由美國區域傳輸組織PJM網站上的功耗數據組成,使用此數據集,查看是否可以構建時間序列模型來預測能耗。除此之外,還可以查看是否可以找到一天中每個小時的趨勢,假日用電量以及長期趨勢!

難度:中高級

數據集:

https://www.kaggle.com/robikscube/hourly-energy-consumption

貸款預測

該數據集取自Analytics Vidhya,包括 615行和13列有關已批准和尚未批准的歷史貸款信息。你是否可以創建一個模型來預測貸款是否會獲批。

難易程度:簡單

數據集:

https://datahack.analyticsvidhya.com/contest/practice-problem-loan-prediction-iii/

二手車價格計算器

Craigslist是全球最大的二手車經銷商,該數據集由Craigslist的抓取數據組成,每隔幾個月更新一次。使用此數據集,查看是否可以創建一個數據集來預測一輛汽車價格是否被高估或低估了。

難易程度:中等

數據集:

https://www.kaggle.com/austinreese/craigslist-carstrucks-data

信用卡欺詐檢測

該數據集顯示了兩天內發生的交易,其中284,807筆交易中有492筆欺詐。數據高度正態分布,欺詐佔所有交易的0.172%。學習如何使用不正太的數據集並建立信用卡欺詐檢測模型。

難易程度:中高級

數據集:

https://www.kaggle.com/janiobachmann/credit-fraud-dealing-with-imbalanced-datasets

皮膚癌圖像檢測

通過10,000多張圖像來構建神經網絡來檢測皮膚癌。這絕對是最難的項目,需要有關神經網絡和圖像識別的儲備知識。

難易程度:難

數據集:

https://www.kaggle.com/kmader/skin-cancer-mnist-ham10000


相關焦點

  • 14個超有趣的數據分析項目,數據集都給你整理好啦
    ,提供一份可以利用業餘時間完成的數據科學項目清單,一共14個!項目分為三種類型:最容易上手的就是數據可視化, 以下3個數據集可以用於創建一些有意思的的可視化效果並加到你的簡歷中。1.澳洲大火數據可視化2019-2020年的叢林大火季,也稱為黑色夏天,由2019年6月開始的幾場極端野火組成的。據維基百科統計,這場大火燒毀了約1,860萬公頃的土地和5,900多座建築物。這是一個有趣的項目,可以利用Plotly或Matplotlib數據可視化工具來可視化野火的規模和對地理的影響。
  • 每天一個數據科學項目,數據集都準備好了!
    對於那些對數據,數據分析或數據科學感興趣的人,我提供了一份可以利用業餘時間完成的數據科學項目清單,一共14個!項目分為三種類型:最容易上手的就是數據可視化, 以下三個數據集可以用於創建一些有意思的的可視化效果並加到你的簡歷中。
  • 14個數據分析項目,數據源全部公開!
    對於那些對數據,數據分析或數據科學感興趣的人,提供一份可以利用業餘時間完成的數據科學項目清單,一共14個!
  • 探索神經網絡規模下限,MNIST-1D數據集邁出了第一步
    不管是按什麼樣的科學標準,人類基因組項目都是巨大的:它涉及數十億美元的資金,數十家機構以及超過十多年的快速研究進展。但這僅僅是冰山一角。早在項目開始之前,科學家們就在全力整理人類遺傳學這門複雜的科學。而大多數時候,他們研究的不是人類。
  • 100天學習計劃 | 一份詳實的數據科學指南
    如果您從事任何數據科學項目,它們總是從探索性數據分析開始,以便更好地理解數據,而您在 Pandas 中介紹的這些主題將會派上用場。另外,因為Pandas有助於從不同的來源和格式讀取數據,所以它們速度快、效率高,還提供了對數據集執行各種操作的簡單功能。
  • 《三江源頭科學考察地圖集》出版填補生態數據空白
    新華網西寧10月20日電(記者張曦)記者從青海省測繪地理信息局了解到,《三江源頭科學考察地圖集》正式出版發行,三江源首次生動、全面展現在世人面前。  此次出版發行的《三江源頭科學考察地圖集》包括《走進三江源》《認識三江源》《考察三江源》《探尋三江源》4個圖組,共61個專題。
  • 數據科學領域最好的免費電子書匯總
    對於每個人來說,書都是必不可少的精神食糧。讀書=充電。今天,小芯就為大家整理了25本數據科學領域最好的免費電子書。這25本書中的每一本不是由數據科學先驅、導師、指導者推薦給小芯的,就是小芯在做某個特定項目時參考過的。相信會給大家帶來很大的幫助!因為很多小夥伴都在學習Python,為此,這次整理的大多數書籍都是基於Python的編程。
  • 《海豚數據科學實驗室》迎來浙江大學的結業生!
    通過32個學時,包括「Python基礎」,「數據分析」,「機器學習」,「數據可視化」、「深度學習」、「行業案例實戰」六大模塊的學習,在教學過程中依託【海豚數據科學實驗室】雲實驗平臺,結合豐富的實驗案例,真實的行業案例等,進行混合式教學方式以及線下導師輔導,從理論到應用,使學生深入地理解所學專業知識的應用場景及應用技巧,可以迅速幫助「零」基礎的同學,快速掌握大數據、人工智慧的基礎知識和應用開發技能
  • 業界| 深度學習與XGBoost在小數據集上的測評,你怎麼看?(附源碼)
    模型原始碼:https://gist.github.com/maxberggren/b3ae92b26fd7039ccf22d937d49b1dfdAndrew Beam 曾展示目前的神經網絡方法如果有很好的調參是能夠在小數據集上取得好結果的。如果你目前正在使用正則化方法,那麼人工神經網絡完全有可能在小數據集上取代傳統的統計機器學習方法。
  • 江蘇省三家上市公司入圍大數據產業國家試點 大數據引領南京軟體...
    試點示範項目由各地工業和信息化主管部門、中央企業集團組織推薦。公示的項目名單顯示,項目共分10個方向,下設200個項目,分別對應200家公司。  項目的10個方向分別為大數據存儲管理、大數據分析挖掘、大數據安全保障、產業創新大數據應用、跨行業大數據融合應用、民生服務大數據應用、大數據測試評估、大數據重點標準研製及應用、政務數據共享開放平臺、公共數據共享開放平臺,對應項目分別有17項、25項、10項、64項、21項、30項、3項、1項、17項、12項。
  • 用《聖經》做訓練數據集,打造語言風格轉換工具
    打開APP 用《聖經》做訓練數據集,打造語言風格轉換工具 李倩 發表於 2018-11-01 09:24:14 達特茅斯學院的研究人員為了提高計算機模型對文本風格的轉換能力
  • 2020重磅升級「Python數據科學入門與網絡爬蟲案例實戰研討會」
    Python作為一門面向對象的程式語言,簡潔的語法使得編寫十幾行代碼即可實現爬蟲功能,獲取海量網際網路數據。使用Python來編寫爬蟲實現簡單且效率高,同時爬取的數據可以使用Python強大的第三方數據處理庫來進行分析,最重要的是學習成本低,如此之好的東西怎能不學習呢?  2020重磅升級的Python數據科學入門與網絡爬蟲案例實戰研討會開始報名啦!
  • 上海交大發布 MedMNIST 醫學圖像分析數據集 & 新基準
    By 超神經內容概要:醫學圖像分析是一個非常複雜的跨學科領域,近日上海交通大學發布了 MedMNIST 數據集,有望促進醫學圖像分析的發展。MedMNIST 是一個包含 10 個醫學公開數據集的集合,且全部數據均已經過預處理,將其分為包括訓練集、驗證集、測試子集的標準數據集。數據來源包括 X 射線、OCT、超聲、CT 等不同成像模式,得到了同一病灶的多模態數據。
  • 中聯數據首發上會 數據打架募資遠超資產
    招股書顯示,中聯數據此次募集資金投資項目為中聯綠色大數據產業基地項目,該項目投資總金額為46.98億,擬使用募集資金12.00億元,項目實施主體為中聯數據子公司山西中雲智谷數據科技有限責任公司,項目資金主要投向為工程費用、設備購置費用、預備費、鋪底流動資金等。本次募集資金所用項目為自建數據中心,是中聯數據對於IDC經營模式的進一步探索。
  • 今日Paper|蚊子叫聲數據集;提高語音識別準確率;對偶注意力推薦...
    為了幫助各位學術青年更好地學習前沿研究成果和技術,AI 研習社重磅推出【今日 Paper】欄目, 每天都為你精選關於人工智慧的前沿學術論文供你學習參考。作者們在AiShell-1中文語音數據集上進行了實驗,不僅在噪聲較高的情況下獲得了新的最好成績,同時也表明了用很容易找到的開源的工具包+幾百個小時的訓練數據就可以獲得相對高的準確率。這個結果對其他的開發者、初學者也很有借鑑意義。
  • 中聯數據淨現比直墜毛利率落後 數據打架募資遠超資產
    來源:中國經濟網原標題:中聯數據淨現比直墜毛利率落後 數據打架募資遠超資產中國經濟網編者按:中聯雲港數據科技股份有限公司(以下簡稱「中聯數據」)於2020年12月23日首發上會獲通過,公司此次擬於深交所創業板上市,發行數量不超過2000萬股,不低於發行後總股本的25%,保薦機構為華泰聯合證券有限責任公司。
  • 招聘官有話說:數據科學部門想看到什麼樣的簡歷?
    我沒有把「數據分析師」包括在內,因為其日常工作通常與數據科學家不同,數據分析師這個頭銜是一個非常寬泛的術語。如果你目前的工作是從事數據科學工作,卻在簡歷上寫了其他創造性的工作經歷,那麼最好將其改成數據科學家。請記住,即使簡歷中包含了你參與過的項目的描述(包括機器學習),如果標題不是數據科學家,就會增加不必要的模糊性。
  • 如何全面解析數據並創造數據故事 | 網際網路數據資訊網-199IT |...
    需要故事和圖像來解釋數據的一個最好的例子是 「Anscombe四重奏解析」。「Anscombe四重奏」中包含四個數據集,它們擁有非常相似的統計結論,但當你將它們可視化後,結果卻完全不同。以上是 「Anscombe四重奏」中描述的4個數據集。如果只看數字,會發現它們的匯總統計數據幾乎是相同的。
  • 有這3個免費數據採集工具,不懂爬蟲代碼,也能輕鬆爬數據
    比如想要獲取某個電商網站的評論數據,往往需要寫出一段代碼,藉助python去抓取出相應的內容。說到學寫代碼……額,我選擇放棄。那麼問題來了,有沒有什麼更方便的方法呢?今天就為大家介紹3個能適應大多數場景的數據採集工具,即使不懂爬蟲代碼,你也能輕鬆爬出95%網站的數據。
  • 數據治理中影響數據質量的5個因素
    數據是企業最有價值的資產之一。企業的數據質量與業務績效之間有著直接的聯繫。高質量的數據可以保持公司的競爭力,在經濟動蕩時期立於不敗之地。有了普遍和深入的數據質量,企業在任何時候都可以信任滿足所有需求的所有數據。