機器學習項目實踐:30+ 必備資料庫(預測模型、圖像分類、文本分類)

2020-12-01 搜狐網

原標題:機器學習項目實踐:30+ 必備資料庫(預測模型、圖像分類、文本分類)

1 新智元編譯

來源:analyticsvidhya.com

作者:Kunal Jain

編譯:李靜怡

:COO、執行總編、主編、高級編譯、主筆、運營總監、客戶經理、諮詢總監、行政助理等 9 大崗位全面開放。

簡歷投遞:jobs@aiera.com.cn

HR 微信:13552313024

新智元為COO和執行總編提供最高超百萬的年薪激勵;為骨幹員工提供最完整的培訓體系、高於業界平均水平的工資和獎金。

加盟新智元,與人工智慧業界領袖攜手改變世界。

【新智元導讀】有了好的數據,機器學習項目也就成功了一半。希望這份資源清單有助於那些尋找機器學習項目實踐的人。對於初學者來說,這絕對是一個金礦。確保你在業餘時間選擇一些項目,並在上面投入時間和精力,將對你的技術成長大有益處。

大規模通用資料庫:從這裡入手

data.gov- 這是美國政府開放數據集總部。這些數據集的主題包括氣候、教育、能源、金融和更多領域的數據。

data.gov.in - 這是印度政府公開資料庫,你可以在這裡查找關於印度各行業、氣候、醫療保健等數據。同樣,稍微改變後綴,就能查看不同地區國家政府的公開資料庫,比如

  • 英國:data.gov.uk

  • 澳大利亞:data.gov.au

當然,也並非全世界國家的公開資料庫都是「data.gov」加更改後綴就可以了,比如

  • 加拿大:open.canada.ca

  • 中國:data.stats.gov.cn

  • 法國:etalab.gouv.fr

  • 德國:destatis.de

總之,國家公開資料庫相關權威標準,是你進行機器學習項目實踐的一個不錯的選擇。

World Bank- 世界銀行的公開資料庫。該平臺提供了好幾個工具,比如開放數據目錄(Open Data Catalog)、世界發展指數、教育指數等等。

Five Thirty Eight Datasets- 這裡是美國偏政治新聞網站 Five Thirty Eight 在他們的文章中使用的數據集。每個數據集裡不僅包括了數據,還有解釋這些數據的字典,以及相關報導連結。如果你想學習如何創建數據報導,這是你的最佳選擇。

大型資料庫:機器學習項目必備

Amazon Web Services (AWS) datasets- 亞馬遜提供了一些大數據集,可以在他們的平臺或你自己的本地計算機上使用。亞馬遜上的熱門數據集包括完整的 Enron 電子郵件數據集,Google圖書 n-gram,NASA NEX 數據集,Million Songs 數據集等等。

Google datasets- Google提供了幾個數據集作為其 Big Query 工具的一部分,包括嬰兒名字、GitHub公共存儲庫的數據、所有來自Hacker News的故事和評論等。

Youtube labeled Video Dataset - 幾個月前,谷歌發布了YouTube標記的資料集,其中包含800萬個YouTube影片ID和4800個視覺實體的相關標籤。不僅如此,這個數據集裡面還配備了幾十億幀經過預計算的、最先進的視覺feature。

預測模型與機器學習專用資料庫

UCI Machine Learning Repository - UCI機器學習庫顯然是最著名的資料庫,也是尋找與機器學習知識庫相關數據集最常去的地方之一。該數據集包括從諸如 Iris 和Titanic 等流行數據集,以及諸如空氣品質和GPS軌跡等新建的數據集。UCI機器學習庫包含超過350個數據集,其標籤分類包括域、目的(分類、回歸)。你可以使用這些過濾器找到你所需要的數據集。

Kaggle- Kaggle 提出了一個平臺,人們可以在這裡捐贈數據集,其他社區成員則可以對這些數據集進行投票或在這些數據集上運行內核/腳本。Kaggle共有超過350個數據集,其中,超過200個作為精選數據集(Featured datasets)。 雖然一些數據集跟其他地方有重複,但在這裡我也發現了在其他平臺沒有的一些有趣的數據集。此外,Kaggle 界面的另一個好處是,您可以在同一界面上查看社區成員的腳本和問題。

Analytics Vidhya - 這是我們自己網站的數據集,包括使用問題數據集和黑客馬拉松數據集。這裡的數據集都是基於現實生活中的行業問題,並且有專為為期2 - 7天的黑客馬拉松的相對較小的數據集。雖然關於真實生活中的實際問題數據集哪裡都有,但黑客馬拉松比賽之後相關數據集就不可再用。所以,你需要參加黑客馬拉松,才能獲得相關數據集。

Quandl- Quandl 通過其網站/ API或其他一些工具直接集成金融、財經方面的數據,分為Open 和 Premium 兩種。其中,所有 Open 數據集都是免費的。

Past KDD - Cup KDD Cup是由ACM知識發現和數據挖掘特別興趣小組組織舉辦的年度數據挖掘和知識發現比賽。這裡的存檔包括數據集和比賽說明。大多數年份的冠軍機器資料庫都能在這裡找到。

Driven Data- 現實世界實際問題資料庫,你可以用它來創造積極的社會影響。Driven Data 舉行在線模擬競賽,從而讓參賽者開發出最好的模型來解決這些現實問題。如果你有興趣使用數據科學對社會做貢獻,這就是你該去的地方。

圖像分類資料庫

MNIST 資料庫- 使用手寫數字進行圖像識別最流行的數據集,包括 6 萬個訓練樣本和 1 萬個示例測試集。MNIST資料庫是你用作練習圖像識別的第一數據集。

Chars74K - 這是 MNIST 資料庫的下一級,其中幾包括一些自然圖像中字符識別數據集。Chars74K 數據集包含 7.4 萬個圖像,這也是該數據集名稱的由來。

Frontal Face Images- 如果您已經處理過前面的2個項目,並且能夠識別數字和字符,那麼這裡是圖像識別中的下一級挑戰。這些圖像由CMU 和 MIT 整理收集,列在四個文件夾中。

ImageNet - 這個數據集想必不用多做介紹,這裡簡單說一下。ImageNet 是根據 WordNet 層次結構組織的圖像資料庫(目前只有名詞)。每個節點由數百個圖像分層次行描繪。剛想治療術了; 具有每個節點圖像平均超過500個圖像(並且持續增加中)。

文本分類資料庫

Spam - Non-Spam - 一個有趣的數據集,你需要構建一個分類器將 SMS 分類為垃圾郵件或非垃圾郵件。

Twitter Sentiment Analysis- 該數據集包含超過 157 萬條分類過的推文,正面情緒標記為1,負面情緒標記為0。這些數據基於一項 Kaggle 競賽建立的,作者是Nick Sanders

Movie Review Data - 提供電影評論文檔資料的集合,這些資料根據內容的情緒極性(正面或負面)或主觀評價(例如「兩顆半星」),以及根據句子的主觀性狀態(主觀或客觀 )或極性(polarity)進行了標記。

推薦引擎資料庫

MovieLens- 幫人找電影的網站,有上萬的註冊用戶。這些用戶會填寫 MovieLens 在線問卷,包括自動內容推薦、推薦界面、基於標籤的推薦等等。這些數據集可供下載,用於創建你自己的推薦系統。

Jester- 關於在線笑話推薦系統的數據集。

更多資料庫資源

KDNuggets - KDNuggets的數據集頁面一直是尋找數據集的人的常用參考。這裡有一個非常全面的列表,但有些源不再提供數據集。因此,在使用時需要對數據集及源自行判斷。

Awesome Public Datasets- GitHub 庫,包含按域分類的數據集的完整列表。數據集在各個域中被整齊地分類。但是,沒有關於庫本身的數據集的描述。

Reddit 數據集 Subreddit - 由於是社區驅動的論壇,這個數據集可能會相對有一點凌亂(與前兩個源相比)。但是,你可以按熱門程度或投票排序數據集,以查看最受歡迎的數據集。此外,Reddit 網站上還有一些有趣的關於數據集的討論。

我希望這份資源清單有助於那些尋找機器學習項目實踐的人。對於初學者來說,這絕對是一個金礦。確保你在業餘時間選擇一些項目,並在上面投入時間和精力,這將對你的技術成長大有益處。

如果你能想到這些數據集的任何其他應用或知道任何其他流行的資源,歡迎在分下面的評論裡分享。

編譯來源:https://www.analyticsvidhya.com/blog/2016/11/25-websites-to-find-datasets-for-data-science-projects/

新智元招聘

職位 運營總監

職位年薪:36- 50萬(工資+獎金)

工作地點:北京-海澱區

所屬部門:運營部

匯報對象:COO

下屬人數:2人

年齡要求:25 歲 至 35 歲

性別要求:不限

工作年限:3 年以上

語 言:英語6級(海外留學背景優先)

職位描述

  1. 負責大型會展贊助商及參展商拓展、挖掘潛在客戶等工作,人工智慧及機器人產業方向

  2. 擅長開拓市場,並與潛在客戶建立良好的人際關係

  3. 深度了解人工智慧及機器人產業及相關市場狀況,隨時掌握市場動態

  4. 主動協調部門之間項目合作,組織好跨部門間的合作,具備良好的影響力

  5. 帶領團隊完成營業額目標,並監控管理項目狀況

  6. 負責公司平臺運營方面的戰略計劃、合作計劃的制定與實施

崗位要求

  1. 大學本科以上學歷,碩士優先,要求有較高英語溝通能力

  2. 3年以上商務拓展經驗,有團隊管理經驗,熟悉商務部門整體管理工作

  3. 對傳統全案公關、傳統整合傳播整體方案、策略性整體方案有深邃見解

  4. 具有敏銳的市場洞察力和精確的客戶分析能力、較強的團隊統籌管理能力

  5. 具備優秀的時間管理、抗壓能力和多任務規劃統籌執行能力

  6. 有廣泛的TMT領域人脈資源、有甲方市場部工作經驗優先考慮

  7. 有媒體廣告部、市場部,top20公關公司市場拓展部經驗者優先

新智元歡迎有志之士前來面試,更多招聘崗位請訪問新智元公眾號。返回搜狐,查看更多

責任編輯:

相關焦點

  • 文本分類六十年
    本文通過回顧文本分類領域自1961年到2020年以來的歷年SOTA模型來填補這類綜述研究的空白,聚焦於從淺層學習到深度學習的各種模型。根據文本分類任務所涉及的文本數據來源、特徵提取的方法以及分類模型的不同進行分類對比研究。隨後,將討論每一個類別的詳細情況,其中涉及到給預測和測試提供可信支撐的技術變遷以及基準數據集。
  • 機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用...
    原標題:機器學習、深度學習算法原理與案例實踐暨Python大數據綜合應用高級研修班通信和信息技術創新人才培養工程項目辦公室 通人辦〔2018〕 第5號 機器學習、深度學習算法原理與案例實踐暨Python
  • 想快速部署機器學習項目?來看看幾大主流機器學習服務平臺對比吧
    這些算法包括:線性學習器,一種用於分類和回歸的監督方法。用於稀疏數據集的分類和回歸的分解機(Factorization Machine)。XGBoost 是一個有監督的提升樹算法,通過結合簡單算法的預測來提高分類,回歸以及排序的預測精度。基於 ResNet 的圖像分類,也可以應用於遷移學習。
  • 多標籤文本分類模型總結
    什麼是多標籤文本分類學術上常用的說法有兩個,一個是ExtremeMulti-label Learning, 簡稱XML,另一個是Extreme Multi-label Text Classification,簡稱XMTC,本質上都是對文本進行多標籤分類,即對於一個給定的文本,可能有多個標籤,我們需要設計一個模型預測其標籤。
  • 用深度學習(CNN RNN Attention)解決大規模文本分類問題 - 綜述和...
    近來在同時做一個應用深度學習解決淘寶商品的類目預測問題的項目,恰好碩士畢業時論文題目便是文本分類問題,趁此機會總結下文本分類領域特別是應用深度學習解決文本分類的相關的思路、做法和部分實踐的經驗。淘寶網後臺是通過樹形的多層的類目體系管理商品的,覆蓋葉子類目數量達上萬個,商品量也是10億量級,我們是任務是根據商品標題預測其所在葉子類目,示例中商品歸屬的類目為「女裝/女士精品>>蕾絲衫/雪紡衫」。很顯然,這是一個非常典型的短文本多分類問題。接下來分別會介紹下文本分類傳統和深度學習的做法,最後簡單梳理下實踐的經驗。
  • 1500萬個標記圖像、2萬多個分類!如今的AI圖像分類器還是「睜眼瞎」
    完成後,2009年著名AI研究員李飛飛做ImageNet項目交付使用時,當時的ImageNet項目已達到了空前的規模,資料庫中涵蓋了1500萬個標記圖像、2.2萬種物件(兩萬多個類別)。ImageNet是人工智慧歷史中重要的訓練集之一,用其創造者的話來說,ImageNet背後的設計初衷就是要「繪製整個物體世界。
  • 二分類、多分類、回歸任務,一個項目get競賽必備模型
    機器之心報導機器之心編輯部數據挖掘類比賽必備模型,四種實現方法,你值得擁有。數據科學競賽是學習各類算法、深入理解數據科學、提升和挑戰自己的絕佳機會,而這些競賽中有一些常用的模型。近日,有開發者在 GitHub 上開源了一個包含數據挖掘類比賽常用模型的項目,主要涵蓋二分類、多分類以及回歸任務。項目代碼全部使用 Python 實現。
  • 機器學習初學者入門實踐:怎樣輕鬆創造高精度分類網絡
    我認為我們越來越多的人將會和機器學習打交道就像我們之前越來越多地使用開源技術一樣——而不再僅僅將其看作是一個研究主題。在這份指南中,我們的目標是編寫一個可以進行高準確度預測的程序——僅使用圖像本身來分辨 data/untrained-samples 中程序未見過的樣本圖像中是海豚還是海馬。下面是兩張圖像樣本:為了實現我們的目標,我們將訓練和應用一個卷積神經網絡(CNN)。
  • MemTrax機器學習分類模型有效應用於認知障礙的診斷支持
    我們主要研究目標是:驗證MemTrax 測試結果-識別正確率和反應時間,相關人口統計學和健康特徵能否有效地用於機器學習開發的預測模型對蒙特婁認知評估 (MoCA) 界定的認知健康進行分類(正常人群與 MCI患者)。以及上述機器學習模型能否有效地應用於臨床診斷確定的認知障礙患者嚴重程度(輕重度與嚴重性)的預測。
  • 盤點:2017年GitHub上30個優秀的機器學習項目
    我們比較了過去一年近8,800個開源的機器學習項目,從中選擇了30個表現優秀的,分享給讀者。這是一份非常精彩的名單,它仔細挑選了2017年1月至12月之間發布的最佳開源機器學習庫、數據集和應用程式。我們綜合考慮項目的受歡迎程度,參與度和進展程度來評估項目質量。為了給讀者更直觀的感受,使用GitHub上的關注量(星星數量)來表示項目熱度。
  • 算法應用|機器學習python應用,簡單機器學習項目實踐
    上一篇文章中介紹了機器學習的簡單知識,還有python中進行機器學習實踐需要的生態環境,接下來將會通過鳶尾花分類這個例子對機器學習做一個簡要的介紹。通過一步一步地實現這個項目來介紹以下內容。導入和使用python中機器學習的各個方面的類庫。導入數據,並通過描述性分析、可視化等對數據進行分析。創建六個模型,並從中選擇準確度最高的模型。
  • 中文文本分類:你需要了解的10項關鍵內容
    本文從達觀數據中文文本分類的實踐出發,總結了從數據預處理到特徵工程、算法選擇再到後處理和評價指標等流程中的10項關鍵內容,希望能對讀者有所幫助。6、特徵選擇在用上述方法對文本提取了特徵之後,如果我們直接將所有特徵直接丟入分類器,那麼最終訓練得到的模型的效果往往並不盡如人意。特別是在模型的訓練和預測速度上,由於經過多個特徵提取和組合方法之後的特徵空間會極度膨脹,模型需要學習的參數數量也因此暴漲,從而大大地增加了訓練和預測過程的耗時。因此,在候選特徵集合中選擇保留最有效的部分就顯得尤為重要。
  • 機器學習模型評估和超參數調優實踐
    在這篇文章中,我們將詳細探討如何評估機器學習模型結果,以及優化超參數的最佳實踐。模型評估就像學生為考試複習一樣,機器學習模型在準備完成預期任務之前必須經過一個學習和訓練的過程。這種訓練將使它能夠從實際數據中歸納和派生模式,但是我們如何評估我們的模型是否提供了數據的良好表示呢?我們如何驗證模型,並預測它將如何處理以前沒有見過的數據呢?
  • 大講堂 | 預測時間敏感的機器學習模型建模與優化
    原標題:大講堂 | 預測時間敏感的機器學習模型建模與優化 雷鋒網AI研習社訊:機器學習模型現在已經廣泛應用在越來越多的領域比如地震監測,闖入識別,高頻交易;同時也開始廣泛的應用在行動裝置中比如通過邊緣計算。這些真實世界的應用在原有的模型精度基礎之上帶來很多實際約束比如預測要在很短或規定時間內完成。
  • 預測建模、監督機器學習和模式分類概覽
    機器學習和模式分類預測建模是建立一個能夠進行預測的模型的通用概念。通常情況下,這樣的模型包括一個機器學習算法,以便從訓練數據集中學習某些屬性做出這些預測。預測建模可以進一步分成兩個子集:回歸和模式分類。回歸模型基於變量和趨勢之間的關係的分析,以便做出關於連續變量的預測,如天氣預報的最高溫度的預測。
  • 基於人民網新聞標題的短文本自動分類研究
    呂超鎮等人[6]針對中文短文本篇幅較短、特徵稀疏性等特徵,提出了一種基於隱含狄利克雷分布模型的特徵擴展的短文本分類方法,他們使用LDA文本主題模型對短文本進行預測,得到對應的主題分布,把主題中的詞作文短文本的部分特徵,擴充到原短文本中的特徵中,最後在利用SVM分類方法進行短文本的分類。
  • 使用PyTorch建立你的第一個文本分類模型
    概述學習如何使用PyTorch執行文本分類理解解決文本分類時所涉及的要點學習使用包填充(Pack Padding)特性介紹我總是使用最先進的架構來在一些比賽提交模型結果。得益於PyTorch、Keras和TensorFlow等深度學習框架,實現最先進的體系結構變得非常容易。
  • 回歸、分類與聚類:三大方向剖解機器學習算法的優缺點(附Python和R...
    對機器學習算法進行分類不是一件容易的事情,總的來看,有如下幾種方式:生成與判別、參數與非參數、監督與非監督等等。然而,就實踐經驗來看,這些都不是實戰過程中最有效的分類算法的方式。因為對於應用機器學習而言,開發者一般會在腦海中有一個最終目標,比如預測一個結果或是對你的觀察進行分類。因此,我們想介紹另一種對算法進行分類的路數,其基於機器學習任務來分類。
  • 鳶尾花預測:如何創建機器學習Web應用程式?
    圖源:unsplash數據科學的生命周期主要包括數據收集、數據清理、探索性數據分析、模型構建和模型部署。作為數據科學家或機器學習工程師,能夠部署數據科學項目非常重要,這有助於完成數據科學生命周期。這些特性會被傳送到後端,後端的訓練模型將預測類標籤作為輸入參數的函數,預測結果再發回前端顯示。在後端,用戶輸入的參數將被保存到一個數據幀中作為測試數據。同時,利用scikit-learn庫中的隨機森林算法建立分類模型。最後,將該模型應用於預測用戶輸入的數據,並將預測的類標籤返回到三種花卉類型:setosa、versicolor或virginica。
  • 數據建模中分類與預測模型
    因此,本文基於上期數據預處理部分之後,介紹如何在清洗過後的數據基礎之上建立分類與預測模型,為此種模型的構建方法進行簡單介紹,輔助投資者對自身分析邏輯中的分析框架進行量化分析,方便其多元化的交易分析。  一、分類與預測的介紹  數據建模中分類與預測模型主要是尋求合適的分類模型並在此基礎之上進行未來預測。