原標題:機器學習項目實踐:30+ 必備資料庫(預測模型、圖像分類、文本分類)
1 新智元編譯
來源:analyticsvidhya.com
作者:Kunal Jain
編譯:李靜怡
:COO、執行總編、主編、高級編譯、主筆、運營總監、客戶經理、諮詢總監、行政助理等 9 大崗位全面開放。
簡歷投遞:jobs@aiera.com.cn
HR 微信:13552313024
新智元為COO和執行總編提供最高超百萬的年薪激勵;為骨幹員工提供最完整的培訓體系、高於業界平均水平的工資和獎金。
加盟新智元,與人工智慧業界領袖攜手改變世界。
【新智元導讀】有了好的數據,機器學習項目也就成功了一半。希望這份資源清單有助於那些尋找機器學習項目實踐的人。對於初學者來說,這絕對是一個金礦。確保你在業餘時間選擇一些項目,並在上面投入時間和精力,將對你的技術成長大有益處。
大規模通用資料庫:從這裡入手
data.gov- 這是美國政府開放數據集總部。這些數據集的主題包括氣候、教育、能源、金融和更多領域的數據。
data.gov.in - 這是印度政府公開資料庫,你可以在這裡查找關於印度各行業、氣候、醫療保健等數據。同樣,稍微改變後綴,就能查看不同地區國家政府的公開資料庫,比如
英國:data.gov.uk
澳大利亞:data.gov.au
當然,也並非全世界國家的公開資料庫都是「data.gov」加更改後綴就可以了,比如
加拿大:open.canada.ca
中國:data.stats.gov.cn
法國:etalab.gouv.fr
德國:destatis.de
總之,國家公開資料庫相關權威標準,是你進行機器學習項目實踐的一個不錯的選擇。
World Bank- 世界銀行的公開資料庫。該平臺提供了好幾個工具,比如開放數據目錄(Open Data Catalog)、世界發展指數、教育指數等等。
Five Thirty Eight Datasets- 這裡是美國偏政治新聞網站 Five Thirty Eight 在他們的文章中使用的數據集。每個數據集裡不僅包括了數據,還有解釋這些數據的字典,以及相關報導連結。如果你想學習如何創建數據報導,這是你的最佳選擇。
大型資料庫:機器學習項目必備
Amazon Web Services (AWS) datasets- 亞馬遜提供了一些大數據集,可以在他們的平臺或你自己的本地計算機上使用。亞馬遜上的熱門數據集包括完整的 Enron 電子郵件數據集,Google圖書 n-gram,NASA NEX 數據集,Million Songs 數據集等等。
Google datasets- Google提供了幾個數據集作為其 Big Query 工具的一部分,包括嬰兒名字、GitHub公共存儲庫的數據、所有來自Hacker News的故事和評論等。
Youtube labeled Video Dataset - 幾個月前,谷歌發布了YouTube標記的資料集,其中包含800萬個YouTube影片ID和4800個視覺實體的相關標籤。不僅如此,這個數據集裡面還配備了幾十億幀經過預計算的、最先進的視覺feature。
預測模型與機器學習專用資料庫
UCI Machine Learning Repository - UCI機器學習庫顯然是最著名的資料庫,也是尋找與機器學習知識庫相關數據集最常去的地方之一。該數據集包括從諸如 Iris 和Titanic 等流行數據集,以及諸如空氣品質和GPS軌跡等新建的數據集。UCI機器學習庫包含超過350個數據集,其標籤分類包括域、目的(分類、回歸)。你可以使用這些過濾器找到你所需要的數據集。
Kaggle- Kaggle 提出了一個平臺,人們可以在這裡捐贈數據集,其他社區成員則可以對這些數據集進行投票或在這些數據集上運行內核/腳本。Kaggle共有超過350個數據集,其中,超過200個作為精選數據集(Featured datasets)。 雖然一些數據集跟其他地方有重複,但在這裡我也發現了在其他平臺沒有的一些有趣的數據集。此外,Kaggle 界面的另一個好處是,您可以在同一界面上查看社區成員的腳本和問題。
Analytics Vidhya - 這是我們自己網站的數據集,包括使用問題數據集和黑客馬拉松數據集。這裡的數據集都是基於現實生活中的行業問題,並且有專為為期2 - 7天的黑客馬拉松的相對較小的數據集。雖然關於真實生活中的實際問題數據集哪裡都有,但黑客馬拉松比賽之後相關數據集就不可再用。所以,你需要參加黑客馬拉松,才能獲得相關數據集。
Quandl- Quandl 通過其網站/ API或其他一些工具直接集成金融、財經方面的數據,分為Open 和 Premium 兩種。其中,所有 Open 數據集都是免費的。
Past KDD - Cup KDD Cup是由ACM知識發現和數據挖掘特別興趣小組組織舉辦的年度數據挖掘和知識發現比賽。這裡的存檔包括數據集和比賽說明。大多數年份的冠軍機器資料庫都能在這裡找到。
Driven Data- 現實世界實際問題資料庫,你可以用它來創造積極的社會影響。Driven Data 舉行在線模擬競賽,從而讓參賽者開發出最好的模型來解決這些現實問題。如果你有興趣使用數據科學對社會做貢獻,這就是你該去的地方。
圖像分類資料庫
MNIST 資料庫- 使用手寫數字進行圖像識別最流行的數據集,包括 6 萬個訓練樣本和 1 萬個示例測試集。MNIST資料庫是你用作練習圖像識別的第一數據集。
Chars74K - 這是 MNIST 資料庫的下一級,其中幾包括一些自然圖像中字符識別數據集。Chars74K 數據集包含 7.4 萬個圖像,這也是該數據集名稱的由來。
Frontal Face Images- 如果您已經處理過前面的2個項目,並且能夠識別數字和字符,那麼這裡是圖像識別中的下一級挑戰。這些圖像由CMU 和 MIT 整理收集,列在四個文件夾中。
ImageNet - 這個數據集想必不用多做介紹,這裡簡單說一下。ImageNet 是根據 WordNet 層次結構組織的圖像資料庫(目前只有名詞)。每個節點由數百個圖像分層次行描繪。剛想治療術了; 具有每個節點圖像平均超過500個圖像(並且持續增加中)。
文本分類資料庫
Spam - Non-Spam - 一個有趣的數據集,你需要構建一個分類器將 SMS 分類為垃圾郵件或非垃圾郵件。
Twitter Sentiment Analysis- 該數據集包含超過 157 萬條分類過的推文,正面情緒標記為1,負面情緒標記為0。這些數據基於一項 Kaggle 競賽建立的,作者是Nick Sanders。
Movie Review Data - 提供電影評論文檔資料的集合,這些資料根據內容的情緒極性(正面或負面)或主觀評價(例如「兩顆半星」),以及根據句子的主觀性狀態(主觀或客觀 )或極性(polarity)進行了標記。
推薦引擎資料庫
MovieLens- 幫人找電影的網站,有上萬的註冊用戶。這些用戶會填寫 MovieLens 在線問卷,包括自動內容推薦、推薦界面、基於標籤的推薦等等。這些數據集可供下載,用於創建你自己的推薦系統。
Jester- 關於在線笑話推薦系統的數據集。
更多資料庫資源
KDNuggets - KDNuggets的數據集頁面一直是尋找數據集的人的常用參考。這裡有一個非常全面的列表,但有些源不再提供數據集。因此,在使用時需要對數據集及源自行判斷。
Awesome Public Datasets- GitHub 庫,包含按域分類的數據集的完整列表。數據集在各個域中被整齊地分類。但是,沒有關於庫本身的數據集的描述。
Reddit 數據集 Subreddit - 由於是社區驅動的論壇,這個數據集可能會相對有一點凌亂(與前兩個源相比)。但是,你可以按熱門程度或投票排序數據集,以查看最受歡迎的數據集。此外,Reddit 網站上還有一些有趣的關於數據集的討論。
我希望這份資源清單有助於那些尋找機器學習項目實踐的人。對於初學者來說,這絕對是一個金礦。確保你在業餘時間選擇一些項目,並在上面投入時間和精力,這將對你的技術成長大有益處。
如果你能想到這些數據集的任何其他應用或知道任何其他流行的資源,歡迎在分下面的評論裡分享。
編譯來源:https://www.analyticsvidhya.com/blog/2016/11/25-websites-to-find-datasets-for-data-science-projects/
新智元招聘
職位 運營總監
職位年薪:36- 50萬(工資+獎金)
工作地點:北京-海澱區
所屬部門:運營部
匯報對象:COO
下屬人數:2人
年齡要求:25 歲 至 35 歲
性別要求:不限
工作年限:3 年以上
語 言:英語6級(海外留學背景優先)
職位描述
負責大型會展贊助商及參展商拓展、挖掘潛在客戶等工作,人工智慧及機器人產業方向
擅長開拓市場,並與潛在客戶建立良好的人際關係
深度了解人工智慧及機器人產業及相關市場狀況,隨時掌握市場動態
主動協調部門之間項目合作,組織好跨部門間的合作,具備良好的影響力
帶領團隊完成營業額目標,並監控管理項目狀況
負責公司平臺運營方面的戰略計劃、合作計劃的制定與實施
崗位要求
大學本科以上學歷,碩士優先,要求有較高英語溝通能力
3年以上商務拓展經驗,有團隊管理經驗,熟悉商務部門整體管理工作
對傳統全案公關、傳統整合傳播整體方案、策略性整體方案有深邃見解
具有敏銳的市場洞察力和精確的客戶分析能力、較強的團隊統籌管理能力
具備優秀的時間管理、抗壓能力和多任務規劃統籌執行能力
有廣泛的TMT領域人脈資源、有甲方市場部工作經驗優先考慮
有媒體廣告部、市場部,top20公關公司市場拓展部經驗者優先
新智元歡迎有志之士前來面試,更多招聘崗位請訪問新智元公眾號。返回搜狐,查看更多
責任編輯: