TensorFlow最出色的30個機器學習數據集

2020-12-14 雷鋒網

字幕組雙語原文:TensorFlow最出色的30個機器學習數據集

英語原文:30 Largest TensorFlow Datasets for Machine Learning

翻譯:雷鋒字幕組(chenx2ovo)

TensorFlow是由谷歌大腦的研究人員創建、最大的機器學習和數據科學的開源資料庫之一。它是一個端到端平臺,適合完全沒有經驗的初學者和有經驗的數據科學家。TensorFlow庫包括工具、預訓練模型、機器學習教程以及一整套公開數據集。為了幫助你找到所需的訓練數據,本文將簡單介紹一些TensorFlow中用於機器學習的大型數據集。我們將以下數據集的列表分為圖像、視頻、音頻和文本。

TensorFlow圖像數據集

1. CelebA:明星臉屬性數據集(CelebA)是最大的公開可用的人臉圖像數據集,其中包含200,000多個名人圖像。

每個圖像包括5個面部標註和40個二進位屬性標註。

2. Downsampling Imagenet:該數據集是為密度估計和生成性建模任務而建立的。它包括了130多萬張物體、場景、車輛、人物等圖像。這些圖像有兩種解析度規格:32×32和64×64。

3. Lsun—Lsun是一個大規模的圖像數據集,創建該數據集是為了幫助訓練模型進行場景理解。該數據集包含超過900萬張圖像,按場景類別劃分,如臥室、教室和餐廳。

4. Bigearthnet—Bigearthnet是另一個大規模數據集,它包含來自Sentinel-2衛星的航空圖像。每張圖像覆蓋了1.2公裡×1.2公裡的一片地面。該數據集中有43個類別不平衡的標籤。 

5. Places 365—顧名思義,Places 365包含180多萬張不同地方或場景的圖片。其中一些類別包括辦公室、碼頭和別墅。Places 365是用於場景識別任務的最大數據集之一。

6. Quickdraw位圖—Quickdraw數據集是由Quickdraw玩家社區繪製的圖像集合。它包含500萬張圖紙,跨越345個類別。這個版本的Quickdraw數據集包括28×28的灰度圖像。

7. SVHN Cropped—街景房號(SVHN)是為訓練數字識別算法,由史丹福大學建立的TensorFlow數據集。它包含60萬個真實世界的、被裁剪成32×32像素的圖像數據實例。

8. VGGFace2—最大的人臉圖像數據集之一,VGGFace2包含從谷歌搜尋引擎下載的圖像。數據集中的人臉在年齡、姿勢和種族上都有所不同。每個類別平均有362張圖像。

9. COCO—由谷歌、FAIR、加州理工學院等合作者製作,是世界上最大的標籤圖像數據集之一。它是為物體檢測、分割和圖像字幕任務而建立的。

通過cocodataset.org

數據集包含330,000張圖像,其中20萬張有標籤。在所有圖像中,共包含了80個類別的150萬個對象實例。

10. Open Images Challenge 2019—包含約900萬張圖像,該數據集是網上最大的、標註的圖像數據集之一。這些圖像包含圖像級標籤、對象邊界框和對象分割掩碼,以及他們之間的視覺關係。

11. Open Images V4—這個數據集是上述Open Images數據集的另一個迭代。V4版本中包含了600個不同物體類別的1460萬個邊界框。這些邊界框是由人類標註者手動繪製的。

12. AFLW2K3D—該數據集包含2000張面部圖像,均有3D面部真實標註。它的創建是為了評估3D面部標註檢測模型。

視頻數據集

13. UCF101—來自中央佛羅裡達大學,UCF101是為訓練動作識別模型而建立的視頻數據集。該數據集有101個動作類別的13320個視頻,。

14. BAIR Robot Pushing—來自伯克利人工智慧研究,BAIR Robot Pushing包含44000個機器人推的動作的示例視頻。

15. Moving MNIST—這個數據集是MNIST基準數據集的一個變體。Moving MNIST包含10,000個視頻。

每個視頻都顯示了在64×64大小的幀內2個手寫數字的移動過程。

16. EMNIST—擴展的MNIST數據集,包含了原始MNIST數據集轉換成28 x 28像素大小的圖片。 

TensorFlow音頻數據集

17. CREMA-D—為情感識別任務而創建,CREMA-D由語音情感表達組成。 該數據集包含由年齡,種族和性別不同的91位演員表達的7,442個音頻剪輯。

18. Librispeech—Librispeech是一個簡單的音頻數據集,它包含1000小時的英語語音,這些語音來自LibriVox項目的有聲讀物。它被用於訓練聲學模型和語言模型。

19. Libritts—這個數據集包含約585小時的英語語音,是在Google Brain團隊成員的協助下準備的。Libritts最初是為Text-to-speech(TTS)研究設計的,但可以用於各種語音識別任務。

20. TED-LIUM—TED-LIUM是一個包含110多個小時的英語TED演講的數據集。 所有的演講內容都已被轉錄。 

21. VoxCeleb—VoxCeleb是為演講者識別任務而建立的大型音頻數據集,包含來自1,251位演講者的150,000多個音頻樣本。

文本數據集

22. C4(Common Crawl's Web Crawl Corpus)—Common Crawl是一個開放源碼的網頁資料庫。它包含了超過40種語言、跨越7年的數據。

23. Civil Comments—這個數據集是由來自50個英文新聞網站的180多萬條公眾評論構成的。

24. IRC Disentanglement—這個TensorFlow數據集包括來自Ubuntu IRC頻道的77000多條評論。每個樣本的元數據包括消息ID和時間戳。

25. Lm1b—被稱為語言模型基準,這個數據集包含10億個單詞。它最初是為了衡量統計語言建模的進展。

26. SNLI—斯坦福自然語言推理數據集是一個包含57萬個人類寫作句子對的語料庫。所有的句對都經過人工標註,類別是均衡的。

27.e-SNLI—這個數據集是上面提到的SNLI的擴展,它包含了原始數據集的57萬個句子對,分類為:包含、矛盾和中性。

28. MultiNLI—仿照SNLI數據集,MultiNLI包含433,000個句子對,都有尾部信息注釋。

29. Wiki40b—這個大規模的數據集包括40種不同語言的維基百科文章。這些數據已經被清理,其中的非內容部分以及結構化對象已經被去掉。

30. Yelp極性評論—這個數據集包含598,000條高度極性的Yelp評論。它們是從2015年Yelp數據集挑戰賽中的數據提取出來的。

雖然上述數據集是機器學習中最大、最廣泛使用的一些TensorFlow數據集,但TensorFlow庫是龐大的,並在不斷擴展。請訪問TensorFlow網站,了解更多關於該平臺如何幫助您構建自己的模型的信息。


雷鋒字幕組是由AI愛好者組成的志願者翻譯團隊;團隊成員有大數據專家、算法工程師、圖像處理工程師、產品經理、產品運營、IT諮詢人、在校師生;志願者們來自IBM、AVL、Adobe、阿里、百度等知名企業,北大、清華、港大、中科院、南卡羅萊納大學、早稻田大學等海內外高校研究所。

了解字幕組請聯繫微信:tlacttlact

轉載請聯繫字幕組微信並註明出處:雷鋒字幕組

雷鋒網雷鋒網(公眾號:雷鋒網)

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • TensorFlow 這麼厲害了麼?
    隨著量子計算發展的最新進展,新的量子機器學習模型的開發可能會對全球最嚴峻的問題產生深遠影響,從而在醫藥、材料、傳感和通信領域取得突破。然而,我們至今仍缺乏研究工具,來發現有用的量子機器學習模型,即既可以處理量子數據又能在當今可用的量子計算機上執行的模型。
  • TensorFlow 2入門指南,初學者必備!
    我們將使用非常著名的數據集IRIS數據集探索深度學習的世界。廢話不多說,我們直接看看代碼。tensorflow as tffrom tensorflow.keras.layers import Densefrom tensorflow.keras.models import Sequential在這裡,我們從tensorflow
  • 拓撲機器學習的神聖三件套:Gudhi,Scikit-Learn和Tensorflow(附...
    今天,我想強調下在機器學習中拓撲數據分析(TDA,Topological Data Analysis)的力量,並展示如何配合三個Python庫:Gudhi,Scikit-Learn和Tensorflow進行實踐。拓撲數據分析?首先,讓我們談談TDA。
  • 觀點| 別再使用pip安裝TensorFlow了!用conda吧~
    如果你還沒用過 conda,我推薦你立刻開始使用,因為它會讓管理數據科學工具變得更輕鬆。而使用 conda 安裝 GPU 加速版本的 TensorFlow 時,只需使用命令 conda install tensorflow-gpu,這些庫就會自動安裝成功,且版本與 tensorflow-gpu 包兼容。此外,conda 安裝這些庫的位置不會與通過其他方法安裝的庫的其他實例產生衝突。
  • 機器學習實戰-sklearn介紹
    文章結構1、什麼是sklearn2、sklearn與tensorflow優劣勢3、機器學習有幾種方式4、應用領域有哪些什麼是sklearnSklearn原稱是Scikit learn,是機器學習領域中最知名的python模塊之一,是基於Python語言的機器學習的工具。
  • 機器學習庫 TensorFlow 1.9.0 發布,大量修復和改進
    機器學習庫 TensorFlow 1.9.0 已發布,更新內容如下:主要特點和改進1、tf.keras 文件升級: 新的基於 Keras
  • Tensorflow基礎教程15天之創建Tensor
    Tensor是Tensorflow中使用在計算圖中的最基本的數據單位,我們可以聲明Tensor為variable,或者為Tensor提供placeholer。但首先我們必須知道如何創建Tensor。在將Tensor定義為Variable之後,Tensorflow才會將其傳入計算圖。如何操作我們將在這裡介紹創建Tensor的主要方法。
  • 使用Amazon SageMaker 運行基於 TensorFlow 的中文命名實體識別
    因此客戶迫切想使用業內最先進的算法在行業內數據集上進行訓練,以改進現有NER工具的不足。本文將介紹如何使用Amazon SageMaker運行基於TensorFlow的中文命名實體識別。命名實體識別,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等。命名實體識別是信息提取、問答系統、句法分析、機器翻譯、知識圖譜等應用領域的重要基礎工具。
  • 教程| 如何用TensorFlow在安卓設備上實現深度學習推斷
    將 WaveNet 安裝到安卓的三個步驟。從源安裝和配置 TensorFlow(https://www.tensorflow.org/install/install_sources)。3.在 TensorFlow 目錄下運行下列命令行:bazel build tensorflow/tools/graph_transforms:transform_graphbazel-bin/tensorflow/tools/graph_transforms/transform_graph \ --in_graph=/your/.pb/file \ --outputs="output_node_name
  • TensorFlow官方開發者認證:考試費100美元,5小時完成5個模型
    它是一個基礎證書,面向學生、開發者、數據科學家等人群,幫助他們展示自己在用 TensorFlow 構建、訓練模型的過程中所學到的實用機器學習技能。考試題由 TensorFlow 團隊設計。此一級考試認證主要測試的是開發者將機器學習集成至工具或應用上的基本能力。認證程序要求理解如何使用計算機視覺、卷積神經網絡、自然語言處理、現實世界中真實的數據集以及最優策略去建立 TensorFlow 模型。
  • TensorFlow 2.1指南:keras模式、渴望模式和圖形模式(附代碼)
    Keras模式import numpy as npimport tensorflow as tffrom tensorflow import kerasfrom tensorflow.keras.layers import Input, Dense, Flatten, Conv2Dfrom tensorflow.keras
  • 基於RTX2060構建TensorFlow-gpu(keras)學習平臺
    開始菜單運行anaconda navigator檢查是否安裝了notebook(默認有安裝)三、安裝tensorflow/keras在激活的環境中安裝:1. 如果機器上有gpu,則安裝gpu版本,沒有GPU就安裝cpu版。版本問題,現在TensorFlow到了最新的2.0.0版本,但是很多函數不兼容1.**版本。
  • 資源| TensorFlow版本號升至1.0,正式版即將到來
    選自github機器之心編譯參與:吳攀2015 年 11 月份,谷歌宣布開源了深度學習框架 TensorFlow,一年之後,TensorFlow 就已經成長為了 GitHub 上最受歡迎的深度學習框架(參見機器之心文章《深度 | TensorFlow 開源一周年:這可能是一份最完整的盤點》),儘管那時候 TensorFlow 的版本號還是 v0.11。
  • TensorFlow 2.4來了:上線對分布式訓練和混合精度的新功能支持
    TensorFlow 2.4 的更新包括對於分布式訓練和混合精度的新功能支持,對 NumPy API 子集的試驗性支持以及一些用於監測性能瓶頸的新工具。像單工作器的 MirroredStrategy 一樣,MultiWorkerMirroredStrategy 通過同步數據並行實現分布式訓練,顧名思義,藉助 MultiWorkerMirroredStrategy 可以在多臺機器上進行訓練,每臺機器都可能具有多個 GPU。
  • 用TensorFlow和Keras構建卷積神經網絡
    和往常一樣,所有的代碼都可以GitHub上找到(https://github.com/StrikingLoo/Cats-and-dogs-classifier-tensorflow-CNN),所以可以自己進行嘗試,或者參考本文示例。當然,本文還會進行Python代碼段的展示。數據集下面將訓練一個神經網絡來預測一幅圖像包含的是一隻狗還是一隻貓。
  • 使用Tensorflow+OpenCV構建會玩石頭剪刀布的AI
    項目地址:https://github.com/HOD101s/RockPaperScissor-AI-收集我們的數據任何深度學習模型的基礎都是數據,任何一位機器學習工程師都會同意這一點,在ML中,數據遠比算法本身重要。
  • 在python中使用SageMaker Debugger進行機器學習模型的開發調試
    但是現階段的機器學習調試仍然是一項十分困難的工作,主要原因如下:機器學習不僅僅是簡單的代碼首先,讓我們考察一個典型的數據科學問題——面對一個數據集和一個對應的問題描述,需要建立一個基於數據的模型來實現預測,並且評價該模型的準確性,
  • 用RNN和TensorFlow創作自己的《哈利波特》小說
    GRU vs LSTM二者在文本生成上都表現出色,GRU(門控循環單元)是比較新的概念,實際上並沒有一種方法可以確定二者哪個更好。優化超參數比選擇一個好的架構更能提高模型性能。如果數據量不成問題,那麼則是LSTM(長短期記憶網絡)性能更優。