資源| 微軟官方整理:用於Azure機器學習的免費數據集

2020-12-01 搜狐網

原標題:資源 | 微軟官方整理:用於Azure機器學習的免費數據集

選自Microsoft

作者:Lee Scott

機器之心編譯

參與:李亞洲、吳攀、杜夏德

要學習怎麼使用微軟 Azure 機器學習,最重要的是獲取樣本數據集和進行實驗。

在微軟,我們有大量的樣本數據集可用。這些數據集已經在 Azure Cortana Intelligence Gallery 中的樣本模型中得到了應用。

其中一些數據集可以通過 Azure Blob 存儲獲取,所以可以直接連結到 Azure 機器學習實驗;而其它的數據集則是以 CSV 格式提供的。下面列出的這些數據集都將提供直接的連結。你可以通過 Import Data 模型在你的實驗中使用這些數據。

這些數據中的剩下數據集都列在模塊(module)面板中的 Saved Datasets 下;當你在 ML Studio 中打開或創建一個新實驗時,你能在實驗畫布(experiment canvas)的左邊看到它們。你可以直接將這些數據集拖拽到實驗畫布而將它們應用到你自己的實驗中。

以下列出了一些可以免費使用的數據集:

成年人收入普查二分類數據集

一個 1994 年的普查資料庫的子數據集,使用了 16 歲以上的工作年齡的成年人的數據,其帶有一個經調整之後大於 100 的收入指數。

用途:使用人口學信息對人進行分類,以預測一個人年收入是否超過 5 萬美元

相關研究:Kohavi, R., Becker, B., (1996). UCI Machine Learning Repository Irvine, CA: 加州大學信息與計算機科學學院

機場代碼數據集(Airport Codes Dataset)

美國機場代碼

這個數據集包含每個美國機場,提供了機場 ID 編號和名字,以及機場所在的城市和州。

汽車價格數據(Automobile price data,原始數據)

按廠家和車型分類的汽車信息,其中包括價格、氣缸數量和 MPG 等特徵,以及保險風險評分(insurance risk score)。

這個風險評分最初是與汽車價格關聯的,後來根據實際風險在一個被精算師稱為符號化(symboling)的過程中進行了調整。+3 的值表示該汽車是有風險的,而 -3 的值則表示它可能是相當安全的。

用途:使用回歸或多變量分類,根據特徵預測風險評分。

相關研究:Schlimmer, J.C. (1987). UCI Machine Learning Repository Irvine, CA: 加州大學信息與計算機科學學院

自行車租賃 UCI 數據集(Bike Rental UCI dataset)

UCI 自行車租賃數據集基於來自 Capital Bikeshare 公司的真實數據,該公司在華盛頓特區運營著一個自行車租賃網絡。

該數據集包含 2011 年和 2012 年每一天和每一小時的數據,總共有 17379 行。每小時租賃自行車數量的範圍在 1 到 977 之間。

Bill Gates RGB Image

已轉換成 CSV 數據的公開可用的圖像文件。

用於轉換該圖像的代碼提供在使用 K-均值聚類模型的顏色量化(Color quantization using K-Means clustering model)的詳情頁面。

獻血數據(Blood donation data)

一個來自臺灣新竹市輸血服務中心獻血資料庫的一個子數據集。

獻血者數據包括獻血頻率、總獻血次數、自上次獻血以來的時間和獻血量。

用途:目標是通過分類預測獻血者是否在 2007 年 3 月獻血,其中 1 表示目標區間內的一個獻血者,0 表示沒有獻血者。

相關研究:Yeh, I.C., (2008). UCI Machine Learning Repository , CA: 加州大學信息與計算機科學學院

亞馬遜網站的書評

由賓夕法尼亞大學研究者採集(地址:

http://www.cs.jhu.edu/~mdredze/datasets/sentiment/)。-參見論文《Biographies, Bollywood, Boom-boxes and Blenders: Domain Adaptation for Sentiment Classification》,來自 John Blitzer, Mark Dredze, and Fernando Pereira; 計算語言學協會 (ACL), 2007-

原來的數據集包含 97.5 萬條包含 1、2、3、4、5 評分的書評。這些書評都是用英語寫的,截取自 1997-2007 年這個時間段。這個數據集已經被下採樣成了 1 萬條書評。

乳腺癌數據(Breast cancer data)

由 Oncology Institute 提供的三個與癌症相關的數據集中的一個,其常常出現在機器學習文獻中。結合了來自對大約 300 種組織樣本的實驗室分析的特徵的診斷信息。

用途:基於 9 種屬性分類癌症類型,其中一些是線性的,一些是按類別劃分的。

相關研究:Wohlberg, W.H., Street, W.N., & Mangasarian, O.L. (1995). UCI Machine Learning Repository, CA: 加州大學信息與計算機科學學院

乳腺癌特徵(Breast Cancer Features)

這個數據集包含了來自 X 射線圖像的 10.2 萬個可疑區域(候選項)的信息,其中每個區域都用 117 個特徵進行了描述。這些特徵是專有的,而且它們的含義沒有被該數據集的創造者(Siemens Healthcare)揭示出來。

乳腺癌信息(Breast Cancer Info)

這個數據集包含了來自 X 射線圖像的可疑區域的額外信息。每個樣本都提供了對應 Breast Cancer Features 數據集行數的信息(如,標籤、病人 ID、圖像塊相對於整張圖像的坐標)。每個病人都有很多樣本。對於患癌的病人來說,一些樣本是積極的,一些樣本是消極的。該樣本有 10.2 萬個樣本。這個數據集有偏置的,其中只有 0.6% 的點是積極的,其餘都是消極的。該數據集由 Siemens Healthcare 提供。

CRM Appetency Labels Shared

來自 KDD Cup 2009 客戶關係預測挑戰賽的標籤:

http://www.sigkdd.org/site/2009/files/orange_small_train_appetency.labels

CRM Churn Labels Shared

來自 KDD Cup 2009 客戶關係預測挑戰賽的標籤:

http://www.sigkdd.org/site/2009/files/orange_small_train_churn.labels

CRM Dataset Shared

來自 KDD Cup 2009 客戶關係預測挑戰賽的數據:http://www.sigkdd.org/kdd-cup-2009-customer-relationship-prediction%20-%20orange_small_train.data.zip

該數據集包含來自法國電信公司 Orange 的 5 萬個客戶。其中每個客戶有 230 個匿名的特徵,其中 190 個數值特徵和 40 個類別特徵。這些特徵是非常稀疏的。

CRM Upselling Labels Shared

來自 KDD Cup 2009 客戶關係預測挑戰賽的標籤:

http://www.sigkdd.org/site/2009/files/orange_large_train_upselling.labels

能效回歸數據(Energy Efficiency Regression data)

基於 12 種不同的建築外形收集的模擬能量分布。這些建築按照 8 個特徵進行了區分,比如:玻璃窗面積、玻璃窗面積分布和取向。

用途:使用回歸(regression)或分類(classification)來預測能效等級,其給出的兩種響應是有實際價值的。對於多類別分類,響應變量被取捨到了最接近的整數。

相關研究:Xifara, A. & Tsanas, A. (2012). UCI Machine Learning Repository Irvine, CA:加州大學信息與計算機科學學院

航班延誤數據

來自美國交通部收集的 TranStats 數據集中的乘客航班正常率數據。該數據集覆蓋 2013 年 4 月到 10 月的統計,在上傳到 Azure ML Studio 之前,該數據集處理如下:

  • 該數據集經過過濾只覆蓋美國本土的 70 個最繁忙的機場

  • 廢除了標記顯示延誤超過 15 分鐘的航班

  • 轉航班數據也被消除

  • 選擇使用數據目錄如下:Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Cancelled

美國 2011 年 10 月飛機到達與離開的記錄數據

用途:預測航班延誤

相關研究:來自美國交通部的 http://www.transtats.bts.gov/DL_SelectFields.asp?Table_ID=236&DB_Short_Name=On-Time.

森林火災數據

該數據集包含來自葡萄牙東北部的天氣數據,比如溫度、溼度指數和風速,結合與森林火災的記錄。

用途:這是一項很難的回歸任務,目的是預測森林火災焚燒的地區。

相關研究: Cortez, P., & Morais, A. (2008). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and

Computer Science

[Cortez and Morais, 2007] P. Cortez and A. Morais. A Data Mining Approach to Predict Forest Fires using Meteorological Data. In J. Neves, M. F. Santos and J. Machado Eds., New Trends in Artificial Intelligence, Proceedings of the 13th EPIA 2007 – Portuguese Conference on Artificial Intelligence, December, Guimarães, Portugal, pp. 512-523, 2007. APPIA, ISBN-13 978-989-95618-0-9. 地址:http://www.dsi.uminho.pt/~pcortez/fires.pdf.

德國信用卡 UCI 數據集

UCI Statlog(德國信用卡)數據集(Statlog+German+Credit+Data))使用了 german.data 文件。

該數據集通過一系列的屬性進行表述,根據人進行分類,每個樣本表示一個人。此數據集中有 20 個特徵,都是數字和類別,以及二元標籤(信用風險值)。高信用風險標記為 2,低信用風險標記為 1。將低風險樣本誤分類為高風險的成本是 1,反之誤分類高風險的成本是 5。

IMDB 電影

該數據集包含 Twitter 上評估的有關電影的信息:IMDB 電影 ID、電影名和流派、生產年。該數據集中有 17K 的電影。

鳶尾花兩級數據

在模式識別文獻中,它可能是最知名的數據集。該數據集相對較小,包含來自三個鳶尾屬植物分類的每種花瓣測量的 50 個樣本。

用途:從測量中預測 iris 的類別。

相關研究:Fisher, R.A. (1988). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science

電影 Tweets

該數據集是 Movie Tweeting 數據集的擴展版本,此數據集有 170K 的電影評估信息,從結構較好的 tweets 中提取。每個示例代表一條 tweet,數據元組:用戶、IMDB 電影 ID、評估等級、時間標記、該 tweet 的點讚人數、轉推人數。該數據集由 A. Said, S. Dooms, B. Loni and D. Tikk for Recommender Systems Challenge 2014 供用。

汽車MPG數據

該數據集是由卡耐基梅隴大學 StatLib 庫提供的數據集的修正版本,此數據集曾被 1983 年 American Statistical Association Exposition 使用。

該數據列出了每加侖汽油各種類型機動車的消耗情況,同時也包含氣缸個數、引擎排放量、馬力、總重量和加速這樣的信息。

通途:基於 3 個多值離散屬性和 5 個連續屬性預測節約燃油。

相關研究:StatLib, Carnegie Mellon University, (1993). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science

Pima 印第安人糖尿病二進位分類數據集

來自 National Institute of Diabetes and Digestive and Kidney Diseases 數據集的一個子集。該數據集經過過濾只關注 Pima Indian 遺傳的女性病人。數據包括血糖、胰島素水平、生活方式這樣的醫療數據。

用途:預測該主體是否有糖尿病(二分類)

相關研究: Sigillito, V. (1990). UCI Machine Learning Repository」. Irvine, CA: University of California, School of Information and Computer Science

餐館消費者數據集

一系列關於消費者的元數據,包括人口統計學和喜好。

用途:使用該數據集,結合其他兩個餐飲數據集,可訓練並測試推薦系統。

相關研究:Bache, K. and Lichman, M. (2013). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science.

Restaurant feature data

一堆關於餐館和餐館特徵的元數據,比如食物類型、餐廳風格、位置。

用途:使用該數據集,結合其他兩個餐飲數據集,可訓練並預測推薦系統。

相關研究:Bache, K. and Lichman, M. (2013). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science.

餐館評分數據集

包含用戶給出的對餐館的評價,等級從 0 到 2 劃分。

用途:使用該數據集,結合其他兩個餐飲數據集,可訓練並預測推薦系統。

相關研究:Bache, K. and Lichman, M. (2013). UCI Machine Learning Repository Irvine, CA: University of California, School of Information and Computer Science.

鋼退火多級數據集(Steel Annealing multi-class)

該數據集包含一系列來自鋼材退火實驗的記錄,數據包含測試鋼材類型的物理屬性(寬度、厚度、類型(線圈、薄片等))。

用途:預測任何二數類屬性:硬度或強度,也可用於分析屬性間的關聯。鋼材等級劃分遵循一定標準,由 SAE 和其他組織定義。你可以尋求特定的等級,並了解所需要的值。

相關研究:Sterling, D. & Buntine, W., (NA). UCI Machine Learning Repository. Irvine, CA: University of California, School of Information and Computer Science

望遠鏡數據集

高能量伽馬粒子爆發的記錄,也帶有背景噪聲,都使用 Monte Carlo 處理方法模擬。

模擬的目的是改進地表大氣 Cherenkov 射線望遠鏡的準確率,使用統計方法微分想要信號(Cherenkov radiation showers)和背景噪聲。

該數據已經過了預處理,以創建一個以指向相機中心方向為長軸的延長的聚類(elongated cluster)。這個橢圓的特徵(通常被稱為 Hillas 參數)是可以用於判別(discrimination)的圖像參數中的一部分。

用途:預測 shower 表徵信號或背景噪聲的天氣圖像。

注意:簡單分類準確率對此數據意義不大,因為將背景時間分類為信號要比將信號分類為背景更糟糕。該數據可用來對比 ROC 圖應該使用的不同分類器。同時也要注意背景事件(h 代表 hadronic showers)的數量是被低估的,在真實測量中,h 或噪聲類代表主要事件。

相關研究: Bock, R.K. (1995). UCI Machine Learning Repository Irvine, CA: University of California, School of Information

天氣數據集

來自 NOAA 的每小時地面天氣觀測(融合了從 2013 年 4 月到 2013 年 10 月的數據)

這份天氣 數據包括了機場天氣預報站的觀測數據,時間從 2013 年 4 月到 10 月。

在上傳 Azure ML Studio 之前,數據集要做如下處理:

維基百科標準普爾 500 指數數據集(Wikipedia SP 500 Dataset)

源自維基百科的基於標準普爾 500 指數中每家公司的文章的數據,以 XML 格式存儲。

在將該數據集上傳到 Azure ML Studio 之前,需要進行以下處理:

  • 提取每家特定公司的文本內容

  • 移除 wiki 格式

  • 移除非字母數字的字符

  • 將所有文本轉換成小寫

  • 已知公司類別已被加入

注意有些公司沒有找到文章,所以該記錄的數量小於 500.

可以 CSV 格式下載的數據集

direct_marketing.csv (https://azuremlsampleexperiments.blob.core.windows.net/datasets/direct_marketing.csv)

這個數據集包含了關於一項直接郵寄活動的客戶數據和關於他們的響應的指示。其中每一行代表一個客戶。該數據集包含關於用戶人口學信息和過去行為的 9 項特徵,以及 3 個標籤列(訪問、轉化和支出)。訪問(visit)是一個二元行,表示了每次營銷活動後客戶的訪問;轉化(conversion)表示客戶購買了一些東西;支出(spend)是指花費了多少錢。該數據集由 Kevin Hillstrom 為 MineThatData 電子郵件分析和數據挖掘挑戰賽(MineThatData E-Mail Analytics And Data Mining Challenge)提供。

lyrl2004_tokens_test.csv (https://azuremlsampleexperiments.blob.core.windows.net/datasets/lyrl2004_tokens_test.csv)

RCV1-V2 Reuters 新聞數據集中的測試樣本的特徵。該數據集有 78.1 萬條新聞文章以及它們的 ID(該數據集的第一列)。其中每篇文章都已經 tokenized、stopworded 和 stemmed。該數據集由 David. D. Lewis 提供。

lyrl2004_tokens_train.csv (https://azuremlsampleexperiments.blob.core.windows.net/datasets/lyrl2004_tokens_train.csv)

RCV1-V2 Reuters 新聞數據集中的訓練樣本的特徵。該數據集有 2.3 萬條新聞文章以及它們的 ID(該數據集的第一列)。其中每篇文章都已經 tokenized、stopworded 和 stemmed。該數據集由 David. D. Lewis 提供。

來自 KDD Cup 1999 知識發現和數據挖掘工具競賽(KDD Cup 1999 Knowledge Discovery and Data Mining Tools Competition)的數據集。

該數據集可在 Azure Blob 下載:

https://azuremlsampleexperiments.blob.core.windows.net/datasets/network_intrusion_detection.csv,其中包含了訓練和測試數據集。訓練數據集有大約 12.6 萬行和 43 列,其中包含標籤;3 列標籤性質信息和 40 列數值與字符串/類別特徵信息,都可用於訓練該模型。測試數據集有大約 2.25 萬個測試樣本,和訓練數據一樣有 43 列。

rcv1-v2.topics.qrels.csv (https://azuremlsampleexperiments.blob.core.windows.net/datasets/rcv1-v2.topics.qrels.csv)

在 RCV1-V2 新聞數據集中的新聞主題分配。一篇新聞可被分為多個主題。每一行的的格式是 1。該數據集包含 260 萬個主題分配,由 David. D. Lewis 共享。

student_performance.txt

這個數據集來自 KDD Cup 2010 學生表現評估挑戰賽(student performance evaluation)。這個數據集已被 Algebra_2008_2009 訓練集採用(Stamper, J., Niculescu-Mizil, A., Ritter, S., Gordon, G.J., & Koedinger, K.R.(2010))

在 KDD Cup 2010 教育數據挖掘挑戰賽中的 Algebra I 2008-2009 數據集可以在該競賽的網站中下載:http://pslcdatashop.web.cmu.edu/KDDCup/downloads.jsp。

該數據集也可以在 Azure Blob 下載:

https://azuremlsampleexperiments.blob.core.windows.net/datasets/student_performance.txt,其中的數據來自於學生輔導系統。其中提供了問題 ID 和簡要描述,學生 ID,時間標記,同時還有學生在正確解決問題前的嘗試次數。原數據集存儲了 890 萬條記錄,這個數據集減少了取樣數量,容量縮小至前 10 萬行數據。這份數據每一條目有 23 個不同類型的分項,包括數值、類別和時間戳。

©本文由機器之心經授權編譯,機器之心系今日頭條籤約作者,本文首發於頭條號,轉載請聯繫本公眾號獲得授權

✄------------------------------------------------

加入機器之心(全職記者/實習生):hr@almosthuman.cn

投稿或尋求報導:editor@almosthuman.cn

廣告&商務合作:bd@almosthuman.cn返回搜狐,查看更多

責任編輯:

相關焦點

  • 想入門機器學習?機器之心為你準備了一份中文資源合集
    機器之心整理參與:機器之心編輯部機器學習日益廣為人知,越來越多的計算機科學家和工程師投身其中。不幸的是,理論、算法、應用、論文、書籍、視頻等信息如此之多,很容易讓初學者迷失其中,不清楚如何才能提升技能。本文作者依據自身經驗給出了一套快速上手的可行方法及學習資源的分類匯總,機器之心在其基礎上做了增益,希望對讀者有所幫助。
  • 微軟提出新型通用神經機器翻譯方法,挑戰低資源語言翻譯問題
    近日微軟發布博客,提出一種半監督通用神經機器翻譯方法,解決低資源語言機器翻譯的問題,幫助解決方言和口語機器翻譯難題。該研究相關論文已被 NAACL 2018 接收。機器翻譯已經成為促進全球交流的重要組成部分。
  • 資源| MIT自然語言處理數據集和語料庫集合
    原標題:資源 | MIT自然語言處理數據集和語料庫集合 選自Github 作者:Karthik Narasimhan等 論文:https://arxiv.org/pdf/1506.02075v1.pdf 數據:http://suo.im/2eiX0O。 WikiQA:一個開放問題與回答的挑戰數據集,由微軟推出,2015。
  • 康耐視為您提供免費的機器視覺學習資源
    康耐視在公司網站上推出了新的免費學習資源,如果您對此感興趣,請訪問 機器視覺 和工業 ID 讀碼器。本文引用地址:http://www.eepw.com.cn/article/112440.htm  新加 探索與學習 的部分 www.cognex.com 讓您可以訪問關於從機器視覺和ID代碼讀取基礎內容到更深入的三維視覺、光學元件和難讀條形碼等所有內容的網絡研討會、講座、視頻、播客、白皮書和書籍等。
  • 微軟語音 AI 技術與微軟聽聽文檔小程序實踐|AI ProCon 2019
    在SwitchBoard會話數據集上,語音識別錯誤率開始非常高,根本不能用,到2016年,微軟取得了突破,達到5.9%的錯誤率,2017年進一步降低到5.1%的錯誤率,這個錯誤率跟專業人員轉寫錄音的錯誤率是相當的。
  • 中到英新聞翻譯媲美人類,微軟機器翻譯新突破
    研究者現在仍應該注意該裡程碑時間並不意味著機器翻譯問題已經被解決。微軟亞洲研究院副院長、自然語言處理組主任周明參與了該項目,稱研究團隊非常激動能夠在該數據集上達到與人類匹配的機器翻譯水平。但是他提到,目前仍然存在很多挑戰,如還需要在實時新聞報導上對該系統進行測試。
  • 免費教材資源第二彈!這回側重數據科學
    這次,雷鋒網再為大家呈上數據科學領域的相關圖書、教程。仍然是正版免費,仍然是英文原著,部分有漢語譯本。本列表不分先後次序。█《Foundations of Data Science》作者:John Hopcroft, Ravindran Kannan未出版的教學筆記。正在學習數據科學理論課程的童鞋,這本書是一個不錯的補充。
  • CDA承接的全球頂級機器學習Scikit-learn 中文社區上線啦!
    CDA作為國內知名的全棧數據科學教育和認證品牌,一直致力於讓優質的教育人人可得。Scikit-learn作為機器學習的入門工具庫,深受初學者的喜愛。但是由於官方文檔是英文撰寫,限制了很多機器學習愛好者的學習過程。因此,專業、規範、實時的Scikit-learn中文學習社區,一直以來都是國內學習者所急需。
  • 微軟「中譯英」機器翻譯水平媲美人類
    微軟亞洲研究院宣布,微軟研究團隊研發的機器翻譯系統在通用新聞報導測試集 newstest2017 中 – 英測試集達到了可以與人工翻譯媲美的水平。微軟亞洲研究院表示,機器翻譯是自然語言處理領域最具挑戰性的研究任務之一,這一系統模型包括由微軟亞洲研究院研發的對偶學習、推敲網絡、聯合訓練和一致性規範技術。
  • 如何用免費GPU學習AI算法?這篇算法資源大集錦別錯過
    平臺集合了AI教程, 深度學習樣例工程, 各領域的經典數據集, 雲端的運算及存儲資源, 以及比賽平臺和社區。 你可以把AI Studio看成國產版的Kaggle。和Kaggle類似,AI Studio也提供了GPU支持,但百度AI Studio在GPU上有一個很明顯的優勢。
  • 微軟上線語音評測功能:基於Azure雲構建,賦能口語學習的教與學
    對於專業性,微軟語音評測的每個語言從10萬小時以上的母語大數據中學習當地語言純正口音發音,針對各年齡段多維度精準打分,從文章——句子——詞——音素四個環節,層層評估,擬專家團打分一致性高。學生們在學習新語言的過程中,如何及時準確地給學生的發音進行反饋,讓學生隨時隨地更方便地聯繫對於提升口語學習的有效性至關重要。對於學校和教育機構來說,他們的痛點在於老師的資源有限,如何把現有的優質教師資源拓展到一個穩定的教學系統裡。因此,老師需要這樣一個能力,不僅能模擬母語專家打分,還能夠學習到老師們的評測方法,讓老師們可以使用評測高效地一對多給學生提供在線和線下的指導和幫助。
  • 史上最全實戰資源,機器學習框架、高分練手項目及數據集匯總
    最初是由研究人員和工程師在Google機器智能研究組織的Google Brain團隊中開發的。用於機器學習和深度神經網絡方面的研究,但這個系統的通用性使其也可廣泛用於其他計算領域。貢獻者:1978,提交:55315,星級:127129。
  • Kaggle上線arXiv完整數據集,以促進機器學習領域的發展
    如果你愛好數據科學,專注於機器學習,Kaggle 就會是一個非常好的選擇。arXiv 是一個始於 1991 年、目前用於收集物理學、數學、計算機科學、生物學與數理經濟學的論文預印本網站。arXiv 的存在是造就科學出版業中所謂開放獲取運動的因素之一。現今的一些數學家及科學家習慣先將其論文上傳至 arXiv,再提交予專業的學術期刊。
  • Microsoft Azure機器學習採用NVIDIA AI為Word編輯器提供語法建議
    幸運的是,為了滿足全球讀者的挑剔要求,微軟正在為數百萬人提供AI語法編輯器。該工具如同一名優秀的編輯一樣快速而專業。這是由於微軟編輯器在Microsoft Word在線版中對語法進行了改進,可以運用NVIDIA Triton 推理伺服器、ONNX 運行時和Azure AI中的微軟Azure 機器學習,來提供這種豐富的智能體驗。
  • 微軟發布史上最大AI模型:170億參數,將用於Office套件
    與此同時,微軟研究也發布了另一篇博客文章,介紹了用於分布式訓練大型模型的DeepSpeed深度學習庫和ZeRO優化技術,並表示如果沒有這些突破,Turing-NLG不可能完成。為了使模型的結果能與Megatron-LM媲美,他們使用了與其相同的超參數和學習時間表進行預訓練。與此同時,他們也使用與Megatron-LM相同類型的數據對模型進行訓練。
  • 102個模型、40個數據集,這是你需要了解的機器翻譯SOTA論文
    但隨著任務細分與新數據集的不斷公布,這些只關注主流數據集的 Benchmark 就有些不太夠用了。機器之心構建的 SOTA 模型項目,就旨在解決這個問題,我們可以直接從機器之心官網中找到 SOTA 平臺,並搜索想要的頂尖模型。為了探索當前最佳的 NMT 模型,我們選了幾個常見的數據集,並看看在 Transformer 之後,還有哪些激動人心的研究成果。
  • 小白學數據小抄放送 Python,R,大數據,機器學習
    它提供了Python學習的必備包和一些有用的學習技巧等資源。 2. Python基礎小抄表 這張由Datacamp製作的小抄表覆蓋了所有Python數據科學需要的基礎知識。如果你剛開始用Python,可以留著這張做快速參考。背下這些小抄的代碼變量、數據類型函數、字符串操作、類型轉換、列表和常用操作。尤其是它列出了重要的Python包,給出了用於選擇並導入包的小抄代碼。
  • 什麼是微軟的MeTAOS
    來源:TechWeb.com.cn微軟希望在SharePoint、office365底層、Azure(微軟的機器學習基礎設施)之上建立一個新的基礎層,以改善用戶使用其生產力雲時的體驗。微軟已經有了一個「生產力雲」和它的微軟365/office365系列產品。
  • 與SpaceX的星鏈合作,微軟Azure要「上天」
    根據官方公布的信息顯示,微軟方面已經召集了由著名太空行業專家所組成的團隊,並與一流的產品工程師和科學家共同構建滿足太空需求的雲計算能力。Bill Karagounis對此表示,「MDC可通過將Azure引入這些環境來解決該問題,並提供最接近需要它們的數據中心規模計算資源」。
  • 從星際2深度學習環境到神經機器翻譯,上手機器學習這些開源項目必...
    另外,雷鋒網 AI 研習社在原文的基礎上補充了部分開源項目,為 AI 開發者提供更加詳細的 AI 項目和資源。機器學習是用數據來學習、概括、預測的研究。近幾年,隨著數據的開發、算法的改進以及硬體計算能力的提升,機器學習技術得以快速發展,不斷延伸至新的領域。