讓煉丹師不再為數據集發愁,這家公司創建了一個AI公開數據集平臺

2021-01-09 騰訊網

機器之心發布

機器之心編輯部

初創公司格物鈦希望通過在公開數據集社區和數據管理工具領域的創新，從而推動數據定義軟時代這一新時代背景下的全球創新，破局數據孤島，賦能AI基礎設施建設。

數據定義軟體時代到來

回顧網際網路發展歷史，過去 30 年是開源軟體生產數據的時代，這個時代誕生了 Google、Facebook、阿里、騰訊和字節跳動這樣的網際網路巨頭，他們都在用軟體生產海量的數據。但是不難發現這一趨勢從近幾年開始悄然發生了變化，實際上前 30 年的數位化變革已經產生了大量用於算法訓練的非結構化數據，如何存儲、管理以及利用現有的數據來完成更加高效的算法迭代和應用開發才是 AI 開發者在未來 30 年需要面對和解決的課題。伴隨著 Snowflake 這樣的數據處理軟體公司進入了人們的視野，我們看到數據定義軟體的時代已經到來。而初創公司格物鈦希望通過在公開數據集社區和數據管理工具領域的創新來推動這一新時代背景下的全球創新。

破局「數據孤島」成為關鍵

高質量的數據是支持 AI 算法的基礎。以往數據大多以孤島的形式存在，數據之間卻並沒有產生連接。不同企業、機構之間的數據標準規範並不統一，數據質量也參差不齊，就算進行共享也依然困難重重。伴隨著各類 AI 應用場景落地的技術難點逐漸浮出水面，以無人駕駛領域為例，許多駕駛場景具有稀缺性，僅憑一家之力構建包含所有的交通場景的數據集將消耗巨額的數據採集成本，並且很難在短時間內一步到位，AI 企業認識到打破數據孤島走向合作開放將是未來謀求發展的必然選擇。

近年來行業中不少企業和高校研究機構已經陸續發布公開數據集，將自身積累的優質、龐大數據公開出來，為認知層、感知層的 AI 技術提供學習驅動，把更多的數據、算力、技術匯集在一起，幫助各領域的數據釋放出其應有價值，為人工智慧的產業化落地提供關鍵基礎。

格物鈦公開數據集平臺

以開源數據集平臺賦能 AI 基礎設施建設

隨著行業參與者們對數據的態度越來越開放，很多公開數據集應運而生。但是由於缺乏統一的行業規範與標準，用戶搜索下載和使用這些公開數據集存在諸多困難。格物鈦看到這一行業痛點後隨即發起了「尋集令」項目的號召，希望發揮自己在數據管理上的技術優勢，建立 AI 公開數據集平臺。招募自動駕駛、網際網路泛娛樂、新零售、智慧城市和在線教育等多領域的合作夥伴加入，打造最受開發者歡迎的公開數據集社區，為企業、機構和個人提供高質量的真值數據、推動人工智慧行業場景落地。

格物鈦公開數據集平臺自去年九月份上線以來，用戶數實現了 13 倍的爆發式增長。目前已有涵蓋 8 個領域的 16 家企業與我們達成了戰略合作，他們將會在格物鈦公開數據集平臺上開源自有的數據，賦能 AI，加速人工智慧行業的快速落地和科研創新。

格物鈦 CEO 崔運凱表示：「尋集令是一個永遠不會終止的倡議。如果你是一個企業的決策者，如果你有大量的數據，還不知道如何發掘它的價值，或者還想探尋如何更好使用它們的創意，也許是時候開放它們其中的一小部分，給這個社區中的創新者們，讓他們運用他們的智慧，來發現這其中無限的價值。這個價值被發現的過程，往往帶來的是雙贏。社區的力量是強大的，Graviti 希望今天的分享和倡議，可以激勵你參與到我們的行動中來，因為只有我們攜起手來，才能一起定義未來。」 Graviti 公開數據集平臺下一階段還將持續投入研發，為人工智慧企業和各類學術研究機構提供專業的一站式公開數據集發布及運營支持，同時完善社區功能為用戶提供問題與需求的反饋渠道，有效解決用戶提出的各類數據集需求。未來格物鈦也希望可以攜手更多 AI 生態的各類夥伴，一起用心去開源，建設人工智慧數據領域的高地。

尋集令全球合作夥伴一覽

THE END

轉載請聯繫本公眾號獲得授權

相關焦點

AI色情創作算法亟需「養料」,非法裸圖數據集「重生」

但是，用來訓練這些色情算法的非法「裸圖」數據集，還在全球的色情社區流傳，並且或許將永遠存在下去……四年前，剛剛18歲的Jane作為受害者之一，在威逼利誘下，被迫參與拍攝了一個色情圖集。她和其他21名女性的裸照和色情視頻在之後在一個名叫「少女色情」（Girls Do Porn）的成人網站被公開。
Google Cloud 發布 COVID-19 數據集,可構建 AI 模型來對抗疫情

（COVID-19 Public Datasets）的項目，該項目將託管一個與疫情相關的公共數據資料庫，並將它們開放，以便外界自由訪問和分析。雷鋒網(公眾號：雷鋒網)了解到，在這個所謂的公共數據集項目中，其數據包括約翰·霍普金斯大學系統科學與工程中心（JHU CSSE）數據集、來自世界銀行的全球健康數據和 OpenStreetMap 數據，所有這些都將免費存儲在 Google Cloud 上——Google 也表示將與這些數據集背後的的組織提前接觸。
14個超有趣的數據科學項目,數據集都準備好了!

難易程度：簡單數據集： https://www.kaggle.com/sudalairajkumar/創建一些數據可視化效果，顯示地球表面溫度如何隨時間變化，並可以通過創建折線圖或其他動畫的Choropleth貼圖來實現！也可以創建一個預測模型來預測未來五十年內地球的溫度。
數據定義軟體的時代是否已經到來?初創公司格物鈦想用開源數據集...

近年來行業中不少企業和高校研究機構已經陸續發布公開數據集，將自身積累的優質、龐大數據公開出來，為認知層、感知層的AI技術提供學習驅動，把更多的數據、算力、技術匯集在一起，幫助各領域的數據釋放出其應有價值，為人工智慧的產業化落地提供關鍵基礎。
14個超有趣的數據分析項目,數據集都給你整理好啦

3個數據集可以用於創建一些有意思的可視化效果並加到你的簡歷中。創建一些數據可視化效果，顯示地球表面溫度如何隨時間變化，並可以通過創建折線圖或其他動畫的Choropleth貼圖來實現！也可以創建一個預測模型來預測未來五十年內地球的溫度。
MIT 更新最大自然災害圖像數據集，囊括 19 種災害事件

、質量最高的自然災害衛星圖像數據集。：xBD 數據集。，是帶注釋的高解析度衛星圖像中規模最大、質量最高的公共數據集之一。作者還解釋了如何創建數據集、如何創建模型以檢測圖像中的事件，以及如何過濾嘈雜的社交媒體數據中的事件
用谷歌圖片搜索自製深度學習數據集 | 教程

用谷歌圖片搜索自製深度學習數據集 | 教程銅靈編譯整理就怕前腳剛立志搞個新研究，後腳就發現沒有合適的數據集可用。AI工程師從入門到放棄，可能就是這麼一會的功夫。別找了，現在深度學習數據集也能自制了。
CMU大佬分享三類優質數據集:綜合、CV和NLP

AI實施的必要條件，沒有數據的AI就是空想，而AI圈的數據很多都可以在網上免費獲取，非常方便，今天分享一個CMU大佬攸寧帶來的數據集資源合集。阿里雲天池天池是阿里巴巴旗下的類似Kaggle的一個競賽型平臺，對於母語中文的學習者來說沒有語言門檻。跟Kaggle一樣，對於各個階段的ML學習者都非常友好，專門有幫助萌新入門ML大賽的新手指南。同樣十分推薦！
製造產品數據集

一直到近幾年，創建一個新的電腦程式都需要涉及勞動密集型的手工編程過程。但是，這個昂貴的過程正日益被增強，或者被一個更加自動化的、在適當的訓練數據上運行的 ML 算法流程所取代。2.存在、或者能夠創建規模巨大、帶有成對的輸入輸出的數位化數據集可用的訓練樣本越多，學習就越準確。 DNN 的顯著特徵之一是在許多領域內的表現似乎並不會在樣本超過一定數量之後就停止增長。
遙感影像變化檢測數據集

SECONDSECOND是一個語義變化檢測數據集，它從多個平臺和傳感器收集了4662對航空圖像。這些圖像對分布在杭州，成都和上海等城市。每個圖像的尺寸為512 x 512，並在像素級別進行注釋。第二個重點是6種主要的土地覆蓋類別，即非植被地表，樹木，低植被，水，建築物和遊樂場，它們經常涉及自然和人為的地理變化。
數據分析:創建統一的公有基因組數據平臺

（見下圖）時至今日，雲服務的安全性已經勝過了研究機構自己的數據中心。提供雲服務的既有亞馬遜、谷歌和微軟這樣的商業企業，也有專注於基因組研究的小型公司，比如加利福尼亞的Annai Systems和英國劍橋郡的歐洲生物信息研究所。這些提供商採取加密和防火牆或密保卡等方式來控制數據的使用權，並為數據所有者提供監測數據使用的工具。
如何在Keras中訓練大型數據集

本文分為以下幾個部分:下載和了解數據集數據集的準備 - 批量加載數據集數據集在訓練和驗證集中的Shuffling和拆分創建自定義生成器定義模型體系結構和訓練模型結論作為一個例子，我們將解決Kaggle「Plant Seedlings Classification」的挑戰。這個數據集並不大，但我們將假設數據集太大，無法裝入內存，然後將批量加載數據集。
重磅 | 百奧智匯推出單細胞RNA大數據可視化平臺OmniBrowser:收錄癌症等多個領域近1500個數據集,為藥物研發賦能

2020年1月4日，百奧智匯正式推出單細胞RNA測序大數據可視化平臺——OmniBrowser，為研究者們挖掘利用海量單細胞數據提供有力工具，為藥靶發現、藥物研發、科研探索賦能。特徵基因列表基因集分析有監督注釋元數據分析這些功能不僅支持單一數據集，還支持整合數據集。
Kaggle上線arXiv完整數據集,以促進機器學習領域的發展

無論你是在自身研究領域迅速成長的研究生，還是致力於用科研為公眾提供服務的研究者，arXiv 這一豐富的信息庫都可以為你提供重要、甚至難以置信的幫助。Kaggle 則是全球最大的數據競賽平臺，也是一個主要為開發商和數據科學家提供舉辦機器學習競賽、託管資料庫、編寫和分享代碼的平臺，創建於 2010 年，並於 2017 年被谷歌母公司 Alphabet 收購。
打破開放與隱私壁壘,7國30家機構創建最大醫學AI協作系統

由賓夕法尼亞大學醫學院領導、29家國際醫療和研究機構參與的聯合團隊正在創建一個有史以來最大腦瘤數據集訓練的人工智慧模型，基於一種名為聯邦學習（Federated Learning）的技術，可以在分散的伺服器之間訓練算法。
CB Insights:2017全球AI企業100強(附下載) | 網際網路數據資訊網...

ClarifaiClarifai是一家人工智慧公司，擅長視覺識別，為企業和開發人員解決現實問題。Clarifai 做「教學」AI，這就是為什麼他們的技術是市場上最定製化和最準確的解決方案。22. CloudMedx Inc我們已經建立了一個臨床AI平臺，規模化並簡單化大腦啟發的臨床算法在醫療保健領域的應用。23.
MIND:高質量的新聞推薦數據集

目前，許多有關新聞推薦的研究是在私有數據集上開展的，而已有的公開數據集往往規模較小。高質量基準數據集的缺乏限制了新聞推薦領域的研究進展。因此，微軟亞洲研究院聯合微軟新聞產品團隊在 ACL 2020上發布了一個大規模的英文新聞推薦數據集 MIcrosoft News Dataset (MIND[1])，並於2020年7月-9月在condalab平臺舉辦了MIND新聞推薦比賽。
百度開放大規模自動駕駛數據集ApolloScape,超同類10倍數量級

自動駕駛開發測試中，海量、高質的真實數據是必不可缺的「原料」。但是，少有團隊有能力開發並維持一個適用的自動駕駛平臺，定期校準並收集新數據。據介紹，Apollo開放平臺此次發布的ApolloScape不僅開放了比Cityscapes等同類數據集大10倍以上的數據量，包括感知、仿真場景、路網數據等數十萬幀逐像素語義分割標註的高解析度圖像數據，進一步涵蓋更複雜的環境、天氣和交通狀況等。
在Pytorch中構建流數據集

數據格式概述在製作我們的流數據之前，先再次介紹一下數據集，MAFAT數據由都卜勒雷達信號的固定長度段組成，表示為128x32 I / Q矩陣；但是，在數據集中，有許多段屬於同一磁軌，即，雷達信號持續時間較長，一條磁軌中有1到43個段。
如何使用支持向量機學習非線性數據集

支持向量機是監督機器學習模型，可對數據進行分類分析。實際上，支持向量機算法是尋找能將實例進行分離的最佳超平面的過程。如果數據像上面那樣是線性可分離的，那麼我們用一個線性分類器就能將兩個類分開。如果我們的數據是非線性可分的，我們應該怎麼做呢？就像這樣：正如我們所看到的，即使來自不同類的數據點是可分離的，我們也不能簡單地畫一條直線來進行分類。

讓煉丹師不再為數據集發愁,這家公司創建了一個AI公開數據集平臺

相關焦點

AI色情創作算法亟需「養料」,非法裸圖數據集「重生」

Google Cloud 發布 COVID-19 數據集,可構建 AI 模型來對抗疫情

14個超有趣的數據科學項目,數據集都準備好了!

數據定義軟體的時代是否已經到來?初創公司格物鈦想用開源數據集...

14個超有趣的數據分析項目,數據集都給你整理好啦

MIT 更新最大自然災害圖像數據集，囊括 19 種災害事件

用谷歌圖片搜索自製深度學習數據集 | 教程

CMU大佬分享三類優質數據集:綜合、CV和NLP

製造產品數據集

遙感影像變化檢測數據集

數據分析:創建統一的公有基因組數據平臺

如何在Keras中訓練大型數據集

重磅 | 百奧智匯推出單細胞RNA大數據可視化平臺OmniBrowser:收錄癌症等多個領域近1500個數據集,為藥物研發賦能

Kaggle上線arXiv完整數據集,以促進機器學習領域的發展

打破開放與隱私壁壘,7國30家機構創建最大醫學AI協作系統

CB Insights:2017全球AI企業100強(附下載) | 網際網路數據資訊網...

MIND:高質量的新聞推薦數據集

百度開放大規模自動駕駛數據集ApolloScape,超同類10倍數量級

在Pytorch中構建流數據集

如何使用支持向量機學習非線性數據集