數據定義軟體的時代是否已經到來?初創公司格物鈦想用開源數據集...

2021-01-08 雷鋒網

數據定義軟體時代到來

回顧網際網路發展歷史,過去30年是開源軟體生產數據的時代,這個時代誕生了Google、Facebook、阿里、騰訊和字節跳動這樣的網際網路巨頭,他們都在用軟體生產海量的數據。但是不難發現這一趨勢從近幾年開始悄然發生了變化,實際上前30年的數位化變革已經產生了大量用於算法訓練的非結構化數據,如何存儲、管理以及利用現有的數據來完成更加高效的算法迭代和應用開發才是AI開發者在未來30年需要面對和解決的課題。伴隨著Snowflake這樣的數據處理軟體公司進入了人們的視野,我們看到數據定義軟體的時代已經到來。而初創公司格物鈦希望通過在公開數據集社區和數據管理工具領域的創新來推動這一新時代背景下的全球創新。

破局「數據孤島」成為關鍵

高質量的數據是支持AI算法的基礎。以往數據大多以孤島的形式存在,數據之間卻並沒有產生連接。不同企業、機構之間的數據標準規範並不統一,數據質量也參差不齊,就算進行共享也依然困難重重。伴隨著各類AI應用場景落地的技術難點逐漸浮出水面,以無人駕駛領域為例,許多駕駛場景具有稀缺性,僅憑一家之力構建包含所有的交通場景的數據集將消耗巨額的數據採集成本,並且很難在短時間內一步到位,AI企業認識到打破數據孤島走向合作開放將是未來謀求發展的必然選擇。

近年來行業中不少企業和高校研究機構已經陸續發布公開數據集,將自身積累的優質、龐大數據公開出來,為認知層、感知層的AI技術提供學習驅動,把更多的數據、算力、技術匯集在一起,幫助各領域的數據釋放出其應有價值,為人工智慧的產業化落地提供關鍵基礎。

格物鈦公開數據集平臺

以開源數據集平臺賦能AI基礎設施建設

隨著行業參與者們對數據的態度越來越開放,很多公開數據集應運而生。但是由於缺乏統一的行業規範與標準,用戶搜索下載和使用這些公開數據集存在諸多困難。格物鈦看到這一行業痛點後隨即發起了「尋集令」項目的號召,希望發揮自己在數據管理上的技術優勢,建立AI公開數據集平臺。招募自動駕駛、網際網路泛娛樂、新零售、智慧城市和在線教育等多領域的合作夥伴加入,打造最受開發者歡迎的公開數據集社區,為企業、機構和個人提供高質量的真值數據、推動人工智慧行業場景落地。

格物鈦公開數據集平臺自去年九月份上線以來,用戶數實現了13倍的爆發式增長。目前已有涵蓋8個領域的16家企業與我們達成了戰略合作,他們將會在格物鈦公開數據集平臺上開源自有的數據,賦能AI,加速人工智慧行業的快速落地和科研創新。

格物鈦CEO崔運凱表示:「尋集令是一個永遠不會終止的倡議。如果你是一個企業的決策者,如果你有大量的數據,還不知道如何發掘它的價值,或者還想探尋如何更好使用它們的創意,也許是時候開放它們其中的一小部分,給這個社區中的創新者們,讓他們運用他們的智慧,來發現這其中無限的價值。這個價值被發現的過程,往往帶來的是雙贏。社區的力量是強大的,Graviti希望今天的分享和倡議,可以激勵你參與到我們的行動中來,因為只有我們攜起手來,才能一起定義未來。」 Graviti公開數據集平臺下一階段還將持續投入研發,為人工智慧企業和各類學術研究機構提供專業的一站式公開數據集發布及運營支持,同時完善社區功能為用戶提供問題與需求的反饋渠道,有效解決用戶提出的各類數據集需求。未來格物鈦也希望可以攜手更多AI生態的各類夥伴,一起用心去開源,建設人工智慧數據領域的高地。

尋集令全球合作夥伴一覽

雷鋒網雷鋒網

相關焦點

  • 讓煉丹師不再為數據集發愁,這家公司創建了一個AI公開數據集平臺
    機器之心發布 機器之心編輯部 初創公司格物鈦希望通過在公開數據集社區和數據管理工具領域的創新,從而推動數據定義軟時代這一新時代背景下的全球創新,破局數據孤島,賦能AI基礎設施建設。
  • AI時代的GitHub,這個陸奇看好的方向,終於有人做了
    一方面,AI數據準備與工程任務所耗費的時間佔到了大多數AI項目的80%以上。在AI訓練中,如果沒有足夠的高質量訓練和測試數據集,則很難訓練出高質量的AI模型。因此,面對AI開發過程中的高額隱性成本,提供高質量、場景化的真值數據,已經成為AI產業鏈的核心訴求之一。
  • 2018年最炙手可熱的10家大數據初創公司
    圖片來源:圖蟲創意   因此,有越來越多的初創公司不斷開發出創新的大數據產品,以滿足數據管理者、數據科學家、數據分析師和其他人的需求,為數據管理、數據可訪問性、數據連接和數據質量提供領先的技術,也就不足為奇了
  • 值得關注的12大開源大數據分析應用軟體
    對於許多大企業來說,開源大數據分析已經成為日常業務中一個必不可少的組成部分。據New Vantage Partners公司對《財富》1000強公司的高層主管開展的調查顯示,如今62.5%的企業在生產環境中至少運行一種大數據工具或應用軟體。
  • 大數據時代:十大最熱門的大數據技術 - 大數據_CIO時代網 - CIO...
    隨著現在硬體和軟體解決方案的成熟,許多公司利用大數據技術來收集海量數據、訓練模型、優化模型,並發布預測模型來提高業務水平或者避免風險;當前最流行的預測分析工具當屬IBM公司的SPSS,SPSS這個軟體大家都已經很熟悉了,它集數據錄入、整理、分析功能於一身。
  • 12個頂級大數據工具 - 大數據_CIO時代網 - CIO時代—新技術、新...
    在大數據技術作為概念和業務戰略出現的十年中,湧現了執行各種任務和流程的數千種工具。而推出這些工具的提供商都承諾可以為企業節省時間和成本,並發現能夠讓企業獲利的商業洞察力。顯然,大數據分析工具的市場正在不斷增長。  許多大數據分析工具最初像大數據軟體框架Hadoop一樣都是開源項目,但商業實體迅速湧現,為開源產品提供了新工具或商業的支持和開發。
  • 軟體定義汽車丨產業重新分工和洗牌期將加速到來?
    張人傑認為,軟體定義汽車非全部,在此架構下,規劃能力和定義能力十分重要。張玉峰則認為,汽車智能化的拐點已經來到,未來十年變化將會更快,但現在已經不是「大魚吃小魚」的時代,而是「快魚吃慢魚」的時代,所以速度非常關鍵。在產業發展速度比較快的時刻,產業重塑也將加速到來。
  • 數據科學的Python軟體包
    數據科學和機器學習是這個時代的兩項苛刻技術,而Python在這兩個領域的表現要好於優。除Python之外,R是數據科學項目中經常使用的另一種程式語言。R更快,並且包含更多的計算和統計庫;但是,在本文中,我們僅介紹了頂級Python數據科學庫,如果您想掌握數據科學,則應該了解這些庫。數據科學導論目前,業務數據已變得與金錢一樣有價值。
  • 2018 年度 GtiHub 開源項目 TOP 25:數據科學 & 機器學習
    近年來,GitHub 作為一個真正具有變革性的平臺,已經改變了我們託管甚至寫代碼的方式。但這還不是全部。此外,它還是一個學習平臺。如果你問怎麼學習的話,我可以給你一個暗示——開源項目!世界領先的科技公司通過在 GitHub 上發布其熱門算法的代碼,對項目進行開源。2018 年,在 Google 和 Facebook 等公司的帶領下,這類開源項目大幅增加。
  • 用開源軟體建立一個經濟型SAN
    為了實現這個計劃,我們將使用兩臺一樣的Dell 1U機架式伺服器,用兩個千兆乙太網埠交叉連接,在這兩臺伺服器上我們將安裝一組開源軟體,首先,我們需要安裝一個作業系統,我們選擇使用Linux,千萬不要覺得驚奇,在各種發行版中我們選擇了CentOS 4,它是基於Red Hat Enterprise Linux(RHEL)的社區企業級Linux發行版,如果你不想支付Red Hat的年度升級服務費用
  • 輕鬆搞定TB級數據,開源GraphLab突破人類圖計算「極限值」
    SFrame的亮相顯得低調而神秘,不過其功能不可小覷,它將GraphLab擴展到了表格,使其可以輕鬆管理TB級數據。 社交媒體的圖數據已經引起了許多公司注意,在生命健康科學、安全、金融服務等很多領域也存在類似的數據集。
  • CPDA:學習數據分析為什麼要選擇用SPSS來做統計軟體
    來源:CPDA數據分析師網 / 作者:數據君 / 為什麼要使用SPSS軟體? SPSS軟體平臺提供高級統計分析,龐大的機器學習算法庫,文本分析,開源可擴展性,與大數據的集成以及在應用程式中的無縫部署。 在我們平時在進行數據分析工作中對它的易用性,靈活性和可伸縮性使SPSS可供所有技能水平的用戶使用。
  • IBN和IBA是由初創公司Apstra率先推出,但現在正在被巨頭思科採用
    正如軟體定義網絡(SDN)市場正在成熟並在實際網絡中實施一樣,市場營銷已經轉向新的技術熱點,並且正在淡化SDN。網絡領域目前比較流行的熱點詞彙包括基於意圖的網絡(IBN)、基於意圖的分析(IBA)和網絡自動化。IBN和IBA是由初創公司Apstra率先推出,但現在正在被網絡巨頭思科採用。
  • 清華構建新一代數據集NICO,定義圖像分類新標準
    每件事物的出現都有它各自的使命,我們今天提數據集就不得不提到ImageNet,ImageNet數據集及其它推動的大規模視覺比賽對人工智慧特別是計算機視覺領域的巨大貢獻是毋庸置疑的。正如李飛飛所言,ImageNet已經完成了它的歷史使命,然而數據集的發展和變革卻不能停下腳步。
  • 製造產品數據集
    在訓練數據中捕獲所有相關輸入特徵尤為重要。 儘管 DNN 原則上可以表示任意函數,但是計算機很容易模仿和延續訓練數據中存在的不需要的偏差,解決方法是通過聘用專人來標記部分數據或創建全新的數據集,或通過模擬相關的問題設置來創建。
  • 無代碼軟體來了,這家創業公司想讓你像搭樂高一樣輕鬆管理數據
    時至今日,不少企業提出了更多新需求,他們想要一個像Excel那樣界面操作簡單、生產能力靈活,同時具有數據結構化自動化以及調用數據能力三者統一的產品。在美國讀書期間,Ricky發現了Airtable這家線上資料庫服務公司,即使是工廠也可以輕易地使用這款輕量的辦公軟體,從而革命性地改變了人們對數據管理的方式。
  • 軟體定義一切的時代 解放號定義軟體基礎設施
    近日,由廣州城投集團與中軟國際「解放號」聯合舉辦的「軟體驅動重構價值 加速廣州產業網際網路發展高峰論壇」召開,這也是解放號名城行活動的第二站。中軟國際董事會主席、CEO陳宇紅博士在接受採訪時表示,這個世界正在進入「軟體定義一切」的時代。那在這個時代,誰來定義軟體?
  • 第七屆開源作業系統年度技術會議(OS2ATC)盛大開幕,從編譯器到軟體...
    以下為精彩演講瞬間,你絕不可錯過~主論壇 7 大報告,從編譯器到軟體定義衛星!教育部國產基礎軟體工程研究中心主任、鵬城實驗室鵬城生態項目負責人吳慶波和北京飛漫軟體技術有限公司CEO、HybridOS作業系統開源協作項目發起人魏永明聯合發表致辭:OS2ATC已來到第七屆,今年在深圳召開。
  • 經典的開源編碼器X264/X265是否真的無法超越?
    近日,由莫斯科國立大學組織連續舉行13年的視頻編碼器大賽成績公布,引發網絡對H.264/H.265標準技術、以及曾經在該項大賽封王的開源軟體X264/X265性能的熱議。筆者特意整理相關資料,與大家分享討論——被奉為經典的開源編碼器X264/X265是否真的無法超越?
  • 瞄準短視頻數據的升級提高,這家公司想做5G時代的內容提供方
    記者 | 林北辰搶在抖音、快手之前上市的雲想科技,為何被稱為「短視頻營銷第一股」?「我想這應該是媒體、投行對我們的謬讚。」雲想科技CEO王晨近日接受界面新聞專訪時表示,該稱號應是緣於媒體、投行認為公司有90%以上的業務都和短視頻相關。