自研工具將標註效率提升50%,「星塵數據」還要為無人車場景提供全...

2020-12-23 36氪

「星塵數據」是一家提供數據標註服務和AI數據中臺系統的SaaS公司,為人工智慧企業提供數據服務,提供AI數據全流程標註和質量管理。

人工智慧的發展過程中,數據、算力、算法缺一不可。目前,深度學習是AI的主流算法,訓練數據在深度學習訓練中起到重要作用。一些情況下,「大量數據+普通模型」比「小量數據+高級模型」的準確度要高。

深度學習訓練中數據量與模型的關係

此前,供AI訓練的數據的標註以人工為主,業界普遍探索依靠技術來提升標註的效率。星塵數據形成了一套完整的質量管控系統。系統首先利用自動化培訓考核工具選擇上崗人員,並根據考試結果分配相應難度的標註內容。此外,在標註過程中,系統會對已標註數據進行交叉審核,被標註數據可在用戶自定義的標註池、檢查池、抽查池中來回流轉,保證最終進入完成池的精確度。除了人工質檢,系統還設置算法質檢,保障數據服務質量的下限,儘量避免漏題和顯而易見的錯誤。

標註速度方面,星塵數據利用深度學習的模型輔助標註,降低人工勞動重複率。在標註時,平臺的智能識別功能可以對物體邊界進行高貼合度的分割,標註者只需要對標註數據進行選點即可框出物體。這一功能能將標註效率提升50%-80%。

因為有系統支持,針對客戶的個性化需求,星塵數據開發了自動化報價平臺。客戶可以根據具體的標註場景上報圖形、標註範圍等精細化需求。平臺會根據需求自動生成價格評估單。星塵數據可標註的數據類型包括點雲、視頻、音頻、圖像和文本。標註工具涵蓋點線面、3d框、2d框、多邊形、長方體等,在自動駕駛、安防、消防場景、醫療等領域都有應用。

與此同時,藉助這套系統,也有助於保證用戶數據安全。數據安全是客戶普遍關心的問題。星塵數據為了提升數據安全,設置權限管理系統,通過白名單和訪問控制、動態水印使數據不可複製,並設置訪問頻率限制。在數據傳輸時,甲方資料庫僅需要向星塵數據平臺傳輸URL,而不傳輸數據本身。數據處理完成後,星塵數據會使用傳輸層安全性協議(TSL)對數據進行加密傳輸,減少黑客爬取數據的風險。

星塵數據不止提供數據服務,也根據真實場景提供全棧式解決方案,實現「底線思維」。例如在智能駕駛場景中,公司設計了無人車閉環解決方案系統,為無人車研發提供車輛改裝、數據採集、數據標註、仿真測試、真車測試一站式服務。客戶只需關心無人車的模型訓練。星塵數據是全國首家實現這一解決方案的公司。目前,無人車業務佔公司總業務60%-70%左右。

星塵數據的無人車閉環解決方案

據艾瑞諮詢數據,2019 年中國AI基礎數據服務行業市場規模達30.9億元。根據需求方投入情況和供應方營收增長情況推算,預計 2025 年市場規模將突破 100 億元,年化增長率為 21.8%,有較好的市場發展前景。

早期的AI數據標註行業是勞動密集型行業,門檻較低,市面上大大小小的供應商良莠不齊,質量和數據精度無法保證。隨著競爭的加劇,這一行業的頭部企業正在顯現。目前國內有競爭力的數據標註企業除了星塵數據,還有已獲得3300萬元Pre-B輪融資的「龍貓數據」,公司主打眾包模式,即通過大量C端的人力在APP上實現數據標註的分包。以及從數據交易轉型至數據標註方向,通過積累的銷售優勢服務企業客戶的「數據堂」。還有提供從數據標註到模型訓練迭代一站式服務的「倍賽Basic Finder」等。星塵數據CEO章磊認為,在頭部企業的競爭中,標註精度和速度是核心競爭點。星塵數據的多重審核機制和智能標註功能可以維持公司這兩大競爭力;與以上競品相比,星塵數據的標註效率最高,標註速度可達400-600 3D Box/h。

星塵數據的CEO章磊畢業於浙江大學和喬治華盛頓大學,曾在美國世界銀行工作,開發的模型被聯邦儲蓄局作為行業標準。COO徐銘鍇曾擔任京東AI+商務戰略負責人。CTO熊梓陶曾在美國多家公司任職資深架構師顧問。主創團隊都有AI背景和甲方背景,了解數據標註行業技術痛點。

相關焦點

  • 蟄伏三年,達摩院首款無人駕駛終端產品,阿里牽出一頭「小蠻驢」
    天貓、飛豬、螞蟻、盒馬、菜鳥… 如今「阿里動物園」已經滲透到了生活的方方面面,而每一隻「動物」背後都代表著一款神級應用和龐大的生態體系。這一次,阿里將目光對準了末端物流。 末端物流簡單來說就是指面向園區、學校、小區等場景提供外賣、快遞等最後三公裡配送服務。 末端物流是一個想像力非常大的場景。
  • Github Star 7.2K,超級好用的OCR數據合成與半自動標註工具,強烈...
    短短幾個月,累計 Star 數量已超過 7.2K,頻頻登上 Github Trending 日榜月榜,稱它為 OCR 方向目前最火的 repo 絕對不為過。12 月,它又帶來四大新發布與升級,核心內容先睹為快:全新發布數據合成工具 Style-Text:可以批量合成大量與目標場景類似的圖像,在多個場景驗證,效果均提升 15% 以上。
  • 以舊衣回收為場景切入點,「蜂巢智慧」為城市提供固廢管理解決方案
    36氪最近接觸到的「蜂巢智慧」(又名:Meet Hive)就是一家致力於包括舊衣回收在內的固廢管理解決方案提供商。 成立於2018年,東莞蜂巢智慧是以物聯網與大數據為技術基礎,為城市提供固廢管理解決方案,衣物解決方案是其主要解決方案,致力於解決舊衣回收中成本高、效率低的市場痛點。在此經驗基礎上,蜂巢智慧還提出智慧城市解決方案,面向城市環衛場景,提高城市環衛效率。
  • 北京現可預約體驗無人駕駛計程車;蘋果設計團隊推出自研口罩;華為...
    與此同時,鴻蒙系統也邁出了賦能第三方生態的第一步,即把包括原始碼、SDK、開發板/模組、方舟編譯器、全場景開發框架等在內的一系列平臺及工具鏈開放給軟硬體廠商,幫助開發者快速開發基於鴻蒙系統的設備與軟體,完善鴻蒙生態。
  • 36氪首發|酒店場景數據資產服務運營商「攜旅Htrip」完成2500萬...
    36氪獲悉,「攜旅Htrip」已於近日獲得2500萬美元A2輪融資,本輪資金將用於繼續推動產業場景數據技術的研發及深化其產品體系在大住宿業數據智能領域的發展,培育高坪效、可拓展的文旅住宿新生態。攜旅定位於酒店場景數據服務運營商,致力於用數據智能技術為大旅遊住宿企業提供商旅用戶洞察、新零售場景系統構建、場景整合運營的產品和商業解決方案,助力大旅遊企業數位化轉型。攜旅以集團和門店運營和服務數位化為抓手,通過核心的全域數據能力和對商業資產運營的理解,為品牌及門店提供基於產業數據智能的高效運營管理工具,為入住客人提供更優質更有趣的入住體驗。
  • 馬斯克「獨孤求敗」的自動駕駛路徑,與特斯拉的「無人計程車」(附...
    「客觀說這是世界上最好的晶片」、「任何依賴雷射雷達的人都註定失敗」、「明年年中,將有超過 100 萬輛特斯拉汽車在路上使用全自動駕駛硬體,這意味著屆時將有 100 萬臺 Robotaxi 的潛力。」經典的埃隆馬斯克再次上線。
  • 36氪首發|為中小製造企業提供數位化生產工具,「木白科技」獲一...
    36氪獲悉,工業網際網路服務商「木白科技」近期完成1000萬元人民幣天使輪融資,由青山資本和險峰長青合投,川行資本擔任本輪財務顧問。本輪融資主要用於發展市場代理和產品研發。  「木白科技」2017年開始涉足智能製造,目前主要針對中小製造業企業的生產管理流程提供數位化SaaS工具。
  • 2020-2021「AI中國」機器之心年度獎項揭榜(下)
    在這風雲變幻的這一年, AI與各行各業深度融合,在實體世界中體現出巨大價值,為科技強國戰略注入了更大的發展動能。本屆「AI 中國」機器之心 2020 年度評選,為順應產業變化,體現產業趨勢,在傳統的六大榜單之外,新增設「新基建領軍企業」、「產業數智化領軍企業」、「最強技術生態」及「智能國民應用」四大分榜,共計形成十大榜單200個獎項。
  • 口腔市場激增至萬億規模,「微雲人工智慧」用雲端大腦和機器人改進...
    36氪近期接觸的「微雲人工智慧」,是一家以機器人和人工智慧技術為核心的醫療智能公司,擁有自己的雲端大腦決策系統和智慧機器人末端,以及智能工廠,為世界範圍內的醫生和患者提供數位化牙科工業全系解決方案,致力於構築數位化牙科產業生態鏈。
  • 「最大人工智慧公司」阿里AI全景圖首次全曝光
    如上三層你可以抽象的理解為阿里雲的IaaS、PaaS和SaaS,雖然劃分內涵稍有不同,但都是AI所必需的的三個層級。在大會現場,阿里按照從上層到下層的順序來講述,產業AI是阿里AI全景圖的第一部分,這部分集中展示了阿里將AI應用於產業的實踐。在雷鋒網看來,這也是重落地輕概念的表現,技術落地才有價值,就像阿里雲智能總裁張建鋒所言,「需求牽引、技術驅動」。
  • 2020 EDGE TOP 50 科技企業之「數位化服務明星企業」揭榜
    鈦媒體2020 EDGE TOP 50 科技企業之「數位化服務明星企業」的最終評選結果,已經在12月19日舉辦的鈦媒體2020 EDGE Awards頒獎盛典晚宴上揭榜。本獎項頒給2020年,在不同行業內,通過數位化技術幫助行業、用戶渡過疫情難關 、進行數位化轉型、提升效率的創新技術服務商。
  • 用子彈筆記記錄法,少寫一半字,效率卻提升3倍!
    你還在為工作規劃、任務管理而焦頭爛額;為任務繁重苦悶不已;為工作效率不高焦慮煩惱?如果你想更好地管理日常工作,避免遺忘工作內容,提高工作效率,那麼「子彈筆記法」或許可以幫助到你!與之相反,「儘快給老秦回電話,他想知道你什麼時候才可以準備好四月的銷售數據」,又太長了。如果改成「回電話給老秦:四月銷售數據」。說的還是同一件事,字卻少了很多。由此可見,子彈筆記可以讓信息更精簡,更準確,從而提高工作的效率。隨著科技的不斷發展,從紙和筆的時代,進入了廣泛普及的多媒體時代了。
  • 別說我沒告訴你AI數據的重要性
    高質、高效的AI數據解決燃眉之急為了保證AI數據精確度,雲測數據通過具備自主知識產品的全品類的高效標註平臺,對產業賦能,提供了從平臺自研、數據場景實驗室建立、數據交付中心的建立同時在數據標註過程中,採用基於規則的機器篩查方式,在人工校驗流程前根據所標註項目要求,引入相關查錯規則,為數據精度提升設置保障。為幫助縮短計算機視覺算法的研發周期,雲測數據通過提升數據處理過程的作業協同化能力,來提高數據生產的效率。
  • 無懼去年倒閉潮 美團開Amazon Go式全AI無人店
    以無人微倉和無人配送發展「前置倉 + 即時配送」的新型零售門店,首次落地首鋼園,為 3km 半徑內智慧園區的生活服務提供新的機會。 十一期間,美團在即將開展冬奧會的首鋼園開了第一家 AI 智慧門店——MAI shop。
  • 易觀數科:從洞察到運營,深耕「留量」價值的「解決方案型」公司
    數據分析和諮詢業務的基因,讓易觀數科更擅長細分、洞察、運營數據中潛在的具體場景,將技術、分析、數據的能力轉化為產品算法能力,打造易觀方舟等智能用戶運營產品。訂閱付費的屬性和利益綁定的「代運營」模式,脫離單次售賣邏輯,從「分析+諮詢」升級為「產品+諮詢+服務」的模式,覆蓋用戶完整周期,提供完整的解決方案和長效的諮詢、服務;由公域分析,結合私域洞察,完成對於用戶的全域運營。
  • 商用動感單車延伸至家庭場景,「NEXGIM」AI功率健身車要對標泰諾健
    在家庭場景的健身硬體中,相比跑步機,動感單車因為噪音更小、穩定性更好,加上燃脂效率高,受到一批年輕人的歡迎。我們注意到,小米生態鏈的企業脈合信息科技也加入了健身消費品的大軍,去年9月在小米有品上線了一款「NEXGIM」AI功率智能家用健身車,眾籌預售完成741%,9月上市後當月售出1500臺。
  • 「多點Dmall」完成超4億美元C輪融資,騰訊領投「即構科技」5,000萬...
    」D輪融資超10億人民幣◆「玩物得志」完成8,000萬美元C輪融資◆騰訊領投,雲通訊服務提供商「即構科技」獲5,000萬美元C輪融資◆巴西支付公司「Conductor」融資1.5億美元◆為餐廳提供訂單支付和管理平臺,「Ordermark」獲1.2億美元C輪融資Part.1
  • OPPO 小布助手算法能力問鼎百度「千言數據集:文本相似度」行業測評
    而百度「千言數據集:文本相似度」數據集聚合了哈工大(深圳)LCQMC、BQ Corpus 和 Google 的 PAWS-X(中文)三個行業權威的評測集,挑戰非常大。OPPO 小布助手算法團隊憑藉豐富的領域經驗以及自研的大規模預訓練模型,擊敗多個知名團隊並衝上排行榜第一。