「星塵數據」是一家提供數據標註服務和AI數據中臺系統的SaaS公司,為人工智慧企業提供數據服務,提供AI數據全流程標註和質量管理。
人工智慧的發展過程中,數據、算力、算法缺一不可。目前,深度學習是AI的主流算法,訓練數據在深度學習訓練中起到重要作用。一些情況下,「大量數據+普通模型」比「小量數據+高級模型」的準確度要高。
深度學習訓練中數據量與模型的關係
此前,供AI訓練的數據的標註以人工為主,業界普遍探索依靠技術來提升標註的效率。星塵數據形成了一套完整的質量管控系統。系統首先利用自動化培訓考核工具選擇上崗人員,並根據考試結果分配相應難度的標註內容。此外,在標註過程中,系統會對已標註數據進行交叉審核,被標註數據可在用戶自定義的標註池、檢查池、抽查池中來回流轉,保證最終進入完成池的精確度。除了人工質檢,系統還設置算法質檢,保障數據服務質量的下限,儘量避免漏題和顯而易見的錯誤。
在標註速度方面,星塵數據利用深度學習的模型輔助標註,降低人工勞動重複率。在標註時,平臺的智能識別功能可以對物體邊界進行高貼合度的分割,標註者只需要對標註數據進行選點即可框出物體。這一功能能將標註效率提升50%-80%。
因為有系統支持,針對客戶的個性化需求,星塵數據開發了自動化報價平臺。客戶可以根據具體的標註場景上報圖形、標註範圍等精細化需求。平臺會根據需求自動生成價格評估單。星塵數據可標註的數據類型包括點雲、視頻、音頻、圖像和文本。標註工具涵蓋點線面、3d框、2d框、多邊形、長方體等,在自動駕駛、安防、消防場景、醫療等領域都有應用。
與此同時,藉助這套系統,也有助於保證用戶數據安全。數據安全是客戶普遍關心的問題。星塵數據為了提升數據安全,設置權限管理系統,通過白名單和訪問控制、動態水印使數據不可複製,並設置訪問頻率限制。在數據傳輸時,甲方資料庫僅需要向星塵數據平臺傳輸URL,而不傳輸數據本身。數據處理完成後,星塵數據會使用傳輸層安全性協議(TSL)對數據進行加密傳輸,減少黑客爬取數據的風險。
星塵數據不止提供數據服務,也根據真實場景提供全棧式解決方案,實現「底線思維」。例如在智能駕駛場景中,公司設計了無人車閉環解決方案系統,為無人車研發提供車輛改裝、數據採集、數據標註、仿真測試、真車測試一站式服務。客戶只需關心無人車的模型訓練。星塵數據是全國首家實現這一解決方案的公司。目前,無人車業務佔公司總業務60%-70%左右。
星塵數據的無人車閉環解決方案
據艾瑞諮詢數據,2019 年中國AI基礎數據服務行業市場規模達30.9億元。根據需求方投入情況和供應方營收增長情況推算,預計 2025 年市場規模將突破 100 億元,年化增長率為 21.8%,有較好的市場發展前景。
早期的AI數據標註行業是勞動密集型行業,門檻較低,市面上大大小小的供應商良莠不齊,質量和數據精度無法保證。隨著競爭的加劇,這一行業的頭部企業正在顯現。目前國內有競爭力的數據標註企業除了星塵數據,還有已獲得3300萬元Pre-B輪融資的「龍貓數據」,公司主打眾包模式,即通過大量C端的人力在APP上實現數據標註的分包。以及從數據交易轉型至數據標註方向,通過積累的銷售優勢服務企業客戶的「數據堂」。還有提供從數據標註到模型訓練迭代一站式服務的「倍賽Basic Finder」等。星塵數據CEO章磊認為,在頭部企業的競爭中,標註精度和速度是核心競爭點。星塵數據的多重審核機制和智能標註功能可以維持公司這兩大競爭力;與以上競品相比,星塵數據的標註效率最高,標註速度可達400-600 3D Box/h。
星塵數據的CEO章磊畢業於浙江大學和喬治華盛頓大學,曾在美國世界銀行工作,開發的模型被聯邦儲蓄局作為行業標準。COO徐銘鍇曾擔任京東AI+商務戰略負責人。CTO熊梓陶曾在美國多家公司任職資深架構師顧問。主創團隊都有AI背景和甲方背景,了解數據標註行業技術痛點。