2019年《中國人工智慧基礎數據服務行業白皮書》顯示,2018年中國人工智慧基礎數據服務市場規模達到25.86億元,預計到2025年市場規模或將突破113億元。人工智慧基礎數據服務市場呈現出巨大發展潛力。但伴隨著需求的不斷膨脹,基礎數據服務商在迎來機會的同時,也面臨新的挑戰——如何有效提升數據標註的產能。
面對良好的市場預期,基礎數據服務供應商為提升產能紛紛做出積極嘗試,2019年11月倍賽BasicFinder第二代雲基礎設施——全類型SaaS數據標註工具集上線,在基礎數據服務領域探索出一條以工具賦能為核心的提升產能之路。或許創新工具的使用將為基礎數據服務商打開新局面。
泛用性是標註工具平臺的基本能力
自始以來,算法、算力和數據就被認定為拉動人工智慧發展的馬車,而數據則是馬車前進中不可缺少的輪子。由於算法和算力水平的不斷提升,以往市場上流行的標註工具已經無法適應AI數據從簡易到複雜的趨勢變化,因此,標註工具平臺的泛用性成為實現精準、高效標註的基本要素。
由於基礎數據服務商從事的標註業務具有普遍多樣性,單獨工具無法滿足業務需求。倍賽BasicFinder CEO 杜霖認為:作為SaaS標註工具,最基本的要求就是能對圖像、文本、語音、視頻以及點雲數據做到一站式加工處理,沒有完善的工具集,人機協作和提升產能將成為空談。這也是為什麼倍賽BasicFinder在SaaS平臺上投入精力,設計出含2D框、分詞標註、視頻追蹤、語音標註及點雲標註工具等18款套件的原因,目的就是讓平臺使用者不必因更換項目而頻繁切換工具平臺。
產能提升,工具效益非人力可替代
人工智慧在現實應用中多採用有監督學習模式,基於大量標註數據的模型訓練能夠幫助算法有效降低錯誤率。雖然現在AI科學家們在探索通過小樣本數據以達到訓練目的,但就目前的應用成果看,無監督學習或弱監督學習仍然不能取代有監督學習,這就使得在可預見的未來,市場對AI標註數據的需求將呈指數化持續增長,據IDC 統計,全球每年生產的數據量在2025年或將達到163ZB。緊張的產能需求迫使AI科技公司和基礎數據服務商對數據生產手段做出積極地調整。其中部分企業通過增加人力的方式擴充產能,但隨著人力不斷擴充,邊際收益逐漸遞減,趨於0值。雖然個別企業希望培訓機制可以進一步增加人效,卻收效甚微。在企業的調整實踐經驗下,不難發現與增加人力相比,提升標註工具平臺在人機協同方向的創新,或許是提升產能更「靠譜」的方式。
管理屬性和靈活性成為SaaS標註工具的優勢
在工具平臺的選擇方面,也有部分AI科技企業和基礎數據服務商通過改寫開源工具以獲得標註能力,但往往改寫工具僅能滿足當前最急迫的標註需求,長期卻無法適應項目更替,原因在於每次標註需求的變動,都需要技術人員進行再次改寫,開發時間周期和技術人力損耗在成本上加重了企業負擔。在成本考量之外,開源工具在管理屬性和靈活性層面也相對薄弱,而對於一款相對成熟的SaaS標註工具平臺來說,「標」是平臺基礎;「管」是平臺的靈魂;「活」則是工具的延伸。
以倍賽BasicFinder SaaS標註平臺為例,其內部系統嵌入工作流模塊。具體工作流為:任務發布、執行標註、結果審核、數據質檢。平臺通過每個環節的作業銜接,構建起流程管理系統,與單純的標註工具相比,任務在SaaS平臺中可以獲得更快的流轉速度。同時由於工序之間採用封閉節點構造,執行標註和審核工序的操作員無法對數據進行下載和傳輸,又進一步保證了數據的安全性。除流程管理外,該工具平臺還具有績效管理功能,尤其是AI企業或基礎數據服務商的管理層用戶,可以通過可視化面板了解項目的進度以及團隊下每個標註員的工作效率和完成任務的準確度。績效管理功能的加入,減少了項目經理因過度參與作業環節中的管理工作而耗費精力。之前一個項目經理能同時管理3個項目,在SaaS標註平臺的使用下可拓展管理10個,甚至更多的項目。
在工具的靈活性方面,倍賽BasicFinder SaaS標註平臺將標註標籤、標註工具、標註特質項等功能設計成可自由拖拽的模板配置形式,以指定標註範疇,規範標註員的標籤和工具使用,減少不必要的標註錯誤出現。除可自由配置模板,SaaS標註平臺也為有能力開發預標模型的AI科技公司或數據服務商提供加速工具接口。在執行大規模的標註項目時,平臺使用者可以通過接入預標模型,對大批數據進行預處理,而後人工進行補標,以增加操作員單位時間的作業頻次,提高產能輸出。
開放數據標註能力,普惠AI基礎行業
作為基礎操作層面,標註工具能力的全面性將對數據加工者起到至關重要的作用。如倍賽BasicFinder曾為招商銀行部署數據標註工具平臺私有化系統,通過獨立系統的配置,同時解決了招行關於標註工具、工序管理和數據安全三個方面的難題,一舉幫助其建立起可以獨立展開數據標註作業的能力。
在AI基礎數據服務市場的激烈競爭下,數據的標記質量和項目的執行速率成為數據服務商獲得競爭優勢的關鍵。由於數據標註工具私有化部署成本相對較高,倍賽BasicFinder將其 SaaS 化,大大降低了工具的使用成本,普惠中小型AI科技公司和基礎數據服務供應商,賦能AI基礎行業。