數據標註行業裡有著這樣的一段話:「有多少智能,就有多少人工」。
這句話在某種程度上道出了人工智慧的本質。
事實上,現階段提升AI認知世界能力的最有效途徑仍然是監督學習,而監督學習下的深度學習算法訓練十分依賴於數據標註員進行標註數據。可以說,如果數據標註是人工智慧行業的基石,那麼數據標註員就是數據標註行業的基石。
2020年2月,數據標註員被正式定義為「人工智慧訓練師」並納入國家職業分類目錄。
人工智慧訓練師新職業隸屬於軟體和信息技術服務人員小類,主要工作任務包括:標註和加工原始數據、分析提煉專業領域特徵,訓練和評測人工智慧產品相關的算法、功能和性能,設計交互流程和應用解決方案,監控分析管理產品應用數據、調整優化參數配置等。
根據國家人力資源和社會保障部相關預測顯示,隨著人工智慧在智能製造、智能交通、智慧城市、智能醫療、智能農業、智能物流、智能金融及其他各行各業的廣泛應用,人工智慧訓練師的規模將迎來爆發式增長。預計到2022年,相關從業人員有望達到500萬。

不過,儘管數據標註員規模處於急速擴張中,但是與市場需求相比,缺口依然很大。
據艾瑞諮詢相關統計數據顯示,當下一個新研發的計算機視覺算法需要上萬張到數十萬張不等的標註圖片訓練,新功能的開發需要近萬張圖片訓練,而定期優化算法也有上千張圖片的需求,一個用於智慧城市的算法應用,每年都有數十萬張圖片的穩定需求。
語音方面,頭部公司累計應用的標註數據集已達百萬小時以上,每年需求仍以20%-30%的增速上升,不僅如此,隨著IoT設備的普及,語音交互場景越來越豐富,每年都有更多的新增場景和新需求方出現,對於標註數據的需求也在逐步增長。
這些海量的數據幾乎全部依賴數據標註員手工進行標註,數據標註員的數量缺口十分可觀。
此外,隨著AI商業化落地進程的加快,AI企業對於數據標註服務供應商也提出了新的要求,高質量、精細化、定製化的數據集越來越受到需求方的青睞,這意味著對數據標註員的專業素質能力提出了更高的要求。
可以說,當前人工智慧行業的主要矛盾是,快速增長的標註業務需求與滯後的專業數據標註員供給之間的矛盾。
如何解決該問題就成為擺在諸多數據標註企業面前的現實問題。「眾包模式」是解決標註員數量短缺問題的有效途徑之一,這也是目前諸多數據標註服務企業所採用的模式之一。
然而,這種兼職的模式下,臨時標註員的專業素質能力無法得到有效保證,服從管理的意識也較為淡薄,直接後果就是交付數據集的質量無法滿足項目方的需求。
這樣的背景下,越來越多的企業意識到,只有通過自建標註團隊,並輔以專業的培訓,才能同步解決數據標註員在數量與質量上存在的問題,為項目方提供高質量的標註服務。
以曼孚科技為例,通過自建標註團隊,實現對數據標註員的統一管理與培訓,並建立行業級的培訓與職業評價標準,可以顯著提高項目的執行度,為需求方提供高質量的標註數據集。
未來,隨著AI應用場景逐漸多領域化,在數據標註行業內部,從業者也必將隨著AI行業而一同進入細分市場追逐階段,可謂機遇與挑戰並存,夢想與發展同在。