AI星動向第期
在年輕人電腦前,圖文、音頻快速閃過。他們可能在為自動駕駛公司標註路上的紅綠燈和行人,也可能是在為無人售貨公司標註麵包巧克力,還可能是在為醫療肺部影像標註病毒數據。
這是雲測數據公司辦公室的日常一景。儘管阿爾法狗已經能在圍棋上戰勝人類,但主流AI 的「智商」,還不如一位6歲小孩聰明。於是標註員的工作,就像是「幼兒園老師」教會機器識別。
舉例來說,想要教會機器識別「蘋果」,在人看來很簡單的一件事,但在機器看來,蘋果的顏色、大小、甚至被咬掉了一口的蘋果,都需要大量且精準的「蘋果」AI數據進行訓練,直到「教會」機器人能識別各種不同的蘋果。
如果標註的不夠精準,就會導致後期機器學習時候出現差錯。前不久,雲測數據宣布,其數據最高交付質量精確度達到99.99%。
與外界認為的數據標註是一項勞動密集型產業,在雲測數據總經理賈宇航看來,數據標註已經逐步走上技術密集型。
◎教AI認識世界
數據激增催生百億標註產業
人工智慧的三駕馬車是數據、算力、算法,其中數據是人工智慧行業的發展基石,也是驅動AI向前快速飛奔的「燃料」。
海量的數據需要進行加工、提煉,於是採集標註需求湧向市場。據艾瑞諮詢《2020年中國人工智慧基礎數據服務白皮書》預測:到2025年,AI基礎數據服務市場規模將突破100億元。
「在5G時代,數據不再是以線性增長來衡量,有人測算過,近兩年的生產量是歷史數據依賴度90%。這麼龐大的數據,從採集、清洗到標註,都需要在短時間內高質量完成。」賈宇航說,數據標註得越準確,數量越多,模型效果越好,最後的AI產品效果就越好。
伴隨著業務的擴張,雲測數據已經與數百家企業提供AI數據服務,在華東、華北、華南設有數據交付中心和數據採集基地,為智能駕駛,智慧城市,智能家居,智慧金融等領域提供數據採集和數據標註服務。
數據標註有外包、眾包和自建幾種方式,在賈宇航看來,隨著產品量產加速、算法模型日趨成熟,人工智慧更重視的是技術迭代,專人專用,發揮自己的長處。
◎有場景理解
從標註到給出預測乃至建議
當下,AI數據呈現越來越複雜的特性。AI產品落地場景的複雜性導致數據場景需求的多元化,如光線強度、拍攝角度、噪聲要求、室內室外等;同類數據也表現出樣本多樣性,僅就聲音的數據,可能就包括年齡、性別、口音等差別。此外,針對同一應用目標的數據多維化,例如智能駕駛就可能同時需要攝像頭、雷射雷達、超聲波雷達等不同傳感器產生的數據。
顯然,AI發展初期那種直接應用或者購買成品「數據集」的做法行不通,數據標註質量的差異,成為不同AI細分領域行業的短板。
賈宇航認為,通過提升場景化數據採集的能力,幫助客戶還原落地場景所需要的AI數據,從源頭保證AI數據的質量,才能更好的應用於AI產業化的深度落地。
以機器人聽懂人說話的這一需求為例,NLP數據具複雜性,除了對意圖、領域、槽位等進行判斷和標註,多角度的泛化也必不可少,在這一過程中需要數據標註公司就需要對需求進行拆解、預判甚至提前給出建議,這對AI數據服務商的專業性提出了很大挑戰。
「伴隨著AI產品逐漸從感知智能上升到認知智能層面,已有的物體識別,人物識別,行為識別,其背後的目的,不只是為了識別,而是基於特定規則進行處理或統計。」賈宇航說,雲測數據具備針對人工智慧應用中的特定場景規則的解析能力,完成對特定規則範本的知識圖譜搭建,配合感知智能的數據處理能力,進而為產業賦能。
◎不只是靠人力
高學歷才能應對專業知識
在很多人看來,數據標註更像是一種重複性工作,而在雲測數據看來,數據標註涉及的領域包括教育、安防、金融、交通醫療和電商等等,每天都在挑戰學習能力,以更深入了解自己標註的內容可以應用到的行業。
「很明顯,一個熟練的司機對駕駛場景的理解,就好過一個沒有駕照的人。」賈宇航說,在自動駕駛領域,存在一個長尾效應。可能AI模型已經覆蓋了90%的的場景,但剩下的10%的長尾場景需花費更多的精力去覆蓋,才能應對突發情況,比如一個人穿著cosplay的服裝在路上,TA也應該被算法識別為人。
圍繞智能駕駛,要知道的情況遠不止這些,比如標註員還要知道什麼品牌、三廂還是兩廂車,等等,通過比對發現,有駕駛經驗的標註員顯然比沒有駕照的精度要高很多。而在醫學領域,也只有專業的醫生才能看懂CT。
賈宇航說,每一個行業都需要結合所對應的場景,對知識有足夠的積累,才能完成標準的工作。隨著人工智慧從學術走向產品落地,數據標註已經從勞動密集型變成技術密集型,更需要有專業知識的加持。
「有時候開玩笑說,任何成年人去賣保險都沒有問題。但他們對保險行業知識的理解、知識圖譜的構建,並沒有那麼深刻理解。再比如,一些醫療領域,甚至需要專科人才、研究生,才能真正懂AI數據背後的實際意義。標註員現在標註數據,未來可能向數據治理、數據解決方案設計等方向發展,或者走向管理崗位。」
在賈宇航看來,數據標註產業正在向兩個方向發展,一是隨著人工智慧從學術走向產業落地,對數據的精度需求也越來越高,質量也越來越嚴格;二是對場景的理解越來越高,早期數據標註是由計算機科學家來引領,但隨著產業落地,也需要產業人士的一定參與。
【記者】郜小平
【策劃】陳韓輝、程鵬
【出品】南方產業智庫
【作者】 郜小平
南方產業智庫