利用專業的數據對不同應用場景的設備智能化提供幫助,這是人工智慧時代背景下數據所能發揮的最大作用之一。
人工智慧產業中的數據服務環節日趨完善,有報導顯示,2019 年,我國人工智慧核心產業市場規模達到了105.5億美元,其中基礎服務市場規模約為21.1億美元,這其中很大一部分是數據服務。
整個市場在多年前就有了對數據服務的需求。隨著技術的發展,尤其是近年來我國在人工智慧和物聯網領域的發力,人機互動的場景變得越來越多,AI設備對數據類型的需求也更加豐富,圖像、語音、文本、視頻等數據類型都有著巨大的市場需求和訓練價值。也正是基於這樣的市場情況,昝智創辦了北京安捷智合科技有限公司(龍貓數據),並實現了轉型。
龍貓數據成立於2014年,是一家專業的AI數據服務公司。龍貓數據坐落於北京中關村科技園,在廣州、河北、上海等地設立分支機構,致力於為整個AI產業提供圖像、音頻、文本、視頻等領域的專業數據服務。創始人&CEO昝智畢業於中國人民大學,曾任豌豆莢商業產品負責人、百度商業產品經理,擁有十餘年網際網路產品設計、管理經驗。
2016年,跟隨著人工智慧的崛起和市場對底層數據的需求,昝智帶領龍貓數據實現了轉型。如今龍貓數據可以為人工智慧設備製造商及研發團隊提供定製化的數據採集、標註服務,還可以為客戶提供工具部署、BPO外包等個性化服務
人工智慧設備的多樣化帶來了人機互動功能的多樣化。以機器視覺為例,攝像頭及視覺算法的普及使得人體特徵變成了有效的操作信息,大量的人臉識別、五官識別、手勢動作識別、肢體關鍵點識別功能被開發出來,用以完成解鎖、認證、美化等任務。而實現這一切需要大量的訓練樣本。
語音領域也是如此,除了常見的普通話喚醒詞之外,應用場景的長尾效應使得AI設備廠商不得不盡力涵蓋所有可能出現的語音信息,這一點在語音指令環節尤為重要。
無論是智能音箱、家居、還是車載語音助手,由於使用者的不同,其接收的語音指令往往會出現方言、外語、口音區別,同樣一種目的也存在不同說法,如打開空調就有可能出現開空調、溫度調高/調低、太冷/熱了等近百種方式。
昝智告訴創業邦:「除了語音識別,近年來語音合成領域也出現了越來越多的數據需求,因為只有擁有足夠多的音頻數據,廠商才能推出風格多樣的合成語音產品。」
面對這樣的市場環境,龍貓數據在轉型之初就打造了「龍貓眾包」數據服務平臺,通過線上發布任務,建立規範化採集、標註、審核、質檢、驗收流程的方式完成數據的採集和標註工作。
昝智告訴創業邦:「眾包模式看起來簡單,但在數據採集、標註領域,雜亂無章的數據是不能為客戶所用的,因此我們需要制定詳細的採集、脫敏、標註、審核、質檢方案,通過完善的流程確保數據安全可用。」
以圖像標註為例,採集來的或者客戶給到的圖片首先需要進行脫敏,然後利用標註平臺集成的AI自動標註功能對數據進行機器預標註,之後由標註員完成數據的標註、多輪次審核質檢,數據最終流到驗收平臺由客戶進行驗收和下載,不合格數據則流回標註池重新標註。整個流程全程可視可控,保證了數據集的產出效率以及合格率。
在談到數據採集、標註需要大量的勞動力參與的問題時,昝智表示目前的人工智慧數據服務雖有各類算法加持進行自動標註,但行業並不能完全脫離人工作業。從本質上來說,AI數據就是從人類社會中提取出來的,人工作業是幫助機器學習人類行為的不可獲取的一環。但這並不代表AI數據服務是一個勞動密集型產業。
昝智告訴創業邦:「我們雖然需要大量的人工參與,但這些人絕不是僅憑經驗就能完成工作任務,他們需要被培訓、被管理、被賦予一定的專業性,且隨著行業發展其知識結構需要不斷更新,這樣才能生產出優質的數據,從這一點來說,我們和勞動密集型產業有著本質的區別。」
龍貓數據在數據採集員和標註員集體中創建了一定數量的公會,對全職、長期的工作人員建立了管理流程和管理細則。同時,利用機器算法,龍貓數據還可以有效分析出某個採集員、標註員適合什麼樣的任務,並在一定程度上做到任務的指定派發。
「龍貓眾包」平臺上的用戶累計已經超過400萬,其中長期核心用戶超過2萬名。龍貓數據目前擁有近百名在職員工,結合眾包平臺上的用戶,可以為客戶提供文本、語音、圖像、視頻等多種類型、場景下的數據集產品,以及定製化的數據採集、標註服務,並按照數據集使用時長和定製化項目進行收費,年營業額已經達到億級。
融資方面,龍貓數據在今年初獲得了數千萬元人民幣的Pre-B輪融資,由KIP中國領投,金沙江創投跟投。此前龍貓數據已獲得過金沙江創投、九合創投、不惑創投、真順基金、雲天使基金等知名投資機構的多輪融資。昝智表示,最近一輪的融資資金主要用在了技術研發和開拓市場等方面。
本文文章圖片來源於龍貓數據,經授權使用。本文為創業邦原創,未經授權不得轉載,否則創業邦將保留向其追究法律責任的權利。如需轉載或有任何疑問,請聯繫editor@cyzone.cn。