隨著數據眾包產業的不斷崛起,本文從數據眾包產業化中的不同板塊進行解析,為我們分享數據眾包產業化的行業發展以及發展特徵。
在網際網路有一種新的產業正在興起,那就是——數據眾包。要想深入了解什麼是數據眾包就要從它的客戶需求聊起:
人工智慧(Artificial Intelligence),它是研究、開發用於模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。AI是目前對數據需求量最大的客戶,並且都是大型公司,小企業由於各方面資源的限制很少會使用大數據進行研究。
不是,AI是計算機科學的一個分支,AI一詞最初是在1956 年Dartmouth學會上提出。從神經網絡到人機耦合,當前的AI研究更著眼於從人類產生的數據中分析算法來訓練計算機從事人的工作。
機器學習是AI的一個分支。機器學習使用算法解析數據,從中學習,然後對世界上的某件事情做出決定或預測。機器學習與軟體編程最大的區別是——機器學習是在教計算機如何開發一個算法來完成任務而不是編寫程序讓計算機執行任務。機器學習使用分類和回歸、聚類和降維、以及歷史經驗達到學習的目的。
目前做人工智慧的公司基本上選擇的都是Python語言。Python是一門解釋型程式語言,方便調試而且可以跨平臺。Python語言具有豐富的第三方程序庫,一些平臺會面向網際網路用戶提供機器學習的Python應用編程接口。Python也有豐富完整的開源工具包。機器學習中最常用的一些庫:Scikit-learn、Tensorflow、Theano、Pandas、Matplotlib、Seaborn。
大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有數據進行分析處理。
大數據的5V特點(IBM提出):
數據就像是機器學習的燃料,5V的程度越高機器學習的效果越好。
為了給機器學習提供充足的數據進行訓練和驗證,研究人員需要大量的原始數據和標準化數據。提供數據眾包服務的平臺也就應運而生。
目前BAT都有了自己的數據眾包服務平臺/服務:百度數據眾包平臺、阿里人工智慧眾包(公測)、騰訊數據標註採集服務。
其他比較知名的眾包平臺還有:螞蟻眾包、有道AI眾包(目前新用戶停止審核)、華為數據眾包、Testin雲測、來打標數據平臺。
百度數據眾包服務(圖片來自官網)
數據眾包服務分為個人分包和企業分包兩種。
個人分包
即服務商運營眾包平臺/app面向普通大眾分派任務,服務商提供便捷易學習的數據標註/拍攝/識別工具,對接包者進行培訓和訓練以達到可以提供標準數據服務的目的,接包者大多是兼職人群,可以提供簡單的操作獲取回報。
個人分包的好處是:價格便宜,服務商可以以低廉的價格獲取處理結果。
企業分包
即服務商將數據任務包分派給合作商,由合作商完成並提供返回符合要求的處理結果。目前阿里和騰訊基本採用這種眾包方式。
企業分包的好處是:易管理,服務商無需分派過多人手進行分包、驗收等工作。
專職分包商即接包的企業,他們與大數據服務商進行合作,接到任務後或自己組織人手處理數據、或運營平臺分配給其他個人或更小的專職分包商。
眾包平臺上的原始「發包方「基本為BAT以及幾個走在AI領域前沿的大型公司,所以第三方的眾包平臺對上遊的依賴嚴重,即失去「發包方」後難以再利用手中的資源創造新的市場。通過眾包形式來採集的數據質量參差不齊,即使眾包平臺對採集到的數據進行清洗、整理,仍然無法提高其與適用場景的契合度,這也制約了眾包數據毛利率上升空間。
大多數數據都以文字、音頻、視頻的形式保存,所以眾包平臺很難達到跨國經營。所以歐美國家一些成熟的數據眾包公司始終沒有進入中國市場,相比適應中文,他們更願意嘗試拉丁文語言市場。
而由於我國方言種類繁多,數據眾包是否具有嚴格的地域性標準還未可知,我們僅知道目前語音翻譯軟體公司對此有採集要求。
為了能夠擺脫「發包方」的絕對控制,眾包平臺只能研發新的服務項目。拓展新的服務對象就是延伸眾包數據市場的一個新手段。
協助政府監控
在過去的幾十年中,政府的數據來源都是自下而上的匯報,部分數據來自於調研。在這個長長的匯報鏈條中,如何避免利益相關者的幹擾,如何得到一手真是數據是一個大問題。數據眾包服務可以發送全民提供數據,即使有部分數據失真,也能保證大數據具有參考價值。
美國公司Premise Data通過上萬名兼職人員,以拍照等形式採集商品的價格。這些數據經過整理後被賣給政府部門用於監控市場上各類商品的價格變動。Premise Data在2017年的估值大約為3.75億美元。
盤活傳統企業數據
傳統企業在經營過程中會產生大量生產數據,這些數據可能就此沉默在檔案庫和電腦中。眾包數據服務給了這些數據盤活的機會。人工分類、人工標註是遠超程序的數據清洗手段,但由於其需要的人力資源巨大,一般企業難以承受。眾包平臺可以通過培訓、考核等方法將這一枯燥的工作包裝成兼職,以低價獲得高質量數據。
我們可以看出來目前數據眾包是一個大魚吃小魚,小魚吃蝦米的產業鏈。作為一項操作簡單,人人皆可參與的工作,數據眾包在未來可能會遍地開花,一人一臺電腦或者一部手機就可以開設一個數據小作坊。
在打字錄入逐漸被計算機替代的今天,數據標註、數據識別等需要人腦進行「無計算感官識別」的工作仍然無法被機器代替。這一新興的、面向「低端」勞務市場的領域目前還在藍海階段,在中國這樣的人口大國如果能設計出一條「數據處理流水線」,也許就能在這個人機耦合時代下打造一個面向全球的數據「富士康」代工廠。
無問西東,人人都是產品經理專欄作家。工商管理碩士,貓奴一枚。主導過金融公司臺帳系統、多公司OA系統;參與過二手車平臺、P2P平臺設計。
本文原創發布於人人都是產品經理。未經許可,禁止轉載
題圖來自 Unsplash ,基於 CC0 協議