人機耦合時代下的數據眾包產業化

2020-12-22 人人都是產品經理

隨著數據眾包產業的不斷崛起，本文從數據眾包產業化中的不同板塊進行解析，為我們分享數據眾包產業化的行業發展以及發展特徵。

在網際網路有一種新的產業正在興起，那就是——數據眾包。要想深入了解什麼是數據眾包就要從它的客戶需求聊起：

「數據眾包」的金主爸爸：產業上遊AI

人工智慧（Artificial Intelligence），它是研究、開發用於模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。AI是目前對數據需求量最大的客戶，並且都是大型公司，小企業由於各方面資源的限制很少會使用大數據進行研究。

AI是一個新領域麼？

不是，AI是計算機科學的一個分支，AI一詞最初是在1956 年Dartmouth學會上提出。從神經網絡到人機耦合，當前的AI研究更著眼於從人類產生的數據中分析算法來訓練計算機從事人的工作。

AI現在能做什麼？

解放工業生產力：應用於工業領域，例如：使用AI處理工業數據或機器人操作。
人臉識別與監控：應用於國防安保、金融加密等。
服務行業：智能語音（聊天）機器人替代人類從事24小時客服工作、電話銷售、家庭陪伴等。
其他：在汽車、醫療、設計、廣告、影視等領域輔助人類進行工作。

「數據眾包」的甲方大佬：機器學習

機器學習是AI的一個分支。機器學習使用算法解析數據，從中學習，然後對世界上的某件事情做出決定或預測。機器學習與軟體編程最大的區別是——機器學習是在教計算機如何開發一個算法來完成任務而不是編寫程序讓計算機執行任務。機器學習使用分類和回歸、聚類和降維、以及歷史經驗達到學習的目的。

Python

目前做人工智慧的公司基本上選擇的都是Python語言。Python是一門解釋型程式語言，方便調試而且可以跨平臺。Python語言具有豐富的第三方程序庫，一些平臺會面向網際網路用戶提供機器學習的Python應用編程接口。Python也有豐富完整的開源工具包。機器學習中最常用的一些庫：Scikit-learn、Tensorflow、Theano、Pandas、Matplotlib、Seaborn。

大數據

大數據指不用隨機分析法（抽樣調查）這樣的捷徑，而採用所有數據進行分析處理。

大數據的5V特點（IBM提出）：

Volume（大量）
Velocity（高速）
Variety（多樣）
Value（低價值密度）
Veracity（真實性）

數據就像是機器學習的燃料，5V的程度越高機器學習的效果越好。

數據服務產業化——產業下遊眾包模式

為了給機器學習提供充足的數據進行訓練和驗證，研究人員需要大量的原始數據和標準化數據。提供數據眾包服務的平臺也就應運而生。

目前BAT都有了自己的數據眾包服務平臺/服務：百度數據眾包平臺、阿里人工智慧眾包（公測）、騰訊數據標註採集服務。

其他比較知名的眾包平臺還有：螞蟻眾包、有道AI眾包（目前新用戶停止審核）、華為數據眾包、Testin雲測、來打標數據平臺。

百度數據眾包服務（圖片來自官網）

數據眾包服務的形式

數據眾包服務分為個人分包和企業分包兩種。

個人分包

即服務商運營眾包平臺/app面向普通大眾分派任務，服務商提供便捷易學習的數據標註/拍攝/識別工具，對接包者進行培訓和訓練以達到可以提供標準數據服務的目的，接包者大多是兼職人群，可以提供簡單的操作獲取回報。

個人分包的好處是：價格便宜，服務商可以以低廉的價格獲取處理結果。

企業分包

即服務商將數據任務包分派給合作商，由合作商完成並提供返回符合要求的處理結果。目前阿里和騰訊基本採用這種眾包方式。

企業分包的好處是：易管理，服務商無需分派過多人手進行分包、驗收等工作。

專職分包商即接包的企業，他們與大數據服務商進行合作，接到任務後或自己組織人手處理數據、或運營平臺分配給其他個人或更小的專職分包商。

眾包平臺對上遊的依賴

眾包平臺上的原始「發包方「基本為BAT以及幾個走在AI領域前沿的大型公司，所以第三方的眾包平臺對上遊的依賴嚴重，即失去「發包方」後難以再利用手中的資源創造新的市場。通過眾包形式來採集的數據質量參差不齊，即使眾包平臺對採集到的數據進行清洗、整理，仍然無法提高其與適用場景的契合度，這也制約了眾包數據毛利率上升空間。

眾包平臺對地域的要求

大多數數據都以文字、音頻、視頻的形式保存，所以眾包平臺很難達到跨國經營。所以歐美國家一些成熟的數據眾包公司始終沒有進入中國市場，相比適應中文，他們更願意嘗試拉丁文語言市場。

而由於我國方言種類繁多，數據眾包是否具有嚴格的地域性標準還未可知，我們僅知道目前語音翻譯軟體公司對此有採集要求。

眾包平臺自拓市場

為了能夠擺脫「發包方」的絕對控制，眾包平臺只能研發新的服務項目。拓展新的服務對象就是延伸眾包數據市場的一個新手段。

協助政府監控

在過去的幾十年中，政府的數據來源都是自下而上的匯報，部分數據來自於調研。在這個長長的匯報鏈條中，如何避免利益相關者的幹擾，如何得到一手真是數據是一個大問題。數據眾包服務可以發送全民提供數據，即使有部分數據失真，也能保證大數據具有參考價值。

美國公司Premise Data通過上萬名兼職人員，以拍照等形式採集商品的價格。這些數據經過整理後被賣給政府部門用於監控市場上各類商品的價格變動。Premise Data在2017年的估值大約為3.75億美元。

盤活傳統企業數據

傳統企業在經營過程中會產生大量生產數據，這些數據可能就此沉默在檔案庫和電腦中。眾包數據服務給了這些數據盤活的機會。人工分類、人工標註是遠超程序的數據清洗手段，但由於其需要的人力資源巨大，一般企業難以承受。眾包平臺可以通過培訓、考核等方法將這一枯燥的工作包裝成兼職，以低價獲得高質量數據。

各大眾包平臺/產品

我們可以看出來目前數據眾包是一個大魚吃小魚，小魚吃蝦米的產業鏈。作為一項操作簡單，人人皆可參與的工作，數據眾包在未來可能會遍地開花，一人一臺電腦或者一部手機就可以開設一個數據小作坊。

在打字錄入逐漸被計算機替代的今天，數據標註、數據識別等需要人腦進行「無計算感官識別」的工作仍然無法被機器代替。這一新興的、面向「低端」勞務市場的領域目前還在藍海階段，在中國這樣的人口大國如果能設計出一條「數據處理流水線」，也許就能在這個人機耦合時代下打造一個面向全球的數據「富士康」代工廠。

#專欄作家#

無問西東，人人都是產品經理專欄作家。工商管理碩士，貓奴一枚。主導過金融公司臺帳系統、多公司OA系統；參與過二手車平臺、P2P平臺設計。

本文原創發布於人人都是產品經理。未經許可，禁止轉載

題圖來自 Unsplash ，基於 CC0 協議

相關焦點

催米科技人機耦合之魔力變聲

隨著AI 語音在各應用領域的不斷滲透和拓展，智能營銷、智能客服等場景中的大量機械重複的呼出工作完成了更新迭代，而對於非標場景下的AI機器人交互，仍需要人工輔助加持，才能更好的完成外呼工作的降本增效，人機耦合技術在這樣的背景下應運而生。
劉慶峰:AI翻譯已達英語六級未來是人機耦合時代

聚焦AI，讀懂下一個大時代！【網易智能訊 5月16日消息】今天，國家發改委、科技部、工信部、國家網信辦、中科院、工程院、中國科協和天津市政府共同主辦的第二屆世界智能大會於5月16日至18日在天津舉行。本屆大會以「智能時代：新進展、新趨勢、新舉措」為主題。
...者節】劉慶峰再談人機耦合,胡鬱發布1024計劃+AI Enable生態產品

「萬物互聯」和「數據驅動」兩大趨勢，並一再強調了人機耦合在語音技術中的重要性。科大訊飛董事長劉慶峰：AI是大勢所趨，人機耦合仍是關鍵在此過程中，隨著中國5G建設即將大規模到來，更將大力推動萬物互聯時代的發展，將會比手機為代表的移動網際網路時代的終端數呈現十倍以上的增長。而在這個領域，人們對更自然的人機互動也會提出更高的要求。隨著人工智慧時代的蓬勃發展，基於數據驅動技術進步的應用發展成為社會非常重要的方式。數據驅動要求我們在數據匯聚的同時，進一步對用戶的隱私保護提出了越來越高的要求，全世界範圍內都在高度關注。
人機耦合究竟指啥?對翻譯學子而言,引入AI是否「引狼入室」?

過去一段時間，這家與上海有著緊密聯繫的人工智慧企業一次次因語音識別技術贏得榮譽和掌聲，也曾因為「人機耦合」而陷入風波。在1024開發者節上，科大訊飛董事長劉慶峰表示：目前機器翻譯已經達到了大學英語六級水平，加上新推出的首款轉寫機器人，讓「人機耦合」這個概念再度進入公眾視野。
任務眾包是什麼意思?草根時代帶你了解!

所謂眾包，是把過去由專職員工執行的工作任務，以自由自願的形式外包給非特定的大眾網絡的做法。現在眾包模式日趨成熟，而且藉助移動網際網路的迅猛發展，眾包模式的發展勢頭也更不可擋，很多行業對眾包模式的應用範圍越來越廣。
2019年百度智能雲數據眾包業務年增長率超50%

在百度智能雲舉辦線上Techday技術分享日上，百度智能雲方面透露，百度智能雲數據眾包業務2019年業務年度增長率超50%，正在為各行各業智能化轉型提供動能，促進智能經濟發展。同時，百度智能雲數據眾包預計5年內為山西提供超過5萬個就業崗位，支持後疫情時代「保就業」。
隨手賺APP創新布局網際網路+移動眾包大數據商業模式

「大數據時代最缺的是數據，我們要做的是全國甚至全球最專業的數據眾包APP。」接受深圳電視臺高端訪談欄目記者採訪時，華傲數據CEO賈西貝這樣說道。隨著資訊時代向數位化智能時代的迭代，數據能為我們提供更加精確的決策和廣泛商機，數據的作用毋庸置疑。
專注優質數據服務,百度數據眾包榮膺「中國數據質量管理」兩項大獎

近日，百度智能雲數據眾包在「DQMIS2020第二屆中國數據質量管理獎項」（以下簡稱「獎項」）評選活動中，以高水準的數據質量管理水平，斬獲「2020數據質量卓越實踐獎」及「2020數據質量優秀產品獎」。
科大訊飛:這叫人機耦合

科大訊飛回應：我沒有，我不是，別瞎說啊今天下午，科大訊飛對「同傳造假」一事作出回應，強調自己從來沒提過「AI 同傳」的概念，並提出了一個新詞：「人機耦合」，說這才是未來的發展之道，當天的會議也是這麼做的。
「眾包」時代來了

去年被牛津英語詞典收錄的網絡詞彙除了「粉絲」、「關注」等與社交媒體緊密相關的表達以外，引領新型運營模式的「眾包」（crowdsourcing）一詞也被收錄其中。今天我們就來詳細介紹一下這個詞。這個概念在一些特定場合下也適用於crowdsourcing（眾包），不過二者本質的區別在於，外包一般是由某個指定的、之前已經熟識的人或者組織（通常是某個領域的專家）來完成，而眾包則是將某個任務或問題拋給未知的大眾——可以是張三、李四，或任何一個可能貢獻答案或解決方法的人。
眾包物流狼煙滾滾!美國亞馬、「京東眾包」、「達達」來勢洶洶!

京東O2O子公司「京東到家」總裁王志軍曾對36氪表示，其實我們兩年前就開始考慮並測試眾包的事了。所以現在做「京東眾包」已經有了一定壁壘。京東眾包於5月初上線，據稱兩周就有了百名眾包配送員（體驗有待驗證）。從當初的「Android機獨享」已進化成「iOS也可以」。另外，京東到家配送員的著裝也統一換上了「紅配綠」。
開盤跌逾6%,27萬股東失血40億,科大訊飛靠「人機耦合」還能留住...

該翻譯員負責9月20日上海某國際會議的同傳翻譯，他認為科大訊飛用人類翻譯「冒充」AI，而科大訊飛事後回應稱，他們用的是「人機耦合」而非AI同傳。人機耦合才是未來？9月20日，「2018創新與新興產業發展國際會議」在上海召開。負責會議同傳翻譯的王姓同傳譯員會後在網上爆料稱，會場部署的科大訊飛系統並未翻譯發言內容，而是語音識別了人工翻譯員的同傳結果，再轉錄在會議屏幕上。
蔡自興:人工智慧產業化浪潮席捲全球

此次專題論壇上，中國人工智慧學會副理事長蔡自興教授指出，以「工業4.0」、「中國製造2025」和「新一代人工智慧發展規劃」為代表，阿爾法狗西洋棋人機大戰事件和深度學習神經網絡算法為主要技術的新時代人工智慧產業化浪潮已席捲全球，必將產生不可估量的影響。
智能經濟時代人機互動三大趨勢

隨著移動網際網路紅利消失殆盡，人工智慧被公認為移動網際網路之後最大的機會，準確把握人工智慧時代的產業走向，對企業在下一個十年的發展尤為重要。　　演講中，沈抖提出智能人機互動將有三個趨勢：未來智能終端將會指數級增長；人和終端的交互將會多模態，語音、圖像交互將會成為主流；信息和服務將會場景化。　　人工智慧正在催生越來越多樣化的智能終端。
眾包兼職平臺有哪些?五大眾包平臺

眾包平臺，是世界著名科技雜誌《連線》（Wired）2006年發明的一個專業術語，用來描述一種新的商業模式，即企業利用網際網路來將工作分配出去、發現創意或解決技術問題。那麼，眾包平臺有哪些？五大眾包平臺，如下。
讓網際網路眾包流行起來

網際網路眾包平臺同其他的眾包平臺不一樣的是，網際網路眾包平臺涉及企業加個人，甲乙平臺三方，外包公司和個人開發者都能在平臺接項目。其實網際網路眾包平臺的模式已經逐步的出現了轉型，在早些年眾包平臺處於項目撮合交易階段，甲方有溢出的需求在平臺上面發布然後乙方去平臺投標項目這樣的流程。如今的網際網路眾包平臺不單單只存在於項目撮合，目前靈活用工方面在網際網路眾包平臺中需求日漸凸顯。
新形勢下的能源耦合發展構想

新形勢下的能源耦合發展構想中國能建規劃設計集團西北院黨委書記、董事長胡明根據中國電力企業聯合會和國家統計局的統計數據，我國2019年發電總裝機容量為201066萬千瓦，發電總量為71422.1億千瓦時，全年耗煤22.9億噸，火電、水電、核電、風電、太陽能五種發電形式裝機容量佔比分別為59.3%、17.7%、2.4%、10.4%和10.2%，發電量佔比分別為72%、16%、5%、5%和2%。
科研社交網絡與眾包平臺研究報告

高質量的碰撞和爭鳴、溝通與協作可能產生美麗的火花，甚至跨時代的發現與發明。歷史發展到今天，這種碰撞和爭鳴、溝通與協作已經上升到一個全新的階段。除了線下的各種訪問學者計劃、學術研討會、聯合攻關項目，在線社交網絡與眾包平臺也在扮演越來越重要的作用。
劉慶峰:時代需要源頭技術創新,而不是在別人的院子裡建大樓

隨著人工智慧時代的技術進步和人類對未來技術需求的不斷提升，企業需要滿足人們越來越多的個性化需求，讓每一個領域的人都能夠站在人工智慧的肩膀之上。1024是2的十次方，1GB = 1024MB，1MB = 1024KB……10月24日是程式設計師們約定俗成的節日。科大訊飛選在這一天舉辦第二屆開發者節。
AI驅動的眾包普查Trax助力零售企業智能決策

古有揭皇榜，今有平臺懸賞做任務，時代不同，但解決方案相同，都是依靠草根人民的力量與智慧。隨著以人工智慧、大數據為代表的「新基建」滲透至社會的各個方面，眾包普查也成為一種助力零售企業智能決策的關鍵方式。眾包模式在如今共享經濟下已成為廣域範圍內低成本快速有效獲取真相的首選。Trax為零售業提供的眾包普查服務適應市場趨勢，基於不同類別城市、多品牌、多品類的情況可以做到覆蓋廣、效率高、成本低、靈活性強，僅需3~5天即可多城市同步上線，為競爭激勵的零售企業量身打造。

人機耦合時代下的數據眾包產業化

「數據眾包」的金主爸爸：產業上遊AI

AI是一個新領域麼？

AI現在能做什麼？

「數據眾包」的甲方大佬：機器學習

Python

大數據

數據服務產業化——產業下遊眾包模式

數據眾包服務的形式

眾包平臺對上遊的依賴

眾包平臺對地域的要求

眾包平臺自拓市場

各大眾包平臺/產品

#專欄作家#

相關焦點

催米科技人機耦合之魔力變聲

劉慶峰:AI翻譯已達英語六級 未來是人機耦合時代

...者節】劉慶峰再談人機耦合,胡鬱發布1024計劃+AI Enable生態產品

人機耦合究竟指啥?對翻譯學子而言,引入AI是否「引狼入室」?

任務眾包是什麼意思?草根時代帶你了解!

2019年百度智能雲數據眾包業務年增長率超50%

隨手賺APP創新布局網際網路+移動眾包大數據商業模式

專注優質數據服務,百度數據眾包榮膺「中國數據質量管理」兩項大獎

科大訊飛:這叫人機耦合

「眾包」時代來了

眾包物流狼煙滾滾!美國亞馬、「京東眾包」、「達達」來勢洶洶!

開盤跌逾6%,27萬股東失血40億,科大訊飛靠「人機耦合」還能留住...

蔡自興:人工智慧產業化浪潮席捲全球

智能經濟時代人機互動三大趨勢

眾包兼職平臺有哪些?五大眾包平臺

讓網際網路眾包流行起來

新形勢下的能源耦合發展構想

科研社交網絡與眾包平臺研究報告

劉慶峰:時代需要源頭技術創新,而不是在別人的院子裡建大樓

AI驅動的眾包普查Trax助力零售企業智能決策

劉慶峰:AI翻譯已達英語六級未來是人機耦合時代