承載快速增長的數據需求,百度數據眾包謀定AI新基建時代

2021-01-10 騰訊網

文/智能相對論(aixdlun)

作者/葉遠風

AI成了新基建的C位,不論是原本就以AI立身的百度,還是紛紛在技術上加大投入以擁抱新基建的阿里、騰訊等巨頭,最近都顯出強化AI地位的態勢。

在AI新基建浪潮下,其背後的動力和「靈魂」——AI數據行業正在快速增長。按照艾瑞諮詢《2019年中國人工智慧基礎數據服務行業研究報告》,預計2025年市場規模將突破113億元,其中,原本就在AI技術和應用上領先的企業在數據業務上也更為積極。

有人曾稱5G是「新基建」的「基建」,是很多新基建項目的前置技術。事實上,以數據眾包為代表的AI數據行業,也可以看作AI新基建的「基建」型業務,為各行各業智能化轉型提供動能,加速智能經濟到來。反過來,當AI新基建蓬勃興起時,它背後的數據眾包產業也面臨急速膨脹的市場,這是一片門檻不算高的藍海,但並非人人都能做得好。

多重因素推動AI數據需求進一步增長

AI從行業架構上分為基礎層、技術層、平臺層以及應用層。無論是算力、算法、數據都只是在基礎層,海量的數據獲取和加工是AI發展的基石。

我們通常看到的那些AI智能化應用,在後端首先都需要足夠多、足夠好的數據對計算機進行訓練。

推動基礎層AI數據需求進一步增長,肯定來自於更上層的「倒逼」。總體看來,新基建的大背景下,整體AI行業的高速發展驅動了AI數據需求的增長「提速」,而具體來看,又有三重因素:

1、AI應用落地時對數據的強依賴

以人臉識別為例,一般的FaceID已經為人所熟知,其原理,是通過大量數據訓練,讓算法可以精準為整張臉標記特徵,眼睛、鼻子、嘴、顴骨……從而識別不同的人物、確定身份(圖片來源:網絡):

但是,實際應用落地要想適用面更廣,又會有新的麻煩。

例如,疫情期間戴上了口罩,就沒辦法為鼻子以下的部位做特徵標記進行比對。這時候,AI數據的價值就體現出來了,更複雜、更大量的數據訓練,讓系統在鼻子以上部位能標記出更多、更細緻的特徵,半邊臉就能完全區別出一個人來,甚至有科技公司開發出憑藉眼部複雜特徵的識別方式。

只有更高質量、更具有豐富度的數據,訓練出更細緻的特徵標註能力,系統識別的能力才會越強。在人臉識別之外,很多AI落地應用也有類似的邏輯。

2、AI應用場景深耕,垂直領域變為數據競逐

在AI走得更快、更遠的一些場景,數據的價值更為明顯。

例如,在自動駕駛領域,決定自動駕駛平穩性和安全性的,是系統對路況各種要素的識別,而它們都依賴於前期大量數據訓練,給機器標註各要素、教會它識別。

標註得越精細,機器的理解能力就會越強,發生意外的可能性就越低,就像學生學習知識一樣,「不知道」的東西越來越少(圖片來源:網絡)。

國內處在自動駕駛領先位置的百度,首先領先的就是數據,其ApolloScape數據集比Cityscapes、Kitty等同類的自動駕駛數據集大10倍以上,涵蓋更複雜的環境、天氣和交通狀況。

可以說,在那些深耕的場景裡,AI的競逐首先甚至主要就是數據的競逐,AI新基建的深度落地,離不開對數據的索求。

3、「AI國情」側重於數據發展

與多數人想像不同的是,同為AI基礎層,看起來十分高深的算法,其門檻已經不算高,公開渠道上,論文、開源深度學習框架、各種各樣AutoML框架算法,可供獲取的很多。

除了百度這樣的AI巨頭還需要在算法上做一些突破和引領,對多數AI參與者來說,算法已經不是遙不可及。

而正如原南開大學校長龔克所言,中國在核心算法上的優勢不算明顯,但中國的數據和應用場景可以領先世界。

這方面,AI數據需要的應用採集源(例如人相、交通道路圖像等)、勞動力人口、需求市場,中國原本也十分有優勢。在這樣的「AI國情」下,AI新基建除了保證自有算法能力不被卡脖子,在已有大量落地場景的優勢下,大力發展AI數據就順利成章。

三大痛點,自建團隊已並非「AI新基建」最優選擇

AI數據的需求方,主要包括AI公司、科技公司、科研機構以及傳統意義上的行業企業(手機、汽車、安防等),這個群體越來越龐大。

AI數據的市場供給,主要由企業自建或直接獲取外包團隊的形式以及供應商組成,而按照艾瑞諮詢的報告,供應商模式佔比高達79%。

問題在於,為什麼需求方們都熱衷於選擇數據眾包這類供應商模式來獲得數據,在數據需求龐大的情況下,為什麼不自建團隊採集和標註數據?這主要基於三個痛點:

1、數據需求的「潮汐現象」

春運期間,鐵路運力不夠,平時,又大量閒置。

如果自建團隊,很多AI需求方將產生與此類似的「潮汐現象」:受自身產品迭代周期的影響,在AI迭代期湧入大量數據需求,團隊難以承受;在日常維護期數據需求不是很旺盛,團隊又在閒置。

於是,數據供應商就成為彈性投入、增強企業適應力的必然,市場供給的主力軍變成各類AI基礎數據的服務提供者。

2、數據資源池不足

自建團隊往往面臨較為嚴重的數據資源池匱乏問題。舉例來說,如果你是一家做與人體有關的圖像識別的專業公司,或者需要這樣的技術來配合主業,你可能需要尋找不同膚色、不同外形特徵的人物做AI數據採集,以提升AI的「認知」能力,而對很多企業而言,除了依賴那些有限的開源數據,沒有太多辦法。

這方面,專門做數據業務的平臺就有明顯的資源聚集優勢。例如,單就人物圖像來說,百度數據眾包的數據資源池在國內覆蓋30個省份,具備漢族、少數民族採集能力;在國外覆蓋22個國家,具備白人、黑人、印第安人等多人種採集能力。

3、數據輸出能力的「維度差距」

數據眾包平臺集中大量地熟悉數據採標業務,已經得到了充足的鍛鍊,一些平臺,例如百度數據眾包還對內提供大量數據服務,自2011年起全面支持百度自動駕駛、小度助手等AI業務,它們對於外部需求,在能力上更容易應對。

這本質上體現在通用的「標準化」和專項的「定製化」區別上。AI數據有時候只需要一些標準化的泛化數據,例如道路要素標記,車、路燈、行人、斑馬線、雙黃線等,有些時候則需要定製化數據,例如專門針對鄉村小道的識別,其中可能有野狗、野貓等更複雜的要素。

但這種標準化和定製化只是相對的,對發展往往不夠充分的自建平臺而言是「定製化」(意味著需要花費大量精力),到了數據眾包平臺那裡,可能只是「標準化」的一部分,像百度數據眾包的標註能力已經可以覆蓋市95%以上的主要標註場景。

AI新基建對數據採標有三大要求,數據眾包都滿足了嗎?

有龐大而快速增長的市場,也有供應商模式相對自建團隊的優勢,在AI新基建浪潮下,數據眾包成為了一門「更好的生意」,這些年也有不斷大量的玩家加入(圖片來源:艾瑞諮詢):

總體而言,最早的玩家大都已經取得較明顯的市場優勢,例如百度數據眾包已經成為在世界範圍內採標能力、流程標準化/工具智能化、數據安全等方面都處於領先位置的一站式AI數據服務平臺(這與中國AI領先、百度以AI為主戰略也有關係),覆蓋了智能駕駛、手機、網際網路、AI開發者等頭部客戶;

而新進入者亦有衝勁,像雲測數據從雲測試轉身到AI數據行業,對京東眾智、騰訊雲數據、龍貓數據等都可能形成衝擊。

不過,從需求方的角度看,不論是誰,「一門更好的生意」要坐實,這三大基礎要求必須滿足。

1、安全:「銀行級合規」

AI數據不但是AI新基建的重要驅動力,它也是企業的重要資產,它的洩露和核心算法的洩露都是智慧財產權的重大損失,沒有根本區別。

只不過,算法可以自己蒙頭在家管死,而在數據眾包市場上,涉及到甲乙方原始數據交接、生產過程及成果交付,這其中存在著許多數據安全的口子。

一旦上升到新基建的高度,對很多賴以生存的需求方來說,說數據是命根子可能不為過,對數據的處理保證安全是第一位的,甚至需要「銀行級合規」避免出現任何紕漏。

對巨頭而言,出現安全問題就更加不能容忍,例如,百度數據眾包為此在數據確權、數據加密、實名認證、生產監控等方面進行全流程管控確保數據安全(圖片來源:網絡):

如果我們翻開各大平臺的官網主頁,即便最新進入的玩家雲測數據,都能發現它們用了很大的篇幅先講安全。

不過,安全最終還是靠「不出事故」來檢驗,如同雲計算穩定性說得再好,不宕機才是最好的證明。

2、「產量」:前沿科技下的密集的勞動力

雖然AI是頂尖的前沿技術,但AI數據確實一個不折不扣的勞動力密集行業。AI新基建首先驅動的是對數據產量的需求,這直接反應到勞動力規模是否足夠大上,畢竟,一張一張的圖、一句一句的話、一段一段的語音,都需要人力一個個標記好。

這是一個直觀的要求,它的實現又分自有團隊和代理全職團隊兩個部分,例如百度數據眾包宣稱自有2000人團隊、遍布全球22個國家的超過5萬名採標人員的代理商資源池——基本上,各平臺都在著力凸顯自己的團隊規模,龐大的勞動力群體是AI新基建的獲取足夠多數據的重要保障。

但是,正如工廠流水線有最優生產流程,有幫助工人更快、更好完成工作的輔助工具一樣,要提高產量、提升效率,流程和工具也必不可少,標準化、工業化的生產流程、高效易用的標註工具,也是百度等數據巨頭提升自我的重要著力點。只不過,這些只是起到「乘數作用」,底子還是看勞動力規模。

3、質量:「精益製造」級別的複雜管理體系

在安全、產量之外,質量是數據眾包成為一門可持續生意的根本,也是AI新基建真正落地的根本,質量不達標的數據不但不能推進系統識別能力的提升,甚至可能產生誤導,如同學生學習了低劣的習題集再去考試一樣。

而說白了,數據眾包可以看作一門以數據為產品的「製造業」,要提升質量,對應地,就要配以「精益製造」級別的複雜管理體系。

這個體系,通常包括嚴苛的審核體系(例如標註、審核、抽檢的層層把關)、人盡其用(不能混用CV、NLP等數據人員)、固定的例會總結問題提醒改進等,此外,還有一些工業化生產流程的濃重痕跡,例如百度數據眾包平臺的三階段「生產加工流程」——小流量測試跑通生產流程、正式生產不斷調優、交付時最終驗收審核。

可以說,AI數據對質量的要求,和精細化製造業實現更好的良品率,別無二致。

數據眾包,不止於AI新基建?

由於「勞動力需求」的特殊性,數據眾包在特殊的時代背景下還超出了AI新基建的價值範圍。

脫離行業角度,從穩就業來看,百度山西數據標註基地人員規模已近3000人,這些都是實實在在的就業人口容納能力,是應屆畢業生、其他行業分流人員(例如在山西的某傳統產業)甚至包括殘障人士的一份生計。加上其他工作人員,後疫情時期,一個數據眾包平臺已經幫助當地實現就業。百度方面表示未來要通過山西基地的示範作用,聚攏更多數據企業,為山西本地創造超過5萬個就業崗位。

甚至於,百度數據眾包還打算打通數據生產,數據交易和數據應用的三個環節,做一個開放的平臺,如果這個構想成功,在AI數據領域建立一個資源對接的市場,不僅是AI新基建背後的數據生態閉環問題,或還將匯聚起大量的就業機會和新的經濟增長點。

我們否定AI將摧毀就業機會時,理由常常是新的技術一定會帶來新的工作崗位,而AI數據產業毫無疑問就是正在發生的例證。數據眾包不僅將是一門更好的生意,也是下一個時代許多人的職業去處。

*本文圖片均來源於網絡

此內容為【智能相對論】原創,

僅代表個人觀點,未經授權,任何人不得以任何方式使用,包括轉載、摘編、複製或建立鏡像。

部分圖片來自網絡,且未核實版權歸屬,不作為商業用途,如有侵犯,請作者與我們聯繫。

相關焦點

  • 百度雲智峰會上海站:百度眾包賦能數據,助燃人工智慧
    4月12日,百度雲智峰會-2017ABC生態及合作夥伴大會於上海國際會議中心成功舉辦。百度眾包(zhongbao.baidu.com)首席數據解決方案專家李明出席並發表主題為《百度眾包平臺數據服務探索與實踐》的演講,通過眾包模式幫助企業或開發者解決如何獲取海量標註數據的難題。
  • 專注優質數據服務,百度數據眾包榮膺「中國數據質量管理」兩項大獎
    數據質量是數據管理的核心,也是數據價值實現的基礎,高質量數據在產業發展升級中起著重要作用。百度數據眾包依託百度10年AI數據經驗、領先的產品技術能力和業界最大的數據標註基地,致力於為人工智慧企業提供專業、高質量的AI數據採集和標註服務。
  • 以技術為驅動力,百度智能雲數據眾包專注做好「AI賦能者」
    近日,以「技術驅動,釋放數據要素價值」為主題的百度智能雲TechDay暨百度技術開放日——數據眾包專場在北京舉行。百度技術委員會理事長陳尚義表示:「2010年初,百度開始布局人工智慧,是國內投入最早、技術最強、布局最完整的人工智慧領軍企業,也是最懂數據的企業。
  • 百度數據眾包詳解《人工智慧領域數據處理解決方案》(PPT全文)
    [導讀]大數據背景下,人工智慧飛速發展,對數據處理的需求越發強烈,而數據為人工智慧技術的實現和人工智慧應用的落地提供了基礎的後臺保障
  • 「新基建」政策驅動下標準化助力數據中心綠色化發展
    中國電子技術標準化研究院副院長孫文龍在接受《中國工業報》記者採訪時解讀:與原子經濟時代的衡量標準不同,數位化社會的發展體現於人均數據產生量、擁有量、使用量,及單位面積傳感器密度和人均有線、無線帶寬等。各種因素的相互作用,使得全社會的數據總量將持續快速增長。
  • 百度復工搜索大數據:多行業透露結構性機會 「新基建」背後是數字...
    另一方面,疫情對於工業製造業發展的影響是短期的、一次性的,「醫藥」、「汽車」、「紡織」等製造業相關搜索在年後平緩增長一段時間之後,趨於穩定。尤為值得注意的是,百度搜索大數據顯示,「人工智慧」、「雲計算」、「大數據」近30天的搜索數據環比上漲100%,這是在國家大力提倡「新基建」的大背景下所呈現的。
  • 新基建浪潮下,烽火助力政企客戶打造高效數據中心
    「新基建」主要發力於科技端,包括5G建設等七大領域。隨著網際網路進入雲2.0時代,行業雲興起,更多的企業成為雲化、數位化的主角,5G、雲計算、工業網際網路等新一代信息技術的應用更是離不開海量數據的處理、存儲和軟體的雲化。
  • 國雙:緊跟新基建,推動大數據中心健康發展
    自3月4日中央政治局常務委員會會議提出,加快5G網絡、數據中心等新型基礎設施建設進度以來,新基建的話題熱度一直居高不下。其中,作為首次納入政府加快建設條目的大數據中心引起了業界的高度關注。在國金證券研究所估算的2020年七大新基建領域投資規模中,數據中心的投資規模達到千億級。大數據中心為何會入圍新基建?
  • 構建5G時代新基建CDCE2020國際數據中心及雲計算展隆重開幕!
    展會攜手200+領先展商,以超過2萬平方米的展會規模融合數據中心基礎設施、數據中心、雲計算於一體全產業鏈展示,以構建5G時代新基建為己任,聚焦5G及邊緣計算、運維、節能等熱點話題,與業界和用戶一起迎接5G+新時代的新機遇和新挑戰。
  • 專訪澳鵬田小鵬博士:以AI數據服務,賦能各行業AI商業化進程
    人工智慧助力新基建最近,新型基礎設施建設,即「新基建」一詞備受關注。基礎設施是經濟社會發展的重要基石。在數字經濟時代,5G、人工智慧、工業網際網路、物聯網、數據中心等新技術,正在驅動新一輪科技革命和產業變革,成為數字經濟發展的基石。
  • 百度AI的2020上半年總結:戰「疫」的科技奇兵、新基建的中堅力量
    7月23日,百度AI 發布了2020年上半年總結,從AI戰「疫」、AI新基建、產業智能化三大方面詳述了過去半年的努力和突破。過去半年,百度AI是戰「疫」大旗下的科技奇兵,是新基建浪潮裡的中堅力量,作為人工智慧基礎設施,步履堅定,在喧囂中快速成長。
  • 九次方大數據乘「新基建」東風深掘產業新機遇
    政府數據應用場景服務商、城市數據資產運營商、人工智慧數據源服務商九次方大數據,佔據數據源的核心位置,用技術的更新迭代和應用場景驅動領跑「新基建」,釋放增長新動能,為疫後我國數字經濟發展注入「新能源」和「血液」。
  • 騰訊雲數據中心「全景圖」,做新基建的「基建」
    數字經濟的「溢出」,是以雲計算、大數據、人工智慧等新興技術所推動的產業創新,同時讓數據中心成為了科技創新和技術應用的實體,更成為了千行百業數位化轉型的「新基建」,為數字經濟發展提供了有力的支撐。今年初,數據中心被寫入「新基建」,數據中心產業也迎來了新一輪的快速增長。
  • 百度集團副總裁侯震宇:AI-Native雲計算奠基AI新基建
    新一代雲基礎架構百度「太行」,即彈性裸金屬伺服器V2.0於今年8月首次對外曝光,是基於百度自研的硬體虛擬化技術,全新構建下一代雲基礎設施,在擁有彈性靈活的雲計算基礎上,實現物理伺服器高性能的計算能力。百度「太行」將和百度智能云云上虛擬網絡、雲存儲等無縫融合,為客戶創造一體的服務體驗,滿足各個行業的上雲需求。
  • 從搜索到「眾包」 百度知道APP的移動轉身
    這些數據表明,百度知道在移動網際網路上已經成功「自立門戶」,但在漂亮的轉身背後,又有著怎樣的秘密?能為問答類平臺帶來怎樣的啟發?根據調研,百度知道APP主要有三類用戶:一是提問用戶、二是回答用戶、三是日報用戶。留住這三類用戶,既需要應用在設計時提供更簡便的需求實現路徑,更需要能夠同時快速的回答和優質的知道日報內容。
  • BATH四大「承包商」登場新基建時代
    我們都知道新基建的具體技術內容包括5G、數據中心、人工智慧、工業網際網路、物聯網等,我們也常常談論哪些有家底子的企業將迎來業務增長。事實上,更進一步看,新基建作為一個有著宏觀布局和設計的經濟謀局,它對與之緊密關聯的科技行業,不僅意味著全新的增量機會,還可能是另一個全新時代的開啟。圍繞新基建的船票爭搶,早已開始。
  • 解讀《中國智能經濟發展白皮書》:百度以AI「新基建」站賦能C位
    可以說李彥宏對「人工智慧是智能經濟發展核心驅動力」的預判已被快速驗證。 而從相關數據來看,我們也越來越能發現智能經濟所呈現出的加速發展趨勢以及其正迸發出的蓬勃生命力,並且這並不局限於中國,在全球亦如此。
  • 百度AI的2020:迎合時代節拍,扛起智能大旗
    稍微了解下基建在中國經濟增長中的比重,就不難理解「新基建」將醞釀出的龐大機會,而機會往往是留給有準備的人。李彥宏在人民日報上的署名文章《新基建加速智能經濟到來》中寫道:「新基建不僅能在中短期內創造大量投資機會、提升發展動能,而且能加速智能經濟的落地和智能社會的到來,提升人類應對類似不確定性風險的能力。」
  • AI 如何成為百度翻譯 DAU 高速增長的引擎?
    特別是在 2020 年剛剛過去的這個春天,當人類社會意義需要緊密聯繫在一起的時候,語言翻譯,更是承載著各個國家團結一致、共同抗疫的訴求。也是在剛剛過去的這個季度,百度旗下的翻譯產品百度翻譯獲得眾多關注。
  • 華為新一代400GE數據中心交換機,使能新基建激發新動力
    【環球網智能綜合報導】7月24日,華為在以 「400GE新引擎 新基建新動力」為主題的發布會上,面向全球發布華為CloudEngine 16800新一代400GE數據中心交換機,基於業界領先的新平臺,新光接口和新智能,實現數據中心網絡的智能超寬、智能聯接和智能運維,使能新基建各領域間高效協同