隨著人工智慧行業的高速發展,數據作為AI算法的重要基石,如何為機器學習算法訓練、優化提供數據採集、標註等高質量的服務,成為人工智慧熱潮中必不可少的一環。如何正確獲取數據、標註數據、應用數據?
10月28日,在由深圳市工業與信息化局、深圳市福田區人民政府指導,高科技行業門戶OFweek維科網主辦的「2020中國國際數字經濟大會暨展覽會」上,澳鵬(Appen)全球高級副總裁、大中國區總經理田小鵬博士接受了OFweek維科網的專訪,暢談人工智慧的基礎以及數據為社會、為行業、為企業的進步所作出的貢獻。
圖:澳鵬(Appen)全球高級副總裁、大中國區總經理田小鵬博士
人工智慧助力新基建
最近,新型基礎設施建設,即「新基建」一詞備受關注。基礎設施是經濟社會發展的重要基石。在數字經濟時代,5G、人工智慧、工業網際網路、物聯網、數據中心等新技術,正在驅動新一輪科技革命和產業變革,成為數字經濟發展的基石。
關於新基建,田博士表示,今年三月,國家再次提出要加快推進包括5G 網絡、人工智慧、數據中心等新型基礎設施的建設進度。本次「新基建」的提出,不僅為經濟增長提供新的動力,更為人工智慧領域帶來了更廣泛的關注。人工智慧不再僅僅是科技前沿,它已被列入了新基建的七大領域之一。
「國家把人工智慧作為新的基礎設施來建設,可以說是一項立足長遠的規劃。」田博士稱。
在「新基建」與「舊基建」兩方面的對比上,田博士指出,曾經的前沿技術已被納入國家基礎設施建設。「發生這種轉變的原因,一是科技已經發展到了可以被日常應用,並且能夠切實改善人們生產生活的程度,二是社會已經發展到了需要科技產物的助力來進一步提升生產效率和抗風險能力的程度。」
人工智慧作為這個時代科技發展的偉大產物,早已滲透到了人們工作和生活中的方方面面。如何解決民生剛需、解除民生痛點?這是人工智慧應該做到的事情。在這一點上,田博士舉例指出:「在智能語音和智能語義的加持下,音響不再是單向輸出音頻的工具,而是能夠進行人機互動的智能設備;密碼解鎖在很多場景中,已經被指紋、人臉識別替代。」
「可以說,人工智慧是時代發展的新型燃料,通過高效挖掘數據價值,賦能各行業各領域智慧升級。」田博士說道。
人工智慧助力後疫情時代產業發展
人工智慧作為支撐經濟社會數位化、網絡化、智能化轉型的關鍵新型基礎設施,不僅在助力疫情防控、復工復產等方面作用突出,同時,在穩投資、促消費、助升級、培植經濟發展新動能等方面潛力巨大。
那麼,人工智慧如何作出貢獻?
田博士指出,在這場使人與人之間保持距離、把人們社交活動頻次降至最低的新冠疫情中,「左手支撐疫情防控,右手支撐復工復產」的人工智慧,在抗疫人力不足時挺身而出,將防疫和工作效率提升數倍。「疫情的影響還在持續,而人工智慧帶來的健康碼、AI醫生、送藥送餐機器人等各種高效管理和便民服務,已經同水、電、氣、網絡一樣,成了城市必不可少的『基礎設施』。」
田博士進一步指出,社會對於人工智慧的需求遠遠不止於抗擊疫情。「此次疫情作為一個推手,已經正式將人工智慧全面推向社會的方方面面。智慧金融、智慧教育、智慧醫療、智慧交通等等都有著人工智慧在其中發光發熱。需求已然成熟,後疫情時代的人工智慧產業,絕不僅僅指向其自身的發展,而是要推動各行業完成智能化轉型升級,實現新舊動能的轉換。」
事實上,作為新一輪科技革命和產業變革的重要驅動力量,人工智慧正在對經濟發展、社會進步、國際政治經濟格局等多個方面產生重大而深遠的影響。根據德勤此前發布的《全球人工智慧發展白皮書》預測,到2025年,世界人工智慧市場規模將超過6萬億美元,2017年至2025年複合增長率達30%。
中國的人工智慧舞臺更是潛力巨大。我國《新一代人工智慧發展規劃》提出:到2030年,中國人工智慧核心產業規模將超過1萬億元,帶動相關產業規模超過10萬億元。
AI算法是車,數據是油
根據國際數據公司(IDC)2018年末的測算,2018年至2025年,全球的數據總量將由33ZB增加至175ZB。其中,中國的數據增長量將保持30%的增長速度,將是所有地區中增長速度最快的。同樣,數據量的激增也催生出了數據服務行業這一龐大的市場。
機器強於人的地方在於它能夠存儲、處理大量數據。過去,機器得到的數據是人類獲取並選擇性錄入,它所產出的結論充滿局限性。而現在,在人工智慧的幫助下,機器能夠自己聽、自己看,海量數據信息的記錄與分析為各行各業的日常決策與長遠發展帶來前所未有的改變。
但問題來了——機器存儲、處理的大量數據,從何處獲取,如何獲取成了關鍵。人工智慧商業化在算力、算法和技術方面基本達到階段性成熟,想要加速落地,解決行業具體痛點,就需要大量經過標註處理的相關數據做算法支撐。
數據決定了AI的落地程度,是商業化過程中重要的一環。
田博士舉了一個生動的例子。同樣是看月亮,在不同的經度,不同的緯度中,會有差異。如果採用在一個國家的不同地方所觀察到的月亮,而不是在全球各個地方實地觀察,那麼其標註的數據一旦應用於全世界數據中,錯誤的數據將會給後續一系列應用帶來錯誤的結果。
用AI來服務AI,賦與AI最初始的、準確的數據是基礎。「如果把AI中的算法比作是車,那麼數據便是油,想要車跑得更快、更好,『餵』給它高質量的油必不可少。」田博士稱。
智能化轉型的機遇與挑戰
今年6月,在澳鵬(Appen)全球發布的2020年AI現狀年度報告《AI與機器學習的現狀》中,近四分之三的調研企業組織表示AI對他們的業務而言至關重要,越來越多的企業開始將負責任的初始數據作為其實現業務成功的因素之一,這是機遇。
然而,人工智慧項目的成功部署並沒有那麼容易。據研究機構Gartner的調研顯示,在2019年,只有不到20%的人工智慧項目成功部署。其中,數據問題正是部署失敗的主要原因之一,這對於企業而言是一個無法避免的挑戰。
隨著技術的不斷發展,傳統企業一定會走向AI的道路,在這條道路上,他們對於數據的需求相較於以往提出了更高的要求:第1是需要大量的高質量數據;第2是數據的安全性、保密性、私密性及無歧視要求;第3是要求採標一體化。
田博士指出,企業自己完成這些數據任務是具有挑戰性的,並且成本高昂,處理不當時甚至可能弊大於利。對於希望高效完成AI部署的企業而言,與專業的數據夥伴開展合作尤為重要。
「20多年以來,澳鵬與全球領先的AI公司合作,提供高質量的多樣化可擴展標註選擇,包括:先進的人工智慧輔助數據標註平臺、遍布全球的多語言專家、全球超過一百萬的眾包資源,滿足180多種語言、方言和多樣化安全需求,以及符合道德規範的數據來源及公平的眾包報酬,降低品牌可能面臨的潛在風險。我們的部署速度比市場平均速度快三倍以上。」田博士如是說。
澳鵬的未來
關於澳鵬未來的戰略規劃,田博士稱,澳鵬將對其人工智慧輔助數據標註平臺的幾個重點領域加大投入:
1. 標註工具箱,繼續優化部分高複雜度的數據交付場景,比如自動駕駛2D、3D標註;
2. 模型輔助平臺,研發行業一流的基於遷移學習和主動學習框架的在線預標註平臺,大幅提升人機協同效率,為客戶創造價值;
3. 企業級數據API和可視化分析平臺,研發企業級數據API和可視化分析平臺,將平臺無縫接入客戶的模型研發流程,進一步提升數據+模型的迭代效率。
田博士說:「去年10月,澳鵬中國首個數據服務交付中心——澳鵬科技(無錫)有限公司正式成立,投資200萬美元;今年5月,澳鵬數據科技(上海)有限公司正式成立,投資200萬美元。剛剛建成不久的大連服務交付站點,則可以更多地為面向日語、韓語、俄羅斯語,包括覆蓋東北領域的公司提供服務。未來,澳鵬還將向更多的行業邁進,不斷砥礪前行,深耕細作。」
「澳鵬希望到2025年,可以做到10億美元的收入、上萬人規模的企業,真正開始在大中華區的市場,包括大陸、香港、臺灣等提供各種各樣的高質量AI數據服務。」田博士稱。
關於澳鵬
澳鵬(Appen)是全球領先的人工智慧數據服務提供商,主要價值體現在擁有成熟的數據工程管理方法論和技術輔助保證穩定的高質量交付;AI 數據平臺具備優良的用戶體驗和領先機器學習輔助標註技術,可大大提升數據標註和工程效率;規模化的私有化和眾包數據標註,能使工程人員快速響應顧客的交付需求。
澳鵬(Appen)通過其超過100萬名經嚴格驗證的全球眾包資源群體——覆蓋130多個國家超過180種語言——支持公司的全球客戶。
澳鵬(Appen)持續不斷創新,以全球領先經驗,力爭成為頂尖的AI數據服務公司,服務AI機器學習,並為全球高科技、汽車、消費電子、電子商務、金融服務、醫療健康及科研機構等行業提供高質量、高效的、安全的數據服務。