4月12日,百度雲智峰會-2017ABC生態及合作夥伴大會於上海國際會議中心成功舉辦。百度眾包(zhongbao.baidu.com)首席數據解決方案專家李明出席並發表主題為《百度眾包平臺數據服務探索與實踐》的演講,通過眾包模式幫助企業或開發者解決如何獲取海量標註數據的難題。
百度眾包首席數據解決方案專家 李明
人工智慧,算法是發動機,數據是燃料。對於很多公司,獲取海量而優質的標註數據是實現人工智慧的先決條件。算法模型是計算機基於大規模的訓練數據集,歸納出的識別邏輯,以實現精準的物體和場景識別。可以說,實現機器精準識別的重要一步,就是獲取海量而優質的標註數據。
李明在此次峰會的演講中提到:」以人臉識別為例,訓練該算法模型的圖片數據量至少應為百萬級別。這麼大規模的數據獲取和數據的加工處理,對人工智慧開發者來說,無疑是一個大的挑戰。「
眾包平臺往往是大部分公司解決這一挑戰的選擇。百度眾包是全國最大的眾包平臺,從2011年成立至今,已累計完成1萬小時語音採集、10億條數據標註、1000億條數據抓取。不僅服務於內部的百度NLP、百度地圖等部門,並且將此成熟的服務對外開放,助力蔚來汽車、圖靈機器人等人工智慧公司飛速發展。百度眾包提供的是一站式海量訓練數據服務,包括數據獲取,數據加工,以及數據的定製化服務。整合線上線下資源獲取到目標數據;通過加工,實現數據價值最大化;根據需求定製數據解決方案,幫助客戶實現技術和應用的突破和創新。
數據採集
百度眾包數據採集服務,可以獲取到網頁,文本,圖片,視頻,音頻等數據。數據的獲取來源包括:
√ 線上網際網路的自動化採集,每天可抓取1億條網絡數據;
√ 線下眾包採集,來自300多個城市的10,000名眾包採集員,基於真實場景快速採集目標數據,如語音、地理位置信息等;
√ 問卷調研採集,百度眾包依託於1,700萬的龐大樣本用戶,支持以問卷調研方式獲取個人行為和行業諮詢數據。
數據加工
通過採集得到的數據大多是原始數據,不能直接被拿來使用,需要進行加工。百度眾包擁有10,000名專業的標註員,以日均200萬條數據的承接能力高效處理海量數據標註需求,提供三種數據加工處理方式:
● 數據清洗,有幹擾數據的,需要去噪,涉及隱私的要對數據進行脫敏;
● 對於採集到的圖像,網頁等非結構化數據,要對其進行結構化加工處理;
● 數據關聯處理主要是指數據的標籤化,數據的時效性等等。
如何保障眾包平臺的效率和質量,是剛起步或一些小型眾包平臺無法攻克的難題。百度眾包憑藉200名專業數據質檢員,以及在6年的實踐中建立起了一套完善的質量管理體系,包括標註員培訓體系、數據的機器審核體系、數據人工審核體系等,確保我們數據加工的質量滿足客戶要求。
數據服務
自籌數據、對接公共資料庫或行業數據,都擁有較高的數據獲取處理成本。因此需要有專業的數據服務商對數據進行共建和分享,整合成數據服務。
眾包是一種高效的數據建設模式
通過我們的實踐表明,利用眾包模式共享勞動力,形成數據共建模式,不僅可為企業提供高效高質地可用數據,更可以節約成本。
以3000小時的普通話語音採集為例,百度眾包首先結合線上線下多種渠道的運營活動,充分調動眾包用戶在真實環境下的積極參與,平均一天採集100小時語音數據;而後又對採集的數據進行清洗(語音文本匹配,清晰度,去重等)和語音文本轉寫標註(誤差率<3.5%);最後以數據服務方式提供給語音助手,語音輸入法,語音客服等領域的智能客戶,為相關模型算法提供精準學習語料。
百度眾包除了數據服務外,還將眾包模式及雲技術結合。基於百度10餘條過億用戶APP測試經驗的累計和驗證,將百度領先的測試技術以百度移動雲測試中心_MTC平臺對外推出。通過雲測實驗室的海量真實手機及百度專業的測試專家團隊,為企業提供移動App定製測試方案;同時通過獨創的本地化移動App測試解決方案,可為企業迅速搭建一個內網真機自動化測試實驗室,實現測試數據私有,設備遠程管理等服務,助力企業快速實現移動化。資訊
來源:新聞資訊