這8組大學生的AI說唱以假亂真、OCR準確率超百度騰訊

2021-01-09 智東西

智東西（公眾號：zhidxcom）
文 | 心緣

智東西8月24日消息，昨日，2018中國高校學生AI訓練營項目（DeeCamp）展示暨結業儀式在北京大學舉行，該項目由教育部中外人文交流中心、創新工場AI工程院和北京大學聯合主辦。在結業儀式上，8支獲獎小組分別作了項目展示，包括AI評美圖、AI說唱、自動駕駛等。

在結業儀式後，智東西同少數媒體採訪了教育部中外人文交流中心副主任楊曉春和創新工場AI工程院執行院長王詠剛，就我國AI人才的現狀、如何培養尖端AI人才、AI公司的商業化落地等問題進行深入交流。

一、DeeCamp AI訓練營

該訓練營是國內首個高校AI人才培養計劃——2018年「中國高校AI人才國際培養計劃」的實施項目之一，由創新工場於去年發起，另一項目為「高校教師AI培訓班」。訓練營吸引了全球600多高校近7000多名中國學生報名，在經過筆試、面試層層篩選後，來自85所國內外高校的300名學生被錄取參加1周集中授課+4周動手實踐。其中，本科、碩士、博士佔據的比例分別為54%、39%和7%。

此次高校AI國際人才培養計劃為公益性質，老師和學生的培訓課程都完全免費。圖靈獎獲得者John E.hopcroft、深度學習專家吳恩達等6家國際頂尖高校的10位AI專家和創新工場、曠視、科大訊飛、谷歌等AI技術企業的AI專家分別擔任學術導師和產業導師，指導學生分為28個小組完成15個實踐課題，最後從中選出8支優勝隊伍。他們做的課題有機械臂3D視覺系統、3D人體骨架點檢測、多攝像頭行人軌跡和行人動作分析、AI自動作詞作曲、AI電影推薦、AI打即時戰略遊戲、農作物病蟲害檢測等。

在結業儀式上，獲獎的8支團隊進行了匯報展示。教育部國際合作與交流司副司長徐永吉、北京大學常務副校長高松院士、教育部中外人文交流中心副主任楊曉春、創新工場CEO李開復以及AI工程院執行院長王詠剛等有關單位的領導和專家為學員頒髮結業證書。

二、AI也懂美：評價美醜，為詩配圖

在8個獲獎團隊中，有兩個團隊的作品都和美學相關，一個是讓AI評價美圖，另一個是讓AI生產美圖。

1、給圖像的美醜評個分

在結業儀式上，首先頒發的是DeeCamp精神獎，獲獎小組是美圖指導的圖像美學評價小組，他們做的項目是讓AI像人類一樣判斷圖片的美醜。該小組做了一個好玩的微信小程序，只要上傳一張照片，就會獲得該圖的評分和評語。

由於不同時代不同族群對美學都有不同定義，如果AI能夠公正地評判某個攝影作品的基本審美高度，就能為觀眾提供一個客觀的第三方價值參考。目前該領域最前沿的一篇論文是今年4月谷歌提出的NIMA模型，這篇論文的平均值預測比較準確，但分布預測不夠準確。

為了使圖片評價的分布更接近觀眾審美，該小組使用包含約25萬張圖片的AVA數據集和近14000萬張圖片的ImageNet數據集，採用端到端模型，利用深度神經網絡自動學習與圖像美學評價相關特徵，並考慮到參與投票人數對打分結果的影響，設計了一種新的的基於統計概率加權的EMD Loss。他們模型的評分均值預測和谷歌論文的NIMA達到了同量級效果。

最後，該小組分享了幾個AI美學評價的應用前景，其中一個很有商業價值的就是和攝像機結合，自動採集有美感的照片或自動生成有美感的海報。

2、從詩詞生成有風格的圖片

DeeCamp最佳方案獎由知乎指導的基於文本語義的圖片生成小組收入囊中。古詩詞是文化自信的重要載體，如果有個工具將詩詞中的意象和情感相結合，將大大降低理解詩歌的門檻。該小組做的就是基於詩歌意象和情感理解、意象圖片內容的生成，和對圖片進行情感著色並進行水墨風格遷移。

在文本方面，該小組搜集5萬多首唐詩，使用規則匹配和CNN提取意象，準確率達91%；在情感判別方面，他們人工標註了2276多首詩歌的正負向情感，使用Word2Vec字向量分析和情感字典自動標註數據，以「句子」為單位進行情感判別，正確率達80.1%。為了實現情感著色，他們人工搜集了基於荷、草、柳、梅、沙漠、山、雲、燕8個意象的2500張單意象圖片和2000張多意象圖片，使用WGAN-GP和改進的ACGAN等模型實現情感著色和風格遷移。

該項目有幾個商業展望，一個是面向孩子和外國友人的教育APP「看圖識古詩」，另一個是基於古詩詞的意象和情感判斷後生成對應場景和風格的配圖。

三、AI玩文字：幹擾環境認糊圖，高能聊天唱Rap

文字是不同於圖像的另一種描述世界的方式，下面三個項目都是用AI實現文字和語言方面的應用。

1、比百度、騰訊更強大的OCR

獲得最佳工程獎的小組由美團公司指導，做的是環境不可控場景下拍攝文檔地址文字識別（OCR）。文字識別往往面臨拍攝環境不可控和地址欄位識別的挑戰，比如拍照拍糊了、閃光燈幹擾、中英文數字混合、多行緊湊文字等情況都會影響識別結果。

據小組負責人表示，該小組在短短一個月的時間，從不知道什麼是OCR，到實現高識別率的OCR功能。他們使用DenseNet進行圖像特徵提取，用短文本分類TextGrocery進行地址判斷，在剔除幹擾和模糊匹配和校正後，其OCR識別率超過了騰訊和百度。他們將實現的功能集成在小程序中。該小組也總結了這一項目的未來改進方向，包括地址矯正、更多數據、優化模型、壓縮參數等。

2、能鬥圖的陪聊機器人

最佳技術獎的獲得者是知乎公司指導的劉看山陪聊機器人小組。他們所做的機器人高效實現了一流聊天機器人必備的幾乎所有核心技術環節，不僅可以回復文字，還能像人一樣回復圖片和表情包。大家又多了一個可以愉快調戲的AI機器人。

該小組使用來自知乎、小黃雞、微博、豆瓣的1000多萬語料，在經過敏感詞篩選後，他們使用Seq2Seq文本生成算法和北大孫老師在18年2月提出的DPGAN模型，將基於文本的模塊、基於檢索的模塊和基於生成式的模塊結合，做了相似度匹配。其匹配方式都在GPU上進行，匹配速度非常快。

3、AI也能寫歌詞唱Rap

拿到最佳Demo獎的是由創新工場創新奇智指導的AI有嘻哈小組，他們所做的AWLyrics能夠2分鐘植出一首嘻哈歌曲。使用者選擇一個主題，輸入一個起始句，其項目就能生成押韻的嘻哈文字，還能進行語音合成，讓機器唱嘻哈。

該小組對SeqGAN模型做出改進，增加輸入語句的編碼，並將原先生成器的損失函數改成Penalty-based Objective。在押韻功能上，他們嘗試了Reward-based和Rule-based兩種方案。其負責人表示，這個項目的未來工作還有很多，比如根據Beat自動創作嘻哈歌曲、應用於詩歌、平仄和押韻等各類文本生成，以及應用於圖像捕捉，即用編碼器對圖片編碼後交給生成器等。

四、AI擅追蹤：識別用戶行為，「迷你」自動駕駛

最後這三個項目則出色地整合了技術架構，展現了學生們全面均衡的實踐能力，

1、追蹤原麥山丘的人流

由創新工場創新奇智指導的人流動線追蹤小組獲得了最佳團隊獎。他們從新零售的場景和需求出發，希望通過人流動線追蹤技術精確識別用戶行為。其試驗場景選在原麥山丘新奧店，該小組使用三路攝像頭進行基於熱力圖的人流檢測和追蹤。他們還通過攝像頭標定將數據可視化，展示年齡分布、性別分布等視頻數據的統計結果。

課題實現的難點主要由貨架遮擋、視角、光線和相似著裝。針對這些難點，小組用地板格替換黑白格標定攝像頭，基於姿態估計檢測，使用Deep SORT和ReID融合的技術進行軌跡處理和多幀檢測結果匹配，標註位置和性別的先驗信息進行輔助判斷。

2、模擬完整無人駕駛體系

由景馳指導的基於分模塊的自動駕駛小組摘得最佳應用獎。該小組展示了在虛擬環境下實現的無人駕駛模擬視頻，其項目基於分模塊架構，分成高精度地圖與定位、感知、決策規劃和控制四個模塊。

其技術先進性在於，定位採用了基於SLAM定位和航跡推算的定位融合算法，決策規劃使用了Dijkstra搜索的全局路徑規劃。在控制部分，小組使用了Pure Pursuit算法，結果偏差比較小。該小組表示，目前他們已有能適應多車道變道超車的超車導航點生成算法，能夠基於複雜環境進行實時動態導航。

3、「迷你版」自動駕駛小車

2018 DeeCamp之星獎壓軸揭曉，獲獎者是由景馳指導的自動駕駛小組，他們使用監督性端到端訓練，做出了「迷你版」自動駕駛車Devil Car。在使用了Carla仿真器模擬自動駕駛功能後，他們將功能與硬體結合，首先使用4萬張圖的數據集進行訓練，使小車能在樓道完成直行和轉彎。隨後，他們將小車的應用場景擴展到室外，通過訓練7萬張圖的數據集，使小車能在1000米左右帶有自然障礙物的校園環路上進行彎道行駛和障礙躲避。

在未來，這個項目能實現的功能可以擴展到無人噴灑車、無人道路清潔車、北大校園導遊車等無人車，可在無人汽車中嵌入端到端局部控制，還能助力語義分割、障礙物檢測等領域，降低標註成本。

五、對AI學生的建議和希望

李開復表示給出做科研的幾點建議，一是要具備坦誠公開的科研精神，學會感謝借鑑的算法；二是在做系統時要考慮覆蓋全部場景；三是在Demo展示中多列具體數據，並且多與觀眾互動，使其親自感受項目的可行性和真實性。

教育部司長徐永吉則對學生提出三點希望，一是充分利用AI實驗室等平臺資源，參與AI應用項目研究與開發等活動；二是培養「AI+X」的學習思維和能力，加強AI與其他專業領域的融合；三是保持人才間的交流，協同探討解決AI問題。

他表示，將在未來的項目實施過程中擴大國際師資的引入力度，聯合更多高校和企業共同參與，並探索設立專項留學獎學金，以進一步提升我國高校AI應用型人才的培養質量，助力中國AI產業升級。

六、我國AI行業的人才現狀和發展方向

在閉幕式結束後，教育部中外人文交流中心副主任楊曉春和創新工場AI工程院執行院長王詠剛接受了智東西等媒體的採訪。

▲教育部中外人文交流中心副主任楊曉春（左）和創新工場AI工程院執行院長王詠剛（右）

1、從中美差異看我國AI人才的短板

目前中國的AI產業處在蓬勃發展的上升期，但發展也呈現明顯的結構不均衡。美國的高端AI人才培養有多年的積累和底蘊，有高校、政府、企業之間的互動，有投資和被投企業之間的各種產業鏈，生態環境比較成熟。而我國既缺少像美國那樣頂級的AI領軍人才，又缺少能和中國的基於大數據、商業模式創新良好結合的AI商業化人才。在兼備自然科學、工程、人文方面的綜合性知識和滿足產業技術的發展方面，人才都是一個短板。

2、商業化AI人才應具備綜合素質

王詠剛認為，成功的AI工程化人才應該具有綜合素質，能將AI的科技和工程化場景很好的整合。他們至少應具備三種素質，第一要有紮實的基本功，第二有對前沿技術的跟蹤能力，第三個是對算法在應用場景的需求、在應用場景的架構裡面的交互等問題有基本的概念。

3、彌補人才短板，培養尖端人才

AI側重應用場景，人才培養必須要走校企融合的機制，應搭建跨學科的建設。我國在AI技術、AI基礎算法和基礎知識的素質上並不比美國差，提升的關鍵在於建設學習期完整的生態環境，這需要老師的引導以及教育部、各個投資機構、企業的一起努力，以彌補整體生態環境的不足。

4、AI還不能做感性的事情

王詠剛坦言，目前AI還沒有辦法具備人類的情感和審美體驗。雖然讓機器去畫畫、作曲、寫文章等許多嘗試，但是這些AI技術還處在低幼期的臨摹階段，技術人員會繼續探索這種AI創作的可能性。

5、AI公司商業化落地

AI公司的商業化落地有兩大特點，一是需要長期投入，慢慢去學習行業知識和了解行業需求，然後定製化地作出解決方案。二是領域細化，定製化需求多。這對所有的AI創企都提出兩個挑戰，一個是需要好的AI科學家和好的商業化團隊，另一個是必須有足夠的資金，充分的心理準備來打持久戰。

結語：AI人才儲備戰已經打響

近年來，隨著AI技術的迅速發展，全球都在迎來新一輪的智能時代變革。在這個數據為王的時代，搶佔AI市場最關鍵的就是資金、數據和人才。其中，人才是打贏任何一場科技戰爭的終極殺手鐧。

根據《2017年全球人工智慧人才白皮書》顯示，目前全球AI人才僅約30萬人，截止到去年10月，我國AI人才缺口已達到百萬級。雖然就目前來看，無論是數量、質量還是人才結構，我國AI人才都暫時無法和在計算機尤其是AI領域積澱數十年的美國相提並論。在當下人才缺口面前，高校AI人才培養計劃的出現無疑是給我過AI教育添了一針強心劑。

本次訓練營8個獲獎的學生作品中都是具有挑戰性且與商業落地緊密結合的項目，從這些作品中，我們不僅可以看到當下AI前沿發展趨勢，也看到了學生們出色的技術和工程實力，相信隨著更多產學研結合的人才培養計劃的實現，學生們的創意也會給產業界的AI落地帶來更多啟發。

這8組大學生的AI說唱以假亂真、OCR準確率超百度騰訊

相關焦點

夏日專刊AI產品上新升級集錦,50餘項軟硬能力加速場景落地

百度OCR通用中英文字符識別準確率達95%以上

AI 或可預測夫妻吵架,準確率 79.6%

AI 影響因子 8 月份回顧:騰訊 AI Lab 再佔榜首

百度AI:深海巨艦加速史

乾貨速遞,百度BML自動超參搜索技術原理揭秘與實戰攻略!

華人研究團隊推出AI「諷刺」檢測模型，準確率達86%

華人研究團隊推出AI「諷刺」檢測模型,準確率達86%

百度全功能AI開發平臺BML自動超參搜索技術全面解析

智東西晚報:百度L4無人車今年小規模面世國家AI標準化組成立

騰訊8篇論文入選MICCAI2019 AI與醫療越走越近

騰訊Q2財報/第一彈App負責人被捕/芒果TV起訴小米/《中國新說唱...

百度大腦AI加持語言教育,智能語音糾正口語發音、指導朗讀背誦

推薦幾款OCR識別App(提取圖像中的文字,適用安卓與ios)

超半數大學生月均花銷在1001~2000元

騰訊音樂人2020原力計劃巡演燃動深圳

華為、騰訊、百度扎堆進入的自動駕駛仿真市場,到底藏著怎樣的秘密?

百度、騰訊、阿里發布2020年度關鍵詞

2017騰訊雲+未來峰會:騰訊雲發布AI即服務智能雲

百度AI的2020

這8組大學生的AI說唱以假亂真、OCR準確率超百度騰訊

相關焦點

夏日專刊AI產品上新升級集錦,50餘項軟硬能力加速場景落地

百度OCR通用中英文字符識別準確率達95%以上

AI 或可預測夫妻吵架,準確率 79.6%

AI 影響因子 8 月份回顧:騰訊 AI Lab 再佔榜首

百度AI:深海巨艦加速史

乾貨速遞,百度BML自動超參搜索技術原理揭秘與實戰攻略!

華人研究團隊推出AI「諷刺」檢測模型，準確率達86%

華人研究團隊推出AI「諷刺」檢測模型,準確率達86%

百度全功能AI開發平臺BML自動超參搜索技術全面解析

智東西晚報:百度L4無人車今年小規模面世 國家AI標準化組成立

騰訊8篇論文入選MICCAI2019 AI與醫療越走越近

騰訊Q2財報/第一彈App負責人被捕/芒果TV起訴小米/《中國新說唱...

百度大腦AI加持語言教育,智能語音糾正口語發音、指導朗讀背誦

推薦幾款OCR識別App(提取圖像中的文字,適用安卓與ios)

超半數大學生月均花銷在1001~2000元

騰訊音樂人2020原力計劃巡演燃動深圳

華為、騰訊、百度扎堆進入的自動駕駛仿真市場,到底藏著怎樣的秘密?

百度、騰訊、阿里發布2020年度關鍵詞

2017騰訊雲+未來峰會:騰訊雲發布AI即服務智能雲

百度AI的2020

智東西晚報:百度L4無人車今年小規模面世國家AI標準化組成立