12月30日,騰訊優圖2020年度溝通會於海南正式舉辦,騰訊優圖實驗室總經理、騰訊雲副總裁吳運聲、騰訊優圖實驗室副總經理黃飛躍、騰訊優圖實驗室總監吳永堅、騰訊優圖實驗室總監任博,騰訊研究院高級研究員徐思彥等大咖出席了活動,並就2020年的業務進展和人工智慧趨勢做了完整的解讀和分享。
開場致辭中,騰訊優圖實驗室總經理、騰訊雲副總裁吳運聲表示,今年溝通會的主題是「再出發」,突如其來的疫情打亂各行各業節奏的背景下,騰訊優圖實驗室正在不斷適應變化,以全新姿態迎接業務環境,真正做到Restart。
現場,騰訊優圖實驗室副總經理黃飛躍博士帶來了主題為《騰訊優圖,做產業網際網路時代的π型實驗室》,他表示,經過2020年的考驗,騰訊優圖更加堅定的擁抱未來的變化和面臨的挑戰,更加堅定了騰訊優圖在研究、落地兩手都要抓的定位,秉持「兩條腿走路、兩種能力兼備、兩個能力都有認識」的策略,做產業網際網路時代的π型實驗室。
以下是演講全文
演講實錄
大家好,我是黃飛躍。
又是一年一度的相聚時刻,每年的年末,我們都在這樣一個面朝大海,溫暖溫馨的環境裡,和各位朋友們近距離的聊聊優圖,聊聊AI,也傾聽大家對於優圖的意見和建議。
π型人才這個詞今年很熱,我們會看到很多企業都在提π型人才,也就是能夠至少擁有兩種專業技能,並能將多門知識融會貫通的複合型人才。我們把π型核心點歸納一下,會發現其實現代社會越來越注重知識結構和能力結構,只有當智力深度和思維廣度的有機整合,才能激蕩醞釀,才能不斷創新,適應未來的社會發展。
今年,我想用π型作為對於優圖實驗室的期許和定位。隨著AI不斷大眾化,更深度的和我們的日常生活去結合,在各行各業的持續普及,助力行業降本增效,不論作為只專注研究或者只注重落地商業化的AI機構團隊,它都不是一種可持續的發展態度,因此,優圖更加堅定的擁抱未來的變化和面臨的挑戰,更加堅定了優圖在研究、落地兩手都要抓的定位,秉持「兩條腿走路、兩種能力兼備、兩個能力都有認識」的策略,做產業網際網路時代的π型實驗室。
對優圖來講,我們一直在π型的修煉之路上持續自我進化。
從早期的網際網路時代,優圖夯實技術研究,始終專注基礎研究,到網際網路+時代,優圖踐行產業落地兩條腿走路的發展戰略,用AI服務連接各行各業,深挖客戶痛點。到今天的產業網際網路時代,我們更多的強調和眾多合作夥伴形成良好的合作關係,一起發展AI事業,連接AI生態。
介紹一下優圖,我們成立於 2012 年,發展至今已有 8 個年頭,從最開始專心精進視覺 AI,到確定「基礎研究 + 產業落地」雙軌前進路線,再到積極擁抱開源開放。在算法研究方面,優圖多次在人工智慧國際權威競賽中創造世界紀錄,目前我們擁有 800 餘項 AI 相關專利,50多項國際比賽冠軍。在落地應用方面,我們提供超20個AI+解決方案,打造100+騰訊明星產品案例。今年6月,我們正式開源了AI框架TNN,目前已經成為優圖最火的AI開源項目之一。
從今年優圖整體的研究進展來講,我用兩個詞來形容,突破化和自動化。
第一個突破化,我重點講一下生物特徵識別,如何準確鑑定一個人的身份,從而保護信息安全,由於傳統的身份認證極易偽造和丟失,難以滿足社會的需求,目前最為便捷與安全的解決方案無疑就是生物識別技術。而每增加一種生物識別特徵,系統的出錯率都會降低幾個數量級,多樣化的生物識別疊加可以為我們提供更安全和便捷的技術保證。優圖從最早做的可見光人臉,到3D深度人臉,到近紅外人臉,再到可見光掌紋,掌靜脈,虹膜等,整體生物特徵研究往著更加深度的趨勢去走。
在掌紋識別領域,優圖在測試環境下可以真正區分雙胞胎,對於刷臉這種生物識別形式,是一種很好的補充方案;
在活體檢測方面,除了常規的基於視覺AI的活體檢測以外,我們探索了基於超聲波的活體檢測算法,可以區分真人和來自屏幕或者矽膠面具的攻擊。疫情期間,我們結合熱紅外測溫的場景,開發了基於熱紅外成像的活體檢測技術,可以在測溫的同時,完成刷臉和活體驗證。
第二個突破化,我想介紹一下我們在泛人臉領域的突破,從特點上來講,它向著更廣泛的研究領域進發。
今年,我們將人臉圖像的研究範圍拓展至漫畫、線條畫、卡通畫等廣義的人臉圖像領域,將研究對象從真實的人物拓展到這些抽象的並有著極大挑戰的泛人臉圖像。我們今年在IJCAI2020的卡通臉檢測競賽中獲得第一,這些全新研發的算法技術可以很好的應用於廣義的人臉圖像識別領域,為版權保護、動畫識別等帶來技術助益。此外,我們還研發了基於手繪圖生成真實圖像的視覺算法,這些都可以給我們帶來未來應用新的想像力。
第三點,我想圍繞最近很熱的深度合成來講,我們稱它為antifake,簡稱識別防偽技術。
隨著人臉技術的大規模應用,人臉安全愈發重要。基於優圖多年以來的研究和算法積累,提前布局可能出現的攻擊形式,例如 人臉編輯、人臉對抗攻擊, 我們將物理介質防禦(活體檢測),拓展到內容生成防禦和模型對抗攻擊防禦,構建更安全的防禦平臺。
在物理介質防禦上,我們進一步研發高精度算法,支持對逼真3D面具、頭模的防禦,打造全場景通用核身方案,研發算法也發表於ECCV、AAAI等頂級會議。在內容生成防禦上,研發新型人臉偽造檢測算法,全面覆蓋人臉生成、編輯、替換等算法的檢測,構建高精度防偽系統,並且獲得全球deepfake檢測比賽冠軍。在模型對抗防禦上,我們研發了隱蔽式的彩妝對抗攻擊,並支持對數字圖像、物理世界對抗攻擊的防禦,構建模型安全防禦平臺。這一系列完整的人臉安全體系進一步保障了人臉應用的安全。
第二個很大的研究趨勢,則是自動化。它的核心目標是實現算法層面的全面自動化,包括測試數據層面,和模型訓練層面。今年,優圖在減少數據依賴、模型設計、訓練優化和模型壓縮等四個方面進行了深入的研究,發表了包括TPAMI和NeurIPS在內的超過20篇頂級會議和頂級期刊論文,支撐了10餘條業務線。
接下來我介紹一下自動化。
針對算法自動化,優圖實驗室分別在自動化數據生產和自動化模型生產兩個方面進行了深入的研究。舉例來說,在今年抗擊疫情的過程中,我們通過數據生成的方式1個月就合成了3800萬張的戴口罩人臉圖像,極大地提升了戴口罩人臉的檢測召回率。於此同時,針對海量車輛無標籤數據,我們通過無監督算法自動生成標籤,為客戶在兩周的時間內定製了渣土車的識別能力,效果提升43%。
在自動化模型生產部分,我們通過引入自動化模型設計並對訓練範式進行優化來減少算法人員的投入,預計可以減少算法人員在手工調參上90%的耗時;同時通過模型壓縮的手段,我們可以將常用的網絡結構(例如ResNet56)的計算量減少93%,配合量化和前向框架加速後預期可以取得更加顯著的加速效果。
在今年的落地實際遇到的問題而言,我們發現,在技術不斷切入實際應用領域的過程中,AI需求整體呈現碎片化和場景化的特徵;針對這樣兩類截然不同的實際需求問題,我們從以下兩個角度來解決。提供對於碎片化需求的全面體驗化的能力,以及對特定行業、垂直場景的分布定製化解決方案。
第一點,我聊一聊全面體驗化。
疫情以來,線上視頻會議得到了迅速發展,以騰訊會議為例,在實際使用的過程中,用戶就會有一些碎片的需求,非常影響到在線會議產品的體驗。舉個例子,用戶開會的背景裡面有很多私密或者敏感的元素,但是短時間內用戶沒有辦法找到一個合適的場所來開會,這怎麼辦呢?
我們為騰訊會議提供了一個非常實用的功能,叫做虛擬背景,技術上來講稱為人像分割,我們可以用同一原始像素的模糊版本替換背景對象,也可以將整個背景對象變成黑色、白色或任何其他顏色,甚至將背景對象替換成由演講者或其所在公司決定的其他圖像,例如公司的徽標等等。這項人像分割技術,我們稱為LIP,今年斬獲多項國際權威榜單第一名,從技術上來講,我們不僅使得邊緣分割的精度達到亞像素級,同時實現了視頻幀間的實時穩定處理,這也是遠超業界水平的。
此外,當我們通過視頻會議中緊盯著屏幕的時候,會因為攝像頭和屏幕與人眼之間的夾角,在視頻會議中給對方呈現出向下看的感覺,無法實現面對面溝通中的眼神交流,容易令對方產生「對方是不是不專心、走神了」等誤會。基於此,我們近期也在騰訊會議上線了一個特別有趣的體驗化功能,叫做視線矯正。我們通過實時高精度人臉跟蹤算法,智能識別出待處理人臉區域,並將該區域送入深度神經網絡中進行編碼,生成眼神調整後的圖像,從而實現在視頻會議場景下自然的眼神接觸效果。大家戲稱這是一項專治走神的技術。
疫情期間,我們的人臉核身技術支持了北京、上海等全國多地的健康碼的核身過程,此外,我們通過騰訊雲與微信開放平臺為140多個行業,超過5000家政府機構與企業提供核身服務,這項技術在市場佔有率上保持了絕對領先。而核身技術的領先,正是我們不斷迭代優化的結果。自 2014 年,我們就開始了人臉核身技術的研發,從微眾銀行、騰訊雲慧眼,再到微信小程序,在這個過程中不斷提升了技術能力和豐富了技術體驗。
而在核身技術中,活體檢測是重中之重:黑產會不斷嘗試在各個方面進行攻擊。從 2014 年至今,我們已經迭代了 5 個不同的解決方案,從最開始的動作唇語,到交互檢測,到優圖獨創的光線核身方案,再到現在更加先進的解決方案,通過海量用戶觸達,不斷更新的技術,我們把人臉核身這件事做到了體驗化的極致。
在刷臉支付方面,我們的AI識別算法通過100多種設備形態落地如商場、超市、學校、醫藥等大量場景,為社會各界帶來便利的支付體驗。通過端雲的協同識別,讓用戶感受到秒級刷臉的體驗。通過精準的3D人臉識別,我們保障暗光等困難場景下,刷臉持續可以使用;我相信,這一系列的技術的極致體驗化,也代表著我們在刷臉支付方面技術的最佳能力印證。
最後,我想提一下OCR。
今年第七次的全國人口普查全面採用「無紙化」方式開展普查登記,而這次,微信小程序上的電子化普查讓人們可以自主申報,大大降低普查成本、提升普查效率。這裡面,優圖提供了身份證OCR技術,通過拍照上傳證件,可以輕鬆快捷的實現人證核查。這也是我們眾多的OCR能力在為各類服務體驗提供的能力之一。目前,我們的OCR服務,構建了四大完整解決方案,提供50餘項原子能力,為金融、財稅、法律服務等行業提供全面體驗化的服務。值得一提的是,今年12月,我們刷新了ICDAR OCR信息提取紀錄,這也標誌著我們的OCR從識別進入了理解,構建了更深的技術積累。
第二點,分布定製化。
在5G時代,未來定製化服務能力的高低,將決定企業的核心競爭力高低。根據分布在各行各地客戶的實際要求,我們實現在線定製,滿足客戶實際需求。接下來,我會拿零售、工業、媒體這三個行業來做介紹。
前兩年,整個零售行業關注的都是單獨地對「人、貨、場」進行數位化,而實際零售場景中所發生的數位化都不會單獨僅與其中一個有關,而是基於人和場或者人和貨的互動,因此優圖持續在積累以人為核心而連接數位化,並且持續提供AI技術的定製儲備。
以服裝行業3D智能虛擬試衣為例,你只需要點擊幾下試穿鍵,就可以看到自己喜歡衣服的試衣效果,然後上傳給後端製衣工廠,就可以坐等收貨。這個過程看似簡單,實際上則需要極大的AI助力。今年優圖打造的3D虛擬試衣技術,能夠為用戶提供極為貼合的試衣效果,不僅可以讓顧客更理性的做出決定,減少退換貨給品牌方帶來的額外成本,同時可以幫助品牌方更了解顧客的決策鏈,為未來風格的設計提供量化數據支撐。此外,針對美妝品類,我們提供在線AI試妝的能力,可以實現實時視頻流,提供包括眼影、唇色、腮紅等實時試妝技術,讓顧客所見即所得。
第二個行業,我想重點提一提工業領域。
對於工業場景來說,融合AI最大的挑戰在於AI的釋放需要設備、網絡和算力作為基礎條件,而工廠顯然不能拆掉流水線去為AI尋找容身之所。所以工業最開始嘗試的,只能是外部的、淺層的工業智能化能力。於是質檢作為一個特殊場景躍然而出,這也是優圖早期重點探索的方向。如果說AI質檢,更多價值是在單一場景中解決人工重複勞動的問題。那麼當AI開始在工廠裡玩數據、玩模型,則正式讓工業AI走向了「腦力勞動」的崗位。
優圖從18年為華星光電提供首個定製化的工業AI質檢服務,到今年我們聯合騰訊雲推出工業視覺AI平臺,為行業客戶提供不同的光學、成像、自動化機構方案,這是一個非常大的跨越式挑戰。通過工業視覺AI平臺,我們提供從數據採集、標註、訓練、評測、推理的全流程功能,針對不同技術背景的用戶畫像,提供不同的訓練方案,讓客戶能自主訓練與迭代屬於自己的模型;目前,我們已經為3C、半導體、航空製造、菸草等領域的客戶提供定製的解決方案,幫助客戶實現了降低人力成本、提高質檢效果、優化管理效率。
第三個領域,我介紹一下廣電傳媒行業。
在座的各位都是媒體朋友們,相信對這個領域會比較感興趣。在廣電傳媒行業,傳統方式是通過大量人力進行拆條、編目和審核等工作,產出效率低並且質量良莠不齊,人工處理效率大約1個小時的視頻人工處理要花3~5個小時,而每個人又會因為對標準的理解不同、操作經驗、工作情緒等因素導致輸出結果不一致。
對於這樣的行業特徵和定製需求,優圖聯合騰訊雲打造的媒體AI中臺,為廣電傳媒行業提供了幾乎各個業務場景所需的智能應用,包括智能標籤、拆條、編目、審核等,通過AI的方式幫助行業實現快速分析和理解視頻的音視圖文,從而輸出所需的結構化信息。此外,基於視頻理解能力,在結果穩定輸出的同時,實現24小時不間斷工作,大大提高了行業效能。總的來說,媒體AI中臺綜合多模態AI服務和平臺管理能力,提供給廣電傳媒行業定製化的服務和平臺體驗。
總結一下,騰訊優圖在 CV 領域的一系列技術解決方案已經深入到包括零售、教育、金融、工業、泛企等在內的多個行業。我們提供20+AI開放能力,10000+AI生態夥伴,未來,我們也將秉持產業落地、基礎研究這樣雙軌道,複合型的π型發展定位。
最後,我想用四個詞語來作為對於未來優圖乃至AI發展的期許:社會進步、技術探索、AI for Good、生態合作。
我們希望AI創造對生活的改變,從而更好的服務人類社會;而每一個在優圖的AI工作者,希望時刻保持我們對於技術的敬畏和對研究的好奇心,同時,我們更加注重合作和生態,不論是產業界、學術界、乃至社會領域等等,我們希望秉持AI for Good的價值觀,do the right thing。
從去年開始,我們推出騰訊Light計劃,每年在這樣的基礎上不斷迭代優化,今年上午,我們發布了騰訊light.公益創新挑戰賽,希望真正的開放騰訊累積多年的AI技術能力,從我們自己做AI公益,到呼籲更多的開發者一起來做AI公益,讓科技公益人人可及。
此外,我們從17年開始對外正式開源,截止目前我們開源超過10個精品作品,包括ncnn、TNN等AI框架,也包括人臉檢測算法 DSFD(Dual Shot Face Detector)、動作檢測算法 DBG、通用目標檢測算法 OSD(OneStageDet)、圖像超分 SuperResolution-RealSR、人臉關鍵點算法 FHR(Fractional Heatmap Regression ) 、人臉屬性算法 FAN 等優秀算法。正如騰訊高級執行副總裁湯道生所述開源對於騰訊的意義,「開源不再是開發者的個人熱情,它已成為許多技術驅動型產業背後重要的創新推動力。我們將進一步擁抱開源,與廣大開發者一起創造正向價值」 。
謝謝大家!