騰訊優多模態融合是計算機視覺技術發展的重要趨勢

2020-12-21 砍柴網

12月19日-20日，由騰訊發起的2020 Techo Park開發者大會於北京順利召開。作為面向全球開發者和技術愛好者的年度盛會，本次開發者大會針對行業開發者、ISV、科研機構、高校師生、創業公司、開源社區工程師等設置了很多的亮點內容和創新活動，來自國內外200多位技術大咖為大家帶來一場年度的技術嘉年華。騰訊優圖實驗室總監黃小明出席大會並在AI分論壇上做了主題為《視覺AI技術的探索與實踐：「新基建時代」下的生產力》致辭分享。

騰訊優圖實驗室總監黃小明

計算機視覺是機器認知世界的基礎，也是最重要的人工智慧技術之一。黃小明認為，計算機視覺將機器學習應用於視覺領域，構成人工智慧的感知基礎，加速人工智慧在相關行業應用落地。

黃小明表示，面對不同場景需求，計算視覺的準確度正在不斷提高。隨著視覺技術精度不斷提升，已經廣泛應用在零售及金融民生等領域。製造業中的質量檢查和控制，成為工業視覺的重要應用場景。中國是世界最大的製造業國家，它的生產力價值正在顯現。

「在未來的計算機視覺研究中，多模態融合、多技術融通是一個重要的趨勢。」黃小明表示，人工智慧正在從語音、文字、視覺等單模態智能，向著多種模態融合發展，結合分布式平臺的計算能力，實現更高精度的場景構建，和對動態場景的處理能力。

以下為黃小明演講實錄：

各位嘉賓：

我是騰訊優圖實驗室的黃小明，非常榮幸在這個場合有機會跟各位同仁就一些技術問題進行探討。

視覺AI技術是我研究的主要領域之一。近年來，深度學習技術、GPU算力以及海量數據，作為AI技術發展的三大催化劑，加速了視覺技術在各行各業應用落地，助力產業網際網路升級。計算機視覺的廣闊應用前景，為我們展開了前所未有的壯麗圖景。

目前，計算機視覺已經在工業視覺、OCR以及內容理解等領域獲得重大突破，隨著計算機視覺技術精度和成熟度的提高，正不斷滲透到娛樂、醫療、零售行業等更多重點應用場景，推動技術變革和用戶體驗提升。例如，在泛娛樂領域，以計算機視覺為基礎的人臉檢測技術、人臉關鍵點定位技術、人臉融合以及人像分割技術等AI視覺技術，通過對泛娛樂場景各類基礎人臉研究和挖掘整合，打造出多項泛娛樂人像特效應用，為泛娛樂行業用戶提供各類新奇酷炫的AI視覺特效和娛樂體驗。

疫情期間，由優圖提供視覺AI技術支持的騰訊「防疫健康碼」，讓民眾通過申請涵蓋自身健康信息的二維碼，獲得電子出行憑證，方便民眾在疫情期間出入公共場所，也利於為政府部門統一管理。在各地復工復產的高峰期，各地健康碼互通，民眾出入不同省市都只用進行一次健康狀況的認證，加快復工復產進度，也使國家在疫情期間對信息的統一管理更加精準有效。騰訊「防疫健康碼」是服務用戶最多、增長速度最快的健康碼。截至目前，騰訊防疫健康碼服務9億用戶、累計亮碼150億人次，累計訪問量500億次。背後都有我們的視覺AI在發揮作用。

在未來的計算機視覺研究中，多模態融合、多技術融通是一個重要的趨勢。人工智慧正在從語音、文字、視覺等單模態智能，向著多種模態融合發展，結合分布式平臺的計算能力，實現更高精度的場景構建，和對動態場景的處理能力。

當然我們的工作還面臨著諸多挑戰。目前還無法建立一個通用的「視覺機器」，無法做到統一模型同時滿足不同場景要求。這意味著當下機器學習的訓練成本較高，也沒有達到產業化應用的理想狀態。要解決這個問題，需要從端到端打通各個模態之間的關係，形成可以真正多維度交互的智能機器，讓感知智能升級為認知智能。

計算機視覺的技術前景是令人興奮的，還有很多未抵達的神奇地域等著我們去探索。阿蘭·圖靈曾說過：「這不過是將來之事的前奏，也是將來之事的影子。」從人類開闢出人工智慧領域，到今天真正的應用落地，時光只不過是歷史一瞬。未來，讓我們仰望星空，腳踏實地，共同創造中國計算機視覺的新輝煌，期待各位的分享。

相關焦點

騰訊優圖: 多模態融合是計算機視覺技術發展的重要趨勢

騰訊優圖實驗室總監黃小明出席大會並在AI分論壇上做了主題為《視覺AI技術的探索與實踐："新基建時代"下的生產力》致辭分享。騰訊優圖實驗室總監黃小明計算機視覺是機器認知世界的基礎，也是最重要的人工智慧技術之一。黃小明認為，計算機視覺將機器學習應用於視覺領域，構成人工智慧的感知基礎，加速人工智慧在相關行業應用落地。
騰訊優圖:多模態融合是計算機視覺技術發展的重要趨勢

作為面向全球開發者和技術愛好者的年度盛會，本次開發者大會針對行業開發者、ISV、科研機構、高校師生、創業公司、開源社區工程師等設置了很多的亮點內容和創新活動，來自國內外200多位技術大咖為大家帶來一場年度的技術嘉年華。騰訊優圖實驗室總監黃小明出席大會並在AI分論壇上做了主題為《視覺AI技術的探索與實踐：「新基建時代」下的生產力》致辭分享。
騰訊優圖黃小明:多模態融合、多技術融通成為未來計算機視覺研究的...

12月19日-20日，由騰訊發起的2020 Techo Park開發者大會於北京順利召開。騰訊優圖實驗室總監黃小明出席大會並在AI分論壇上做了主題為《視覺AI技術的探索與實踐：」新基建時代」下的生產力》致辭分享。
打造四大AI平臺:騰訊優圖的視覺AI To B打法

今天，AI 技術正變得無所不在，新基建和產業網際網路將為各行各業的發展帶來新增量。面對新的發展機遇，騰訊提出了全新的戰略，而騰訊優圖實驗室在其中正扮演著重要角色。「我們可以看到，視覺 AI 相關應用業務正在飛速增長，這反映了企業端的人工智慧技術需求正在釋放，」騰訊優圖實驗室副總經理黃飛躍表示。
視覺、觸覺、聽覺，探索機器人多模態感知融合

我們在技術、思想、傳播的異界，販來極限腦量下的TMT。我們知道，人工智慧的目標之一就是讓計算機模擬人類的視覺、聽覺、觸覺等感知能力，嘗試去看、聽、讀，理解圖像、文字、語音等，在此基礎上，再讓人工智慧具有思維能力、行動能力，最終成為跟人類一樣的存在。
全球計算機視覺頂會CVPR 2019論文出爐:騰訊優圖25篇論文入選

中國團隊表現不俗，此次，騰訊公司有超過58篇論文被本屆CVPR大會接收，其中騰訊優圖實驗室25篇、騰訊AI Lab33篇，相比過去兩年成績大幅提升。作為計算機視覺領域級別最高的研究會議，CVPR2019錄取論文代表了計算機視覺領域在2019年最新和最高的科技水平以及未來發展潮流。CVPR官網顯示，今年有超過5165篇的大會論文投稿，最終錄取1299篇。
全球計算機視覺頂會CVPR 2020論文出爐:騰訊優圖17篇論文入選

【獵雲網北京】2月28日報導全球計算機視覺頂級會議CVPR2020 (IEEE Conference on Computer Vision and Pattern Recognition，即IEEE國際計算機視覺與模式識別會議) 即將於2020年6月14日-19日在美國西雅圖召開。
2020年智能安防技術發展趨勢

但是，隨著2020年初的一場疫情，非接觸式門禁出入口控制技術的應用得到了高度的重視和發展。　　掌紋識別是一種新型的生物特徵識別技術，它以人體的掌紋作為目標特徵，通過多光譜成像技術採集生物信息。多光譜掌紋識別算得上是多模態和多種目標特徵融合的生物特徵識別技術的典範。這種新技術將皮膚光譜、掌紋紋路與靜脈脈絡三種可識別特徵結合，一次性提供更加豐富的信息，增加了目標特徵的可區分度。
國內首份OCR白皮書出爐,公布OCR技術發展三大趨勢

白皮書從OCR發展背景、技術沿革、產業發展現狀、技術標準化、發展趨勢等多個維度，對當前國內OCR產業進行了一次詳細梳理，全面助推OCR技術產業化加速落地及可持續發展。OCR是光學字符識別（Optical CharacterRecognition）的縮寫，指利用機器將圖像中手寫體或印刷體的文本轉換為計算機可以直接處理的格式。
「深」份證用上人臉融合技術，騰訊雲、騰訊優圖提供支撐

來源：讀特「來了，就是深圳人，快來領張『深』份證」近兩日在朋友圈刷屏，這款產品採用的人臉融合技術備受關注。記者昨日獲悉，該技術由騰訊優圖實驗室研發，通過騰訊雲對外提供服務。第三方數據顯示，騰訊雲AI公有雲市場份額進入國內前三。優圖實驗室的行業解決方案也已經在金融、政務等領域對對外開放，積累多年的視覺AI能力。
多模態技術成為趨勢,追一科技數字人走進 DeeCamp

作為DeeCamp實踐課題之一，追一科技數字人首次走進課堂，讓學員感受工業界氛圍下的AI產品研發與應用魅力，探索文本、語音和視覺多模態交互創新的無限可能。在訓練營基礎理論部分，劉雲峰博士從上世紀五十年代的形式語言說起，到2000年後崛起的神經網絡，直到近期各種刷榜模型，讓學員對技術發展脈絡和未來發展趨勢，以及技術到應用和產業化轉換路徑，也有了更全面的認知。
中國計算機視覺技術現狀與發展趨勢分析

2019年中國人工智慧專利申請數量超過10萬項，穩居世界第一；計算機視覺技術作為人工智慧最重要的細分領域，我國的專利申請量也遠高於其他國家，然而專利申請人集中度分散，未能形成大競爭局面，且多為東部地區，專利布局有待加強。
面向 2035 的多模態智慧網絡技術發展路線圖

一、前言隨著信息通信網絡技術的不斷發展，網際網路已成為與國民經濟和社會發展高度相關的重要基礎設施。網際網路與人類社會生活深入融合，用戶對網際網路的使用需求從簡單的端到端模式轉變為對海量內容的獲取，並發展出移動網際網路 [1]、物聯網 [2]、雲計算 [3] 等新模式。
騰訊加碼AI新基建!推四大視覺AI平臺,建450億超算中心

這是在2020年新基建背景下，騰訊將多年積累的AI能力大舉賦能產業網際網路的一大動作。騰訊高級執行副總裁、雲與智慧產業事業群總裁湯道生說，人工智慧是新基建的核心技術之一，也是產業網際網路的「中央處理器」。騰訊優圖實驗室總經理吳運聲對智東西等媒體說：「AI已經邁入技術和產業深度融合的新階段，新基建政策為AI落地發展按下了一個快捷鍵。」
基於互信息的多模態數據融合

考慮到大多數疾病的放射模式的異質性和複雜性，自動結合電子計算機斷層掃描（Computed Tomography，CT）、磁共振成像（Magnetic Resonance Imaging, MRI）或正電子發射斷層掃描（Positron Emission Tomography，PET）的相關信息的新的多模態成像方法，能夠檢測到單獨考慮每種模態時可能的遺漏點。
朋友圈爆款背後的計算機視覺技術與應用

>計算機視覺是研究如何從圖像視頻中獲取高級、抽象的信息。從工程角度來講，計算機視覺可以使模仿視覺任務自動化。現在由於整個OCR的技術相當成熟，基本上是大家提供一個比較清晰的照片，然後全部識別出來。右邊是車牌識別，這在國內是非常常用的技術。
多模態數據融合挑戰

我們用 "模態 "一詞來表示每一種這樣的獲取框架。由於自然現象及其發生環境的豐富特徵，單一模態能夠提供有關現象的完整知識是非常罕見的。越來越多的幾種模態同時出現，帶來了新的自由度。本文的目的是在概念層面提出多模態數據融合的各種挑戰，而不是側重於任何具體的模式、方法或應用。
2018年計算機視覺技術三大發展趨勢分析

這一點也同樣發生在計算機視覺上，根據前瞻產業研究院《2018-2023年中國機器視覺產業發展前景與投資預測分析報告》對CAICT（中國信息通信研究院）、Ganter、CBInsights等機構發布的數據匯總，2017年我國計算機視覺市場規模的增速都超過了110%，對2020年我國計算機視覺市場規模的預測也非常樂觀，增速基本上也都在100%以上。
騰訊優圖2020疫情下再出發!專利800+項,AI落地直面碎片化

也由於疫情，騰訊會議被許多人熟練使用，其中優圖計算機視覺等AI技術也被廣泛應用，體現在AI美顏、去除背景、視線矯正、暗光優化等許多智能化功能上。二、多模態生物識別、人臉識別反攻擊等方面獲突破會上，騰訊優圖實驗室副總經理黃飛躍進一步具體解讀了騰訊優圖這一年的發展。黃飛躍認為可以用兩個關鍵詞總結——突破和自動化。
騰訊優圖攜最新OCR技術與解決方案亮相VALSE2019

作為國際前沿的視覺AI研究機構，騰訊優圖實驗室受邀參會，為與會者帶來了其最新OCR產品解決方案與技術分享。目前，優圖的AI 技術已廣泛應用在零售、安防、金融、物流等諸多領域，提供超過12個行業解決方案，接入70多條騰訊明星產品業務，擁有超過700項全球專利。在學術成就方面，優圖實驗室累計申請了327篇國內AI專利和169篇國際AI專利，2019年 3月，優圖實驗室25篇論文入選全球一流計算機視覺會議CVPR2019的成績，備受業界矚目。

騰訊優 多模態融合是計算機視覺技術發展的重要趨勢

相關焦點

騰訊優圖: 多模態融合是計算機視覺技術發展的重要趨勢

騰訊優圖:多模態融合是計算機視覺技術發展的重要趨勢

騰訊優圖黃小明:多模態融合、多技術融通成為未來計算機視覺研究的...

打造四大AI平臺:騰訊優圖的視覺AI To B打法

視覺、觸覺、聽覺，探索機器人多模態感知融合

全球計算機視覺頂會CVPR 2019論文出爐:騰訊優圖25篇論文入選

全球計算機視覺頂會CVPR 2020論文出爐:騰訊優圖17篇論文入選

2020年智能安防技術發展趨勢

國內首份OCR白皮書出爐,公布OCR技術發展三大趨勢

「深」份證用上人臉融合技術，騰訊雲、騰訊優圖提供支撐

多模態技術成為趨勢,追一科技數字人走進 DeeCamp

中國計算機視覺技術現狀與發展趨勢分析

面向 2035 的多模態智慧網絡技術發展路線圖

騰訊加碼AI新基建!推四大視覺AI平臺,建450億超算中心

基於互信息的多模態數據融合

朋友圈爆款背後的計算機視覺技術與應用

多模態數據融合挑戰

2018年計算機視覺技術三大發展趨勢分析

騰訊優圖2020疫情下再出發!專利800+項,AI落地直面碎片化

騰訊優圖攜最新OCR技術與解決方案亮相VALSE2019

騰訊優多模態融合是計算機視覺技術發展的重要趨勢