創新工場「數據下毒」論文入選NeurIPS 2019,AI安全問題需要引起...

2020-11-24 雷鋒網

雷鋒網(公眾號:雷鋒網) AI 科技評論按:9 月 4 日,被譽為機器學習和神經網絡領域的頂級會議之一的 NeurIPS 2019 揭曉收錄論文名單,創新工場人工智慧工程院的論文《Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder》(深度困惑:一種利用自編碼器生成惡意訓練樣本的方法)被接收在列。這篇論文的三位作者為:馮霽(創新工場南京國際人工智慧研究院執行院長)、蔡其志(創新工場南京國際人工智慧研究院研究員) 、周志華(南京大學人工智慧學院院長)。

這篇論文圍繞現階段人工智慧系統的安全性展開研究,具體而言,文章提出了一種高效生成對抗訓練樣本的方法 DeepConfuse,通過微弱擾動資料庫的方式,徹底破壞對應的學習系統的性能,達到「數據下毒」的目的。這一技術的研究並不單單是為了揭示類似的 AI 入侵或攻擊技術對系統安全的威脅,而是致力於在深入研究相關的入侵或攻擊技術的基礎上,有針對性地制定防範「AI 黑客」的完善方案,對 AI 安全攻防這一前沿研究方向的推動與發展具有積極指導作用。

NeurIPS,全稱神經信息處理系統大會 (Conference and Workshop on Neural Information Processing Systems),自1987年誕生至今已有 32 年的歷史,一直以來備受學術界和產業界的高度關注。該會議固定在每年的 12 月舉行,由 NIPS 基金會主辦。在中國計算機學會的國際學術會議排名中,NeurIPS 為人工智慧領域的A類會議,同時也是人工智慧領域最富盛名的年度會議之一,會議門票動輒在數分鐘內售磬。

一直以來,NeurIPS 都以重視論文質量著稱,並保持著相對較低的錄取率。今年,NeurIPS 會議的論文投稿量再創造新高,共收到 6743 篇投稿,最終錄取 1428 篇論文,錄取率為 21.2%。

目前這篇論文還不是最終狀態,Camera Ready 將版本在 1 個月後通過 NeurIPS 正式途徑放出。下面我們介紹一下論文的主要內容。

創新工場「數據下毒」論文入選頂會 NeurIPS

近年來,機器學習熱度不斷攀升,並逐漸在不同應用領域解決各式各樣的問題。不過,卻很少有人意識到,其實機器學習本身也很容易受到攻擊,模型並非想像中堅不可摧。

例如,在訓練 (學習階段) 或是預測 (推理階段) 這兩個過程中,機器學習模型就都有可能被對手攻擊,而攻擊的手段也是多種多樣。創新工場 AI 工程院為此專門成立了 AI 安全實驗室,針對人工智慧系統的安全性,進行了深入對評估和研究。

《Learning to Confuse: Generating Training Time Adversarial Data with Auto-Encoder》這篇論文的主要貢獻,就是提出了高效生成對抗訓練數據的最先進方法之一—— DeepConfuse,通過劫持神經網絡的訓練過程,教會噪聲生成器為訓練樣本添加一個有界的擾動,使得該訓練樣本訓練得到的機器學習模型在面對測試樣本時的泛化能力儘可能地差,非常巧妙地實現了「數據下毒」。

顧名思義,「數據下毒」即讓訓練數據「中毒」,具體的攻擊策略是通過幹擾模型的訓練過程,對其完整性造成影響,進而讓模型的後續預測過程出現偏差。(「數據下毒」與常見的「對抗樣本攻擊」是不同的攻擊手段,存在於不同的威脅場景:前者通過修改訓練數據讓模型「中毒」,後者通過修改待測試的樣本讓模型「受騙」。)

舉例來說,假如一家從事機器人視覺技術開發的公司希望訓練機器人識別現實場景中的器物、人員、車輛等,卻不慎被入侵者利用論文中提及的方法篡改了訓練數據。研發人員在目視檢查訓練數據時,通常不會感知到異常(因為使數據「中毒」的噪音數據在圖像層面很難被肉眼識別),訓練過程也一如既往地順利。但這時訓練出來的深度學習模型在泛化能力上會大幅退化,用這樣的模型驅動的機器人在真實場景中會徹底「懵圈」,陷入什麼也認不出的尷尬境地。更有甚者,攻擊者還可以精心調整「下毒」時所用的噪音數據,使得訓練出來的機器人視覺模型「故意認錯」某些東西,比如將障礙認成是通路,或將危險場景標記成安全場景等。

為了達成這一目的,這篇論文設計了一種可以生成對抗噪聲的自編碼器神經網絡 DeepConfuse,通過觀察一個假想分類器的訓練過程更新自己的權重,產生「有毒性」的噪聲,從而為「受害的」分類器帶來最低下的泛化效率,而這個過程可以被歸結為一個具有非線性等式約束的非凸優化問題。

從實驗數據可以發現,在 MNIST、CIFAR-10 以及縮減版的 IMAGENET 這些不同數據集上,使用「未被下毒」的訓練數據集和「中毒」的訓練數據集所訓練的系統模型在分類精度上存在較大的差異,效果非常可觀。

與此同時,從實驗結果來看,該方法生成的對抗噪聲具有通用性,即便是在隨機森林和支持向量機這些非神經網絡上也有較好表現。(其中藍色為使用「未被下毒」的訓練數據訓練出的模型在泛化能力上的測試表現,橙色為使用「中毒」訓練數據訓練出的模型的在泛化能力上的測試表現)

在 CIFAR 和 IMAGENET 數據集上的表現也具有相似效果,證明該方法所產生的對抗訓練樣本在不同的網絡結構上具有很高的遷移能力。

此外,論文中提出的方法還能有效擴展至針對特定標籤的情形下,即攻擊者希望通過一些預先指定的規則使模型分類錯誤,例如將「貓」錯誤分類成「狗」,讓模型按照攻擊者計劃,定向發生錯誤。

例如,下圖為 MINIST 數據集上,不同場景下測試集上混淆矩陣的表現,分別為乾淨訓練數據集、無特定標籤的訓練數據集、以及有特定標籤的訓練數據集。

實驗結果有力證明了,為有特定標籤的訓練數據集做相應設置的有效性,未來有機會通過修改設置以實現更多特定的任務。 

對數據「下毒」技術的研究並不單單是為了揭示類似的 AI 入侵或攻擊技術對系統安全的威脅,更重要的是,只有深入研究相關的入侵或攻擊技術,才能有針對性地制定防範「AI 黑客」的完善方案。隨著 AI 算法、AI 系統在國計民生相關的領域逐漸得到普及與推廣,科研人員必須透徹地掌握 AI 安全攻防的前沿技術,並有針對性地為自動駕駛、AI 輔助醫療、AI 輔助投資等涉及生命安全、財富安全的領域研發最有效的防護手段。

聯邦學習對AI安全研發提出新的目標

除了安全問題之外,人工智慧應用的數據隱私問題,也是創新工場AI安全實驗室重點關注的議題之一。 近年來,隨著人工智慧技術的高速發展,社會各界對隱私保護及數據安全的需求加強,聯邦學習技術應運而生,並開始越來越多地受到學術界和工業界的關注。

具體而言,聯邦學習系統是一個分布式的具有多個參與者的機器學習框架,每一個聯邦學習的參與者不需要與其餘幾方共享自己的訓練數據,但仍然能利用其餘幾方參與者提供的信息更好的訓練聯合模型。換言之,各方可以在在不共享數據的情況下,共享數據產生的知識,達到共贏。

創新工場 AI 工程院十分看好聯邦學習技術的巨大應用潛力,今年3月,「數據下毒」論文作者、創新工場南京國際人工智慧研究院執行院長馮霽代表創新工場當選為 IEEE 聯邦學習標準制定委員會副主席,著手推進位定 AI 協同及大數據安全領域首個國際標準。創新工場也將成為聯邦學習這一技術「立法」的直接參與者。

「數據下毒」論文答疑

9 月 5 日上午,創新工場 AI 工程院組織了一場問答,解答雷鋒網 AI 科技評論等各家媒體提出的關於這篇「數據下毒」論文的問題。創新工場CTO、人工智慧工程院執行院長王詠剛,以及這篇論文第一作者、創新工場南京國際人工智慧研究院執行院長馮霽進行了在線解答。

問:「數據下毒」研究的目的是什麼?

問:在這項研究中,先假定一個被攻擊的模型,針對假定的模型就可以開始生成對抗性訓練樣本;而且這些生成的樣本對於其他的模型也有明顯的效果。也就是說,假如這個方法被實際使用,我甚至不需要知道別人使用的是什麼樣的模型就有機會對別人造成危害。我這樣理解對嗎?

問:目前還有哪些有效防護AI算法、AI系統的手段?

  • 王詠剛:目前的 AI 系統攻防處於非常早期的研發階段,與傳統安全領域已經相對成熟的方法論、算法、工具、平臺等相比,AI 安全攻防還處於探索期。目前的主流攻擊方法,如對抗樣本攻擊,數據下毒攻擊等,雖然已經有一些防範思路,但無論是攻擊技術,還是安全防護技術都在發展中。

  • 馮霽: 目前防護的技術還處於較為初期的情況,類似於網絡安全,不存在一個包治百病的「疫苗」,對於人工智慧企業,我們建議需要建立專門的安全團隊,對自家的系統進行全方位的保護。

問:目前有沒有利用這個方法實際去挖掘無人駕駛系統等領域的漏洞(類似科恩實驗室成功攻擊特斯拉系統那樣)?

  • 王詠剛:這個不算很難,其實有不少技術強的研究機構或實驗室都可以做出類似的結果。可以說今天的很多無人駕駛系統使用的 AI 算法,在設計和實現的時候,是較少考慮安全防護的。另一方面,新的 AI 安全攻擊方法、威脅形式也在不斷湧現出來。黑盒模式在外部偽造交通標誌進行攻擊,白盒模式針對具體模型進行攻擊,入侵模式針對數據進行「下毒」方式的數據汙染,攻擊方法會越來越多。我的感覺是目前業界對 AI 安全的整體認知和重視程度並不足夠,這種情況下,一旦與人身安全或財產安全相關的 AI 系統大量上線運行,大量的安全事件就會暴露出來。我們建議儘早對 AI 安全防護進行透徹研究,儘早投入足夠資源研發 AI 安全防護工具與防護技術。

  • 馮霽: 針對無人車的攻擊是有的,但是目前公布出來的主要是產生對抗樣本。數據下毒的工作剛推出來 24 小時,尚未見到應用。我們需要提醒這項技術的破壞性很大,請讀者不要做違法犯罪的活動。

問:「數據下毒」給 AI 安全性帶來警醒。目前,AI 技術已經在很多領域得到應用,這種應用是不是已經遠遠超前於 AI 技術安全性的研究?

問:目前針對人工智慧系統的安全事件多麼?

  • 王詠剛:最近剛剛出現的利用 AI 模擬語音來詐騙錢財的案件,就是AI安全的相對嚴重的事件。AI 技術必然會被應用於各種核心業務領域,甚至涉及財產或生命安全(如醫療、自動駕駛、金融等),未來隨著 AI 攻擊技術的發展,相關的事件必然越來越多。

  • 馮霽:目前安全事件還不像傳統計算機系統的病毒一樣普遍,但是有理由相信,隨著時間的推移,未來這件將會成為一個獨立的產業,另外,針對安全或數據隱私的法律也會逐步出臺,例如歐盟的 GDPR 法案。

問:AI安全會對技術的落地與發展產生什麼樣的影響?

問:目前國內和國際在AI安全性的研究上的差距有多大,差距體現在哪些方面?

  • 王詠剛:AI 安全性的理論研究層面:國內和國際的差距不大,國內如南京大學周志華團隊,在機器學習魯棒性、安全性的核心理論層面,就有著非常前沿的研究成果。

    AI 安全性的工程應用層面:應該說國內、國際目前都處於非常早期的階段。從使用系統角度將,Google、Facebook 等巨頭在工程、產品和系統裡的AI安全技術使用上,有一定先發優勢,比如 Google 已經在好幾個具體的客戶端、服務端產品中應用了聯邦學習等保護數據安全的技術。但是隨著國內對 AI 安全的逐漸重視,相信國內的應用級研發也會慢慢跟上來。

  • 馮霽:目前 AI 安全性的研究十分新穎,大家幾乎在同一個起跑線上,具體體現是最前沿技術的研製,中美平分秋色。我們認為安全無小事,國家需要重視。

問:對於近日備受爭議的 ZAO,您怎麼看?創新工場認為人工智慧安全方面的邊界是哪裡呢

  • 王詠剛:不談具體 ZAO 的問題。但本質上這一類問題是在發展和利用 AI 技術的時候,如何保護智慧財產權、用戶隱私的綜合問題。今天的 AI 技術發展必須考慮法律和道德合規性的問題,不能觸犯用戶底線,就像在歐洲做 AI 就必須符合 GDPR 規範一樣。AI 安全攻防相關的技術可以為法律和道德合規性提供足夠的技術保障,但這僅僅是技術層面的事情。人工智慧安全,事實上必須由技術手段、法律手段、道德手段、行業規範手段等一起來維護。

  • 馮霽:對於用戶隱私數據造成的安全威脅,在人工智慧時代將會被越來越重視,產生的威脅也會越來越多,ZAO 就是一例。聯邦學習技術其實就是為解決此類問題提出的解決之道。類似於安全領域的「白帽子」,我們呼籲更多的 AI 安全「白帽子」的出現,共同對人工智慧系統的安全漏洞進行評估和分析。

問:人工智慧領域是否有可能建立一些行業的安全標準?

  • 王詠剛:是的,人工智慧領域不但有可能,也完全應該建立一系列行業安全標準,來規範人工智慧技術的使用。這些安全標準可能包括:AI 系統魯棒性和安全性的評估標準,AI 系統交換數據時的數據安全標準,AI系統涉及用戶隱私數據時的隱私保護標準,AI 系統涉及人身安全時的強制性行業標準等等。創新工場AI工程院目前參加的 IEEE 聯邦學習標準委員會,就是 AI 數據和隱私安全的標準之一。

  • 馮霽:目前正在做,包括針對用戶數據隱私保護的技術聯邦學習,是 IEEE 推出的第一個人工智慧協同合作方面的國際標準,創新工場正是負責其中的安全評估部分。

創新工場 AI 工程院論文成果斬獲多項國際頂會

創新工場憑藉獨特的 VC+AI(風險投資與AI研發相結合)的架構,致力於扮演前沿科研與AI商業化之間的橋梁角色。創新工場 2019 年廣泛開展科研合作,與其他國際科研機構合作的論文在多項國際頂級會議中嶄露頭角,除上述介紹的「數據下毒」論文入選 NeurlPS 之外,還有 8 篇收錄至五大學術頂會。

1、兩篇論文入選計算機視覺領域國際頂會 ICCV

ICCV,全稱國際計算機視覺大會( IEEE International Conference on Computer  Vision),由IEEE主辦,與計算機視覺模式識別會議(CVPR)和歐洲計算機視覺會議(ECCV)並稱計算機視覺方向的三大頂級會議,在業內具有極高的評價。

今年,創新工場AI工程院與加州大學伯克利分校、清華大學等單位合作的2篇論文收錄其中。

Disentangling Propagation and Generation for Video Prediction

這篇論文的主要工作圍繞一個視頻預測的任務展開,即在一個視頻中,給定前幾幀的圖片預測接下來的一幀或多幀的圖片。

視頻中的動態場景可以被劃分成以下兩種情況:第一種是移動相對平滑的畫面,它們可以通過上一幀的畫面使用比較簡單的預測方式得到;第二種是有遮擋發生,通常難以直接通過外插得到的畫面。此前關於這類視頻預測的工作,只能考慮對之前圖片的外插,或是使所有像素均由生成模型得到。

本文提出了一種組合式的模型來完成該任務,將視頻預測任務解耦成運動相關的圖片傳播和運動無關的圖片生成兩個任務,並分別通過光流預測和圖片生成的方法完成這兩個任務,最後提出了一個基於置信度的圖片轉換算子將這兩個操作融合起來。

實驗證明,在動畫場景和真實場景下,論文提出的方法都能產生更加精確的遮擋區域和更加銳利和真實的圖片。

Joint Monocular 3D Vehicle Detection and Tracking

這篇論文提出了一種全新的在線三維車輛檢測與跟蹤的聯合框架,不僅能隨著時間關聯車輛的檢測結果,同時可以利用單目攝像機獲取的二維移動信息估計三維的車輛信息。

在此基礎上,論文還提出了基於深度的三維檢測框匹配方法,並利用三維軌跡預測對遮擋目標進行重識別,該方法能夠利用三維信息做到更加魯棒的軌跡跟蹤。

此外,論文設計了一個基於長短期記憶網絡的運動預測模型,它能更加準確地預測長期運動。

基於模擬數據,KITTI和Argoverse數據集的實驗驗證了該方法的魯棒性。同時發現,在Argoverse數據集上,對30m以內的物體,僅使用視覺輸入的方法的性能顯著優於基於雷射雷達輸入的基線方法。

2、一篇論文入選機器人與自動化領域國際頂會IROS

IROS,全稱國際智慧機器人與系統大會(International Conference on Intelligent Robots and  Systems),是國際機器人與自動化領域的兩大影響最大的學術會議之一。

自機器人技術發展初期的1988年開始,IROS每年舉辦一屆,迄今已經是第30屆。每年,來自世界各個頂尖機器人研究機構的專家和業界人士匯聚在這個盛會,探討和展示機器人行業最前沿的技術。

今年,創新工場AI工程院與加州大學伯克利分校等單位合作的1篇論文收錄其中。

Monocular Plan View Networks for Autonomous Driving

通常情況下,在單目視頻上的卷積神經網絡方法能夠有效的捕獲圖片的空間信息,但是卻對深度信息難以有效利用,這也是一直以來有待業內攻克的難點之一。

本文針對端到端的控制學習問題提出了一個對當前觀察的視角轉換,將其稱之為規劃視角,它把將當前的觀察視角轉化至一個鳥瞰視角。具體的,在自動駕駛的問題下,在第一人稱視角中檢測行人和車輛並將其投影至一個俯瞰視角。

本文認為,這種人工設計的表徵能夠提供了一個對環境信息的抽象,使得神經網絡能夠更有效的推斷物體的位置,朝向等信息。

在GTA 5模擬器上進行的實驗驗證,一個同時使用規劃視角和正面視角作為輸入的神經網絡比起純基於正面視角的基線方法碰撞率下降了一個數量級,和之前的基於檢測結果的方法,本文中提出的方法降低了一半的碰撞率。

3、三篇論文入選自然語言處理領域國際頂會EMNLP

EMNLP,全稱自然語言處理中的經驗方法會議(Conference on Empirical Methods in Natural  Language Processing),是自然語言處理領域的頂級會議。

今年,創新工場AI工程院與香港科技大學、中科院計算所、清華大學、中國科學院大學等單位合作的3篇論文收錄其中。

Multiplex Word Embeddings for Selectional Preference Acquisition

本論文的主要工作是與香港科技大學聯合完成。

傳統的詞向量模型通常利用靜態向量來表示詞與詞之間共現關係,然而這種模型無法很好地捕捉詞語之間(在不同場景下)的不同關係,例如,這類靜態向量無法有效分辨「食物」應該作為「吃」的主語還是賓語。

為了解決這個問題,文本提出了一種multiplex詞向量模型。在該模型中,對於每個詞而言,其向量包含兩部分,主向量和關係向量,其中主向量代表總體語義,關係向量用於表達這個詞在不同關係上的特徵,每個詞的最終向量由這兩種向量融合得到。

為了有效使用這種多向量表達,文本提出的模型還包含了一個向量壓縮模塊,能夠將向量壓縮至原始尺寸的十分之一而不損失效果。

本文提出的模型在多個實驗中均證明了其有效性,尤其是在一些需要句法信息的場景下超越了當前最優的預訓練模型。

可以說,文本表徵一直是自然語言理解在深度學習時代的重要基礎技術和前沿陣地。近年來預訓練模型的廣泛使用以及其在多數任務上的優良性能證明了其可以更好地表達一段文本在特定上下文中的語義。然而,作為語言表達的基本單元,詞語一直是研究語義和理解的重要基礎,尤其對於很多複雜場景中需要句法和各類關係信息的支撐,預訓練模型也無法很好地表達這些文本中的詞彙語義信息。

因此,本文延續了傳統詞向量方面的研究,將關係信息加入到詞向量建模過程中,得以顯示區分不同場景下的詞的不同表徵,並在一系列任務中證明了其有效性,同時藉助於模型中的壓縮模塊可以將詞向量規模縮小至原始尺寸的十分之一,將極大改善使用該詞向量的運行環境對於資源的需求。

What You See is What You Get: Visual Pronoun Coreference Resolution in Dialogues

本論文的主要工作是與香港科技大學、清華大學聯合完成。

在實際語言使用中,將一個代詞連結到其指代的物體需要多種知識的支持。例如,當兩個人談話時,當他們共同看見一個物體,他們可能會直接用代詞(例如「它」)來指代而不會在文字中先行描述。

該現象給現有的指代消解模型帶來了巨大的挑戰,為此,本文提出了一個新模型(VisCoref)及一個配套數據集(VisPro),用以研究如何將代詞指代與視覺信息進行整合。

其中,數據集部分,本文從一個含有視覺信息支撐的對話數據中隨機挑選了5000個對話,然後邀請眾包平臺上的標註者標註代詞和它們指代的名詞短語之間的關聯關係,並經過一系列的清洗之後,得到了高質量的標註數據;模型部分,為了整合對話中的文字信息和圖片中的信息,首先對於文字和圖片進行信息抽取,並分別獲得對應的向量表達,然後使用這些向量對於抽取的圖像信息進行基於注意力機制的整合,並將得到的結果通過一個全連接神經網絡預測基於視覺和文字的分數用於預測指代關係。

本文研究表明,加入視覺信息能夠有效地幫助到對話中的代詞指代消解任務。

事實上,多模態一直是人工智慧各個領域的研究熱點。尤其對於人類溝通場景(對話)而言,這個過程中需要利用和產生的很多信號都不僅僅只是文本,視覺信息在其中佔據了重要成分。作為自然語言理解中的一個重要任務,指代消解也對於視覺信號有極強依賴。

為了研究這一問題,本文首次提出聯合建模視覺信號和指代消解中的代詞及被指代的名詞,將視覺信息加入到經典的指代消解任務中,並證明了其有效性。同時,本文還構建了一個帶有視覺信號的指代消解數據集,為學界和業界提供了一個基準測試對象,以助於將來這方面的研究。

Reading Like HER: Human Reading Inspired Extractive Summarization

本論文的主要工作是與中科院計算所聯合完成,本項研究重新審視了長文檔的抽取式摘要問題。

人類通過閱讀進行文本語義的摘要總結大體上可以分為兩個階段:1)通過粗略地閱讀獲取文本的概要信息,2)進而進行細緻的閱讀選取關鍵句子形成摘要。

本文提出一種新的抽取式摘要方法來模擬以上兩個階段,該方法將文檔抽取式摘要形式化為一個帶有上下文的多臂老虎機問題,並採用策略梯度方法來求解。

首先,採用卷積神經網絡對段落要點進行編碼以模擬粗略閱讀階段。隨後,利用一種帶有自適應終止機制的決策策略模擬細緻閱讀階段。

在CNN和DailyMail數據集上的實驗表明,論文提出的方法不僅在ROUGE-1、2、L等度量上明顯優於當前最好的抽取式摘要方法,並且能夠抽取出具有不同長度的高質量摘要。

一直以來,模擬人的行為習慣執行自然語言處理任務都是NLP和AI學界的努力方向,特別對於像文本摘要這樣對於人類而言也屬於高級和複雜的任務,需要級強地自然語言理解和文本組織能力。

本文在這一方面做了有益的嘗試,將閱讀理解過程拆分成類似人類閱讀的兩階段進行建模,並證明這樣做可以得到更好地抽取式摘要生成效果。

以及,論文《sPortfolio: Stratified Visual Analysis of Stock Portfolios》入選計算機圖形學和可視化領域國際頂級期刊 IEEE TVCG,本文主要是對於金融市場中的投資組合和多因子模型進行可視分析的研究。論文《Monoxide:  Scale Out Blockchain with Asynchronized Consensus Zones》入選計算機網絡頂級學術會議 NSDI,這是國際主流學術界首次認可區塊鏈擴容方案的相關研究,是該會議今年錄取的唯一一篇與區塊鏈相關的論文。

創新工場獨特的「科研助推商業」思路

創新工場「VC+AI」模式的最獨特之處在於,創新工場的 AI 工程院可以通過廣泛的科研合作以及自身的科研團隊,密切跟蹤前沿科研領域裡最有可能轉變為未來商業價值的科研方向。這種「科研助推商業」的思路力圖儘早發現有未來商業價值的學術研究,然後在保護各方智慧財產權和商業利益的前提下積極與相關科研方開展合作,同時由 AI 工程院的產品研發團隊嘗試該項技術在不同商業場景裡可能的產品方向、研發產品原型,並由商務拓展團隊推動產品在真實商業領域的落地測試,繼而可以為創新工場的風險投資團隊帶來早期識別、投資高價值賽道的寶貴機會。

「科研助推商業」並不是簡單地尋找有前景的科研項目,而是將技術跟蹤、人才跟蹤、實驗室合作、智慧財產權合作、技術轉化、原型產品快速迭代、商務拓展、財務投資等多維度的工作整合在一個統一的資源體系內,用市場價值為導向,有計劃地銜接學術科研與商業實踐。

以 AI 為代表的高新技術目前正進入商業落地優先的深入發展期,產業大環境亟需前沿科研技術與實際商業場景的有機結合。創新工場憑藉在風險投資領域積累的豐富經驗,以及在創辦 AI 工程院的過程中積累的技術人才優勢,特別適合扮演科研與商業化之間的橋梁角色。

創新工場於 2016 年 9 月成立創新工場人工智慧工程院,以「科研+工程實驗室」模式,規劃研發方向,組建研發團隊。目前已經設有醫療 AI、機器人、機器學習理論、計算金融、計算機感知等面向前沿科技與應用方向的研發實驗室,還先後設立了創新工場南京國際人工智慧研究院、創新工場大灣區人工智慧研究院,致力於培養人工智慧高端科研與工程人才,研發以機器學習為核心的前沿人工智慧技術,並同各行業領域相結合,為行業場景提供一流的產品和解決方案。

創新工場與國內外著名的科研機構廣泛開展科研合作,例如,今年 3 月 20 日,香港科技大學和創新工場宣布成立計算機感知與智能控制聯合實驗室(Computer Perception and Intelligent Control Lab)。此外,創新工場也積極參與國際相關的技術標準制定工作。例如,今年 8 月,第 28 屆國際人工智慧聯合會議(IJCAI)在中國澳門隆重舉辦,期間召開了 IEEE P3652.1(聯邦學習基礎架構與應用)標準工作組第三次會議。IEEE 聯邦學習標準由微眾銀行發起,創新工場等數十家國際和國內科技公司參與,是國際上首個針對人工智慧協同技術框架訂立標準的項目。創新工場的科研團隊深度參與到聯邦學習標準的制定過程中,希望為 AI 技術在真實場景下的安全性、可用性以及保護數據安全、保護用戶隱私貢獻自己的力量。

雷鋒網 AI 科技評論報導

雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。

相關焦點

  • 創新工場兩篇論文入選ACL 2020,將中文分詞數據刷至新高
    令人振奮的是,來自創新工場大灣區人工智慧研究院的兩篇論文入選。這兩篇論文均聚焦中文分詞領域,是深度學習引入知識後的有益嘗試,將該領域近年來廣泛使用的各數據集上的分數全部刷至新高,在工業中也有著可觀的應用前景。
  • 算法最熱arXiv論文接收率高一倍,NeurIPS2019最全報告+視頻+筆記
    總而言之,也許將「領域主席篩選」和「限制每個人的投稿數」相結合可以充分降低總投稿數,從而使情況有所不同。但是,在真正實施前,仍然需要進一步考慮一下該怎麼具體執行。只審吸引審稿人注意力的論文還有一個提議是引入市場機制來控制審稿量。
  • 創新工場兩篇論文入選頂會ACL2020,將中文分詞性能刷出新高度
    2020 年 7 月 5 日至 7 月 10 日,自然語言處理領域(NLP)頂級學術會議 ACL 2020 通過線上舉行,公開數據顯示,今年大會投稿數量超過 3000 篇,共接收 779 篇論文,包括 571 篇長論文和 208 篇短論文,接收率為 25.2%,疫情期間熱度有增無減。
  • 創新工場兩篇論文入選ACL2020 中文分詞和詞性標註新模型性能創新高
    【TechWeb】7月8日消息,全球自然語言處理領域(NLP)頂級學術會議 ACL 2020 今年在線舉辦,來自創新工場大灣區人工智慧研究院的2篇論文入選,這兩篇論文均聚焦中文分詞領域。
  • 微軟亞研副院長周明離職,將出任創新工場AI工程院首席科學家
    ,「以一種新方式尋求學術界和企業界合作之路」。既然目標已經實現,現在是時候「找一種新的方式去尋求產學合作」了。創新工場的創始人、CEO 李開復,也是微軟亞洲研究院的第一任院長。據機器之心了解,周明博士計劃在近期加入創新工場人工智慧工程院,擔任首席科學家。
  • 2019全球智博會分論壇議程重磅公布,六大AI開放創新平臺將同臺展示
    雷鋒網 AI 科技評論按,2019 全球人工智慧產品應用博覽會(以下簡稱「全球智博會」)將於今年 5 月 9 日至 11 日在蘇州工業園區舉辦,主論壇議程、參展商信息已經陸續公布。嘉賓簡介:浙江大學網絡空間安全研究中心主任,國家特聘專家。主要從事數據安全、物聯網安全、人工智慧安全與隱私保護等領域的研究工作。任奎教授發表了 250 餘篇同行評議的期刊與會議文章,獲得了多個最佳論文獎。
  • 嚴禁一稿多投:NeurIPS 2019剛剛斃掉了19篇論文
    NeurIPS 的程序主席們表示他們還在審查一些疑似與其他 AI 學術會議投稿雷同的論文,未來拒稿的數字可能還會增加。「隨著 NeurIPS 2019 大會的審稿工作完成,作者回應階段開始,我們現在要宣布有關程序主席(PC)審稿策略的更新了,」Hugo Larochelle 說道。
  • Uber AI 研究院深度解構 ICLR 2019 最佳論文「彩票假設」!
    年初,Frankle 和 Carbin 的論文「 The Lottery Ticket Hypothesis:Finding Sparse,Trainable Neural Networks」提出了一種生成稀疏的高性能網絡的簡單方法,可以有效進行網絡剪枝,這一突破性進展也讓這篇論文成為 ICLR 2019 最佳論文的得主之一。
  • MIT 萬字論文解析:「好用」的自動輔助駕駛背後,是犧牲了「安全」嗎?
    在論文的摘要部分,MIT 的工作人員表示,「希望這項研究能夠引起業界的討論和進一步的深入觀察。即針對駕駛輔助系統設計和應用中,某些功能是如何對參與其中的人類駕駛員形成影響的。以及我們在使用類似技術時如何既能夠保持與機器良好的協作性,同時不影響自己作為駕駛主體的警惕性和控制能力。」
  • 如何用「邊寫邊搜」寫論文?
    「邊寫邊搜」是一款簡單好用的輔助成文應用,讀寫分屏,輕鬆實現本地文件和雲端各類數據資源之間的聯動,高效組織想法和創意,快速成文。在 PC 端登錄 cyprex.fir.ai可立即使用。場景二:多端同步,集中管理小 Q 同學:文獻筆記很多,整理筆記、摘錄、板書截圖都非常耗時,需要用的時候常常不記得存在了哪裡,有什麼好辦法?小遠同學:使用「在線精讀」,統一帳號登錄,集中管理文獻原文和摘錄筆記,多端同步。支持從原文摘錄文本、表格、圖片。
  • AI 在安全、可靠性方面到底取得了哪些進展?斯坦福 AI 實驗室進行...
    這是 Koh 和 Liang 在論文「 Understanding black-box predictions via influence functions」(https://arxiv.org/pdf/1703.04730.pdf)中提出的問題。當深度學習模型用於決定獲得金融貸款或健康保險的對象以及一些其他應用程式時,這一點非常重要。
  • GPT-3獲NeurIPS最佳論文獎,華人學者獲經典論文獎
    本文表明,當這樣的語言模型被擴大到前所未有的參數數量時,其本身可以作為少量樣本學習者,無需任何額外的訓練,就可以在許多此類問題上取得非常有競爭力的表現。當時,一些研究人員提出了並行化SGD的方法,但是它們都需要不同工作進程之間的內存鎖定和同步。
  • 17篇論文,詳解圖的機器學習趨勢 | NeurIPS 2019
    在兩個標準的評測數據集 WN18RR 和 FB15k-237 上,MuRP 的效果比對比模型更好,因為它「更具備雙曲幾何」而且也更適用於樹結構(如果能像上面的論文一樣計算一下Gromov雙曲性分數就更好了)。更有趣的是,MuRP只需要40維,得到的準確率就和歐氏空間模型用100維甚至200維向量的結果差不多!明顯可以看到,雙曲空間的模型可以節省空間維度和存儲容量,同時還不需要有任何精度的犧牲。
  • 2019 AI Index 報告出爐:AI 領域取得的進展很多,但結果憂喜參半
    雷鋒網 AI 科技評論按:當地時間 12 月 11 日,斯坦福「以人為本」人工智慧研究院與 OpenAI 合作完成的2019 AI Index 年度報告發布。作為史丹福大學「AI100」項目的一部分,AI Index 旨在研究影響人工智慧產業的最大趨勢、突破性研究進展以及人工智慧對社會的影響,今年已是該報告發布的第三個年頭。
  • NeurIPS2018時間檢驗獎論文回顧:為什麼深度學習適合大規模數據集
    這篇來自 Léon Bottou (當時在 NEC 實驗室,現在在 Facebook 人工智慧研究院 FAIR)和 Olivier Bousquet(谷歌 AI 蘇黎世研究院)的論文獲得了今年 NeurIPS 的時間檢驗獎,論文內容是研究機器學習領域內數據和計算能力之間是如何相互作用的;他們的結果表明,在計算能力有限、但可以使用一個大規模數據集的情況下,面對「A,使用儘量多的訓練樣本,但每個樣本只進行較少的計算
  • 百度多篇論文入選NeurIPS 2020,機器學習領先算法、理論「強輸出」
    此次大會中,百度研究院參會並發表了多篇高質量論文,論文聚焦大規模稀疏學習的加速求解、新發現物種數量預測、隨機非凸優化、高維數據判別分析等問題,分別提出了創新算法及理論,突破原有算法在實際應用中泛化效果差、優化效率低等限制,有效提升AI技術在自然生態學、統計學習理論等領域中的應用價值,同時也彰顯出百度在人工智慧與機器學習領域的持續技術創新力。
  • 騰訊AI 王者「絕悟」升級了
    但難點就在於,「絕悟」的不同英雄會共享一個模型參數,從零學會單個陣容易如反掌,但面對多英雄組合時就難如登天。對戰中,因為地圖龐大且信息不完備,不同的 10 個英雄組合有不同的策略規劃、技能應用、路徑探索及團隊協作方式,這將使決策難度幾何級增加。 同時不可忽略的是「災難性遺忘」問題,模型容易邊學邊忘,這也長期困擾著開發者。
  • NeurIPS 2019 程序委員會主席發聲明:19 篇論文因一稿多投被拒收!
    本文是 NeurIPS 2019 程序委員會主席對近期作者反饋階段工作的幾點說明,主要介紹了審稿進度以及本屆 NeurIPS 為防止一稿多投現象做所的努力,並宣布了提交至 NeurIPS 的論文中有 19 篇由於存在一稿多投的問題將被拒收的決定。
  • 7 papers|NeurIPS 2019獲獎論文揭曉;OpenAI刀塔2論文公布
    機器之心整理參與:杜偉本周既有 NeurIPS 2019 公布的傑出論文獎和經典論文獎論文,也有 MIT 聯合 IBM 推出的使圖像識別 SOTA 模型性能下降 40 多個點的 ObjectNet 數據集以及 OpenAI 擊敗 OG 戰隊的 Dota 2 智能體論文。
  • 2020-2021「AI中國」機器之心年度獎項揭榜(上)
    本屆「AI 中國」機器之心 2020 年度評選,為順應產業變化,體現產業趨勢,在傳統的六大榜單之外,新增設「新基建領軍企業」、「產業數智化領軍企業」、「最強技術生態」及「智能國民應用」四大分榜,共計形成十大榜單200個獎項。經過市場環境的大浪淘沙,更多優秀的企業和項目成為了成就時代的智能勢力,「智在實業 慧及平常」是機器之心對2020年我國人工智慧產業發展的總結。