MIT提出精細到頭髮絲的語義分割技術,打造效果驚豔的特效電影

2022-01-16 中國人工智慧學會

本文經機器之心(微信公眾號:almosthuman2014)授權轉載,禁止二次轉載

選自MIT

作者:Adam Conner-Simons

機器之心編譯

來自 MIT CSAIL 的研究人員開發了一種精細程度遠超傳統語義分割方法的「語義軟分割」技術,連頭髮都能清晰地在分割掩碼中呈現。在對比實驗中,他們的結果遠遠優於 PSPNet、Mask R-CNN、spectral matting 等基準。這項技術對於電影行業的 CGI 技術具有重大意義,精細的分割掩碼能很好地分離圖像中的前景和背景,只要滑鼠一點,就能輕易地改變前景、背景的種類。也就是說,像《變形金剛》《復仇者聯盟》《奇幻森林》中的大部分電影特效將可以完全自動化地生成。

隨著電影越來越關注 CGI,電影製作人必須更加擅長「合成」,即將前景和背景圖像融合,比如將演員放在飛機或行星上,或者放在電影《黑豹》裡瓦坎達這樣的虛構世界中。

讓這些圖像看起來真實並不容易。編輯必須捕捉前景和背景之間微妙的美學過渡,這對於頭髮這種複雜精細的材料來說尤其困難,因為人們已經習慣了它的樣子。

麻省理工學院計算機科學與人工智慧實驗室(MIT CSAIL)的訪問研究員 Yagiz Aksoy 說:「這些圖像的棘手之處在於,並非每個像素都只屬於一個物體。很多情況下,你很難確定哪些像素屬於背景,哪些屬於特定的人。」

除了那些經驗最豐富的編輯,對其他人來說要把這些細節都處理好是一件乏味、耗時且非常困難的事情。但是在一篇新論文中,Aksoy 和他在 MIT CSAIL 的同事展示了一種方法,使用機器學習來自動化照片編輯過程中的多個步驟,並且稱這種方法也可用於運動圖像。

該方法允許他們自動將輸入圖像分解成一組不同的層,這些層被層之間的一系列「軟過渡」分隔開。

該系統被稱為「語義軟分割」(semantic soft segmentation,SSS),它分析原始圖像的紋理和顏色,並將其與神經網絡收集的圖像中物體的實際信息相結合。

Aksoy 說,「一旦計算出這些軟分割,用戶就不必手動改變過渡或對圖像特定層的外觀進行單獨修改。」他上周在溫哥華的計算機圖形學會議 SIGGRAPH 上展示了這篇論文。「手動編輯任務,如替換背景和調整顏色,將會變得更加容易。」

不過要說明的一點是,SSS 目前專注於靜態圖像。但是該團隊表示,不久以後將它用於視頻也是可以的,這將推動其在電影製作中的應用。

Aksoy 表示,該方法不需要專業編輯花幾分鐘時間逐個幀、逐個像素地調整圖像,而是使處理過程更簡單、快速,以便非專業用戶也可以更容易地進行圖像編輯。他們期望,編輯只需點擊一下滑鼠,就能組合圖像,創造那些成熟、真實的幻想世界。

他還表示,SSS 的目前版本可用於社交平臺,如 Instagram 和 Snapchat,以使其過濾器更加真實,特別是用於改變自拍背景或模擬特定類型的相機時。未來,研究人員計劃將計算圖像所需時間從幾分鐘縮短到幾秒鐘,並通過提高系統匹配顏色和處理光照、陰影等問題的能力使圖像變得更加逼真。

論文:Semantic Soft Segmentation



論文連結:http://cfg.mit.edu/sites/cfg.mit.edu/files/sss_3.pdf

摘要:對圖像區域之間的軟過渡進行準確表徵對於高品質圖像編輯及合成至關重要。生成此類表徵的現有技術很大程度上依賴於技術嫻熟的視覺藝術家,因為執行此類精確目標選擇是一項繁冗的任務。本研究介紹了語義軟分割——一組與圖像中語義有意義的區域相對應的層,它們在不同對象之間有準確的軟過渡。我們利用光譜分割角度來處理這個問題,並提出了一種圖結構,其包含圖像的紋理和顏色特徵以及神經網絡生成的高級語義信息。軟分割是通過精心構建的拉普拉斯矩陣的特徵分解完全自動生成的。使用我們的語義軟分割,原本複雜的圖像編輯任務可以毫不費力地完成。

圖 1:我們提出了一種方法,通過將高層次和低層次的圖像特徵融合在一個圖結構中來自動生成軟分割,即表示語義上有意義的區域以及它們之間軟過渡的層。語義軟分割使用為每個分割部分分配純色的方法實現可視化,它們可用作目標圖像編輯任務的掩碼,所選圖層可在圖層顏色評估之後用於合成。原始圖像來自 [Lin et al. 2014](左上、右下)、Death to the Stock Photo(右上)、Y. Aksoy(左下)。

圖 2:對於輸入圖像,我們生成像素級的超維語義特徵向量,並利用紋理和語義信息定義一張圖。構建該圖的目的是使對應的拉普拉斯矩陣及其特徵向量能夠揭示語義對象和對象之間的軟過渡(soft transition)。我們使用特徵向量創建初步的軟分割集,並結合它們獲取具備語義含義的分割。最後,我們細化軟分割,使之可用於目標圖像編輯任務。圖源:[Lin et al. 2014],編輯結果的背景來自 Flickr 用戶 rumpleteaser。

圖 9、10:我們展示了我們的結果以及 Zhao et al. [2017] (PSPNet)、He et al. [2017] (Mask R-CNN) 和光譜摳圖(spectral matting)[Levin et al. 2008b] 的結果。分割結果在灰度圖像上重疊展示,方便圍繞分割邊界進行更好的評估。注意:PSPNet 和 Mask R-CNN 在物體邊界方面不夠準確,而光譜摳圖的軟分割結果超出了對象邊界。圖源:[Lin et al. 2014]。

圖 11:利用輸入圖像(a)和特徵向量(b),我們的方法生成了 matte,見(c)。我們展示了具備不同未知區域寬度的 trimap,它們通過 PSPNet [Zhao et al. 2017] (d) 或 Mask R-CNN [He et al. 2017] (e) 的語義分割方法生成,無法可靠地提供前景和背景區域,對使用信息流摳圖(information-flow matting)[Aksoy et al. 2017a] 生成的結果造成負面影響。在底部示例中,PSPNet trimap 是通過選擇與對象對應的單個類別(左)或所有類別而生成的。我們還提供利用結果(f)生成的 trimap 的摳圖結果,展示了在給出準確 trimap 的情況下摳圖算法的性能。圖源: [Lin et al. 2014]。

方法


我們的目標是從輸入圖像自動生成軟分割,也就是將場景中的目標分解成多個層進行表徵,包括透明度和軟過渡。每個層的每個像素由一個不透明度α∈[0,1] 增強,α=0 表示全透明,α=1 表示完全不透明,中間值表示部分不透明的程度。和該領域的其它研究(如 [Aksoy et al. 2017b; Singaraju and Vidal 2011])一樣,我們使用了一個加性的圖像構造模型:

即我們將輸入的 RGB 像素表達為每個層 i 的像素之和,這些層由對應的α值加權。我們還把每個像素的多個α值的和限制為 1,以表示完整的不透明輸入圖像。

我們的方法使用了與光譜摳圖相同的形式,也就是將軟分割任務形式化為特徵值估計問題 [Levin et al. 2008b]。該方法的核心是構建拉普拉斯矩陣 L 來表徵圖像中每對像素屬於同一個分割的可能性。儘管光譜摳圖僅使用了低級局部顏色信息來構建矩陣,我們描述了如何通過非局部線索和高級語義信息來增強這一方法。原始的方法也描述了如何利用稀疏化來從 L 的特徵值來創建層,我們的研究表明,該原始技術的放寬限制的版本可以獲得更佳的結果。圖 2 展示了我們的方法的概覽。

圖 5:輸入圖像(a)、語義特徵(b),與對應本文提出的拉普拉斯矩陣(c,頂行)以及(光譜摳圖中使用的)摳圖拉普拉斯矩陣(d,底行)的最小特徵值的幾個特徵向量。綠色表示特徵向量的正值,紅色表示負值。我們的拉普拉斯矩陣很清晰地揭示了特徵向量中的語義邊界,而摳圖拉普拉斯矩陣的特徵向量延伸到了語義邊界之外,如圖虛線框中所示。圖源:[Lin et al. 2014]。

圖 6:輸入圖像(a),像素級稀疏化之前的軟分割結果(b),像素級稀疏化之後的軟分割結果(c)。顏色編碼的分割部分使用單個阿爾法通道來展示,阿爾法通道對應前景物體。最後一步清理因特徵向量表達能力有限而造成的雜亂阿爾法值,同時維持軟過渡。底部示例展示了使用常數 0.9 作為稀疏化參數 γ 的稀疏化結果(d),而我們使用空間變化的 γ_p 在過渡區域進行鬆弛的稀疏化操作。其效果見嵌套小圖,我們的結果(c)保持了頭髮周圍的軟過渡,而常數變量(d)導致了過度稀疏的結果。圖源:[Lin et al. 2014]。

圖 7:輸入圖像和計算出的語義特徵(左),具備很多層的初始估計軟分割(中),grouping 後的中間軟分割結果(右)。通過為每個分割部分指定一個純色來可視化軟分割結果。注意這些結果會隨著鬆弛的稀疏化(relaxed sparsification)進行進一步細化。圖源:[Lin et al. 2014]。

參考地址:https://www.csail.mit.edu/news/ai-cgi

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權

✄---

加入機器之心(全職記者 / 實習生):hr@jiqizhixin.com

投稿或尋求報導:content@jiqizhixin.com

廣告 & 商務合作:bd@jiqizhixin.com

相關焦點

  • 入選AAAI 2020,全新視頻語義分割和光流聯合學習算法問世
    這種方法在自動駕駛、機器人、人體姿態識別、AR特效等諸多場景均有廣泛應用前景。那麼這篇論文到底有哪些創新呢?下面一一解讀。視頻標註不如圖像標註那樣每一幀都會標註,一個視頻片段往往只標註一幀,現有方法難以利用全部的數據,導致分割的準確率較低。效率低。由於對前後幀之間進行信息交互往往為模型引入額外的模塊,導致視頻分割效率低。商湯在研究中改進了這些不足,提出了一個光流和語義分割聯合學習的框架。
  • CVPR 2019 Oral 論文解讀 | 無監督域適應語義分割
    該論文提出了一種從「虛擬域」泛化到「現實域」的無監督語義分割算法,旨在利用易獲取的虛擬場景標註數據來完成對標註成本高昂的現實場景數據的語義分割,大大減少了人工標註成本。 本文是論文作者之一羅亞威為雷鋒網 AI 科技評論提供的論文解讀。
  • 刷新紀錄,揭秘漫畫臉背後的AI技術
    類似的,一經上線便備受用戶們追捧的還有「童話臉」等多個AI特效玩法。AI特效看似操作簡單,但要想一秒內達到如此效果,其背後的技術支撐可並不簡單。細心的朋友可能會發現,漫畫臉的AI特效get了一項技能——實時摳圖。在動態場景下, 無論是人像的頭部、面部,還是半身像,都能夠被精準識別,並轉化為漫畫版,看不出一點破綻。這項技能在學術上叫做語義分割技術。
  • 9102年了,語義分割的入坑指南和最新進展都是什麼樣的
    在這篇文章中,作者介紹了近來優秀的語義分割思想與解決方案,它可以稱得上是 2019 語義分割指南了。我們可以認為語義分割是像素級別的圖像分類。例如,在一幅有很多輛車的圖像中,分割模型將會把所有的物體(車)標記為車輛。但是,另一種被稱為實例分割的模型能夠將出現在圖像中的獨立物體標記為獨立的實例。這種分割在被用在統計物體數量的應用中是很有用的(例如,統計商城中的客流量)。
  • 迪士尼研發深度語義面部模型,讓表情更豐富
    、低成本地生成表情豐富的3D人臉,一直是技術上的「老大難」。論文連結:https://studios.disneyresearch.com/app/uploads/2020/11/Semantic-Deep-Face-Models.pdf一、3D人像技術迭出,精細情緒仍難表達
  • AAAI 2020論文:商湯科技發布新視頻語義分割和光流聯合學習算法
    在這篇文章中,作者提出了一個新穎的光流和語義分割聯合學習方案。語義分割為光流和遮擋估計提供了更豐富的語義信息,而非遮擋的光流保證了語義分割的像素級別的時序一致性。作者提出的語義分割方案不僅可以利用視頻中的所有圖像幀,而且在測試階段不增加額外的計算量。
  • 另闢蹊徑,中科院自動化所等首次用圖卷積網絡解決語義分割難題
    來自中科院自動化所和北京中醫藥大學的研究者另闢蹊徑,提出用圖卷積網絡解決語義分割問題。論文連結:https://arxiv.org/pdf/2001.00335.pdf使用深度學習執行語義分割在圖像像素分類方面取得了巨大進步。
  • 不用GAN,照片生成簡筆畫,效果驚豔
    效果驚豔的 ArtLine 都用到了什麼技術呢?論文連結:https://arxiv.org/pdf/1603.08155.pdf這項研究提出利用感知損失函數來訓練圖像轉換中的前饋網絡,結果表明,在風格遷移任務中,該研究得到了與其他方法類似的效果,但運行速度提升了數個數量級
  • 百度語義理解技術與平臺文心ERNIE:AI時代的文本智能化利器
    9月15日,百度世界2020召開,作為"AI新型基礎設施"百度大腦6.0的重要組成部分,百度語義理解技術與平臺文心(ERNIE)在大會上的發布吸引了大量NLP開發者的目光,尤其基於多流機制的預訓練語言生成技術ERNIE-GEN、知識增強跨模態語義理解技術ERNIE-ViL等,均達到了世界領先水平。
  • 那些令人驚豔的電影特效
    本文共837字,預計閱讀時間3分鐘在影視中,人工製造出來的假象和幻覺,被稱為影視特效(也被稱為特技效果)。電影攝製者利用它們來避免讓演員處於危險的境地、減少電影的製作成本,或者理由更簡單,只是利用它們來讓電影更扣人心弦。
  • 這些驚豔的電影鏡頭,被誤以為是特效,背後的故事很感人
    鏡頭太驚豔被當成特效,這些演員有多拼?網友:值得敬佩最近萬眾矚目的《花木蘭》終於上映,也招來了不少網友的吐槽。除了對劇情和主演演技的吐槽,最讓網友難以接受的還是劣質的特效。劇中劉亦菲飾演的花木蘭施展巫術長出的一對翅膀看起來就像國內劣質網頁遊戲的五毛錢特效一樣,又假又醜,不忍直視。讓人忍不住給這一幕配上&34;的字幕。
  • 深耕語義智能技術 拓爾思拓展AI「硬科技」
    人工智慧作為底層工具類技術,借著其廣泛適用性,將會成為下一代網際網路技術的基石,為各應用場景的供給側結構性改革填補盲點。不過人工智慧雖然已經發展了很長一段時間,目前仍然徘徊在語音智能、圖像智能等弱智能階段。要解決人工智慧長期發展上的「短板」,必須在語義智能上取得突破,這是走向強人工智慧的關鍵。
  • 機器人懂點「常識」,找東西快多了:CMU打造新型語義導航機器人
    讓機器人「學點常識」事實上,以往大部分採用機器學習訓練的語義導航機器人,找東西的效果都不太好。相比於人類潛意識中形成的常識,機器人往往有點「死腦筋」,它們更傾向於去記住目標物體的位置。但物體所處的場景往往非常複雜,而且彼此間差異很大(正所謂每個人的家,亂得各有章法),如果單純以大量不同場景對系統進行訓練,模型泛化能力都不太好。
  • 【揭秘】逆天特效打造《奇幻森林》,國產電影到底差多遠
    該片導演喬恩-費儒就認為:因為技術進步,真人電影與動畫的界限很快就要消失了。  而不說故事等講究藝術性的元素,特效這種技術性的東西似乎更容易量化與比較,那麼問題來了:中國國產特效到底是許多觀眾見證的「五毛」,還是能參與不少好萊塢大片特效的「國際先進水平」?和《奇幻森林》這種好萊塢頂級特效相比,能得到什麼啟示?
  • 原來最強贅婿在二次元長這樣,秒穿次元壁的AI特效又雙叒火了
    打破次元壁的技術所以快手這一堪稱「穿越神器」的AI特效,在技術上是如何實現的呢?快手工程師介紹,相比於此前的一些特效玩法,「手繪」系列最大的不同,是需要兼顧真實感、美感以及卡通效果三方面的要求。也就是說,既要最大程度保留用戶本人的五官和外形特徵,還要具備手繪風格的美學和藝術效果。這就對整體風格和局部細節的呈現都提出了高要求。為此,快手特效中心團隊研發了一個基於GAN(對抗生成網絡)的圖像翻譯和風格遷移學習訓練框架,結合此前CycleGAN、U-GAT-IT等技術的主要優點,並根據實際需求進行了定製化的開發和優化。
  • 「技術控」導演回歸 重溫徐克電影特效變遷之路
    事實上,從1983年的《新蜀山劍俠》開始,不斷革新電影技術,為華語電影締造全新的特效風貌,已成為老爺的創作習慣之一,而對觀眾而言,從《新》到《龍》的近三十年曆程,也早已對老爺的特效招牌信心十足,由此可見,《龍門飛甲》的問世,將成為老爺技術史上的另一個裡程碑。在此,不妨先行重溫老爺的「技術史」,並隨他走過1/4世紀的電影特效變遷之路。
  • 揭秘CG特效行業內幕,特效公司只是「五毛特效」的「背鍋俠」
    1988年兒影廠出品的兒童科幻片《霹靂貝貝》,劇組用兩口直徑2.5米的金屬大鍋扣在一起,挖上孔在裡面裝上白熾燈吊起來轉動,做出了太空飛碟的效果,這就是早期的影視特效。影視特效是一個外延不斷變化的概念。隨著技術的發展,一些技術已經不再屬於特效,比如彩色電影和剪輯中的一些手段;另一些新技術被納入特效的範疇,比如被簡稱為CG的電腦動畫技術。
  • 客服機器人中的深度語義技術與應用探索(附視頻+PPT)| 雷鋒網公開課
    這其中的關鍵便涉及到自然語言處理中的」深度語義技術「。針對這個問題,本期雷鋒網(公眾號:雷鋒網)硬創公開課邀請到小i機器人創新中心的研究院陳培華為大家具體講解,在客服機器人領域的深度語義技術和應用探索。嘉賓介紹:
  • 絕美CG臉打破次元 美圖秀秀&美顏相機打造動漫風自拍新體驗
    (明星關曉彤在社交平臺曬出美圖CG漫畫少女功能)  CG臉:特效走出螢屏引領審美新潮流  CG臉,即3D技術下的模擬臉,最初被廣泛應用於影視特效、三維動畫、比如2015年上映的《速度與激情7》,主演保羅·沃克不幸因意外離世,劇組通過CG技術使尚未完成拍攝的保羅"復活"。影片上映後,逼真的特效使觀眾對CG技術留下了嘆為觀止的印象,震驚之餘更令人心生嚮往。  艾瑞諮詢數據顯示,2017年我國泛二次元用戶規模達3.4億,核心二次元用戶9100萬。二次元人群中,出生於1990年至2000年間的"Z世代"用戶約佔78%。