綠幕通通扔掉 ੧ᐛ੭ | 谷歌AI實時「摳」背景

2021-02-14 量子位
原作 Valentin Bazarevsky & Andrei Tkachenka
Root 編譯自 Google Research Blog
量子位 報導 | 公眾號 QbitAI

大場面的科幻動作片,拍攝過程肯定離不開綠幕。

製作過程更加磨人。

摳綠+後期要做到完美(空間位置關係、光影關係),不僅要求細心,還得堆大量時間。

為了讓影視製作簡單點,谷歌研發出了可以在手機端就實時摳背景的工具(暫時沒名兒)。

這個實時摳背景的工具目前只出到Beta版,只在YouTube移動端上有。

 谷歌小哥哥戲精附體(´• ᵕ •`)*

這個技術,是用CNN(卷積神經網絡)實現的。

這個神經網絡框架,專為移動端設計。所以,在構建和訓練的過程中,谷歌給自己定了一些原則:

這個摳背景的模型,幀數的處理得很講究。

幀數不能太多,不然費算力,也無法及時出圖;但也不能太少,否則看起來卡頓。

數據集

為了訓練這個模型,谷歌標註了成千上萬個圖像。

前景標出頭髮、眉毛、皮膚、眼鏡、鼻孔、嘴唇等。

神經網絡的輸入

谷歌的分離模型,是通過RGB通道計算出視頻源每幀的前景。

關鍵摳出來的前景前後兩幀之間要連貫。

現在的方法是用LSTM和GRU,對算力要求太高了,要用在移動端實時出片上不太現實。

LSTM,長短期記憶算法,是一種時間遞歸神經網絡。GRU,門控循環單元。

LSTM搭GRU,可以通過門控機制使循環神經網絡,做到記憶過去的信息,同時還能選擇性地忘記一些不重要的信息而對長時間跨度的信息的前後關係進行建模。

谷歌想到的解決辦法是,把上一幀已經算出來的蒙版(擋住背景用的)當作下一幀的第四個通道的信息。這樣,就能節省算力,拿到的片子視覺上還滿足連貫介個要求。

 訓練流程:原始幀(左);被分離成三個通道加上一幀的蒙版通道(中);根據這四個通道信息預測出這一幀的蒙版(右)

視頻裡摳背景,如果鏡頭裡前景物體劇變,比方說突然多了個人,前後幀的去背景效果就不連續了。

為了避免這個問題,保持視頻的流暢性,谷歌稍微改了一下標註的規則:

訓練模型先空杯(不把上一幀的蒙版當成已知的信息),判斷出新闖進來的物體;

然後定義新進入物體以外的背景蒙版,小改動的話就調整上幀蒙版,大改動的話就拋棄上幀蒙版;

對當前幀做羽化處理,優化摳圖後的毛邊,模仿鏡頭在快速移動或旋轉時候的情境。

 小姐姐在試實時的摳圖效果

經過調整,谷歌訓練的模型表現炒雞好,在iPhone7上能實時出100多FPS的片,谷歌的Pixel2出40多FPS的高清片。

拿YouTube上stories頻道上的片試了試,摳背景效果都很流暢。摳圖效果也很棒棒,在驗證數據集上實現了94.8%的IOU(交疊率,在這裡就是摳背景效果貼不貼合)。

谷歌短期內想實現的目標是,用YouTube上stories頻道上的片子來測試優化這個摳背景技術。最後能成熟地用於未來的AR服務上。

最後,附編譯來源,
https://research.googleblog.com/2018/03/mobile-real-time-video-segmentation.html

你可能還感興趣:

MaskGAN:谷歌大腦讓AI學做完形填空

谷歌大腦提速1000倍的神經架構搜索新方法

谷歌AI「你畫我猜」強推「狗年版本」

量子位AI社群13群開始招募啦,歡迎對AI感興趣的同學,加小助手微信qbitbot5入群;

此外,量子位專業細分群(自動駕駛、CV、NLP、機器學習等)正在招募,面向正在從事相關領域的工程師及研究人員。

進群請加小助手微信號qbitbot5,並務必備註相應群的關鍵詞~通過審核後我們將邀請進群。(專業群審核較嚴,敬請諒解)

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復「招聘」兩個字。

相關焦點

  • IOS App | 綠幕俠 :一款實時視頻摳人像,更換背景的app
    綠幕俠是一款能夠實現實時視頻摳人像、換背景的 iPhone 應用。讓本來需要綠幕才能實現的去背景合成技術,變得異常簡單、低成本。
  • 谷歌送上主播福利,手機拍視頻實時換背景
    對背景的修改可以傳遞不同的情緒、可以讓前景的主人公顯得去了另一個地方,又或者增強這條視頻消息的影響力。不過,這項工作傳統上都是由人工完成的,非常費時(比如需要逐幀把裡面的人描選出來);省時的辦法則需要一個專門的電影工作室,布置綠幕作為拍攝背景,從而實時替換成別的需要的內容。不過,以往複雜的背景分割工作,現在僅僅靠一臺手機就可以完成了!
  • 谷歌送上主播福利,手機拍視頻也用神經網絡實時換背景
    對背景的修改可以傳遞不同的情緒、可以讓前景的主人公顯得去了另一個地方,又或者增強這條視頻消息的影響力。不過,這項工作傳統上都是由人工完成的,非常費時(比如需要逐幀把裡面的人描選出來);省時的辦法則需要一個專門的電影工作室,布置綠幕作為拍攝背景,從而實時替換成別的需要的內容。不過,以往複雜的背景分割工作,現在僅僅靠一臺手機就可以完成了!
  • 覃宇宙:抖音直播間綠幕背景怎麼搭建?
    我們在刷抖音直播間的時候,經常會看到一些大主播身後背景非常專業,可以實時顯示各種需要的場景圖片或者視頻。在這些場景中最關鍵的是用到了綠幕。只不過綠色幕布應用更廣泛,攝像機對綠色的敏感度更高,摳出來主體就更加完美。使用綠幕的注意事項主要有以下6大注意:不要穿綠色衣服,不然綠幕和衣服會一起被扣除掉,建議穿與綠色對比度大的深色衣服。主播髮型要整齊,不能太多的碎發亂翹,這樣在後期降低摳像難度。
  • 重現「黑鏡」:用「AI機器人」與逝去的親人實時聊天
    」,它根據逝者在社交平臺上發布的內容或其他網絡言論來模仿逝者,並與親人進行「實時聊天」。網友大呼:「黑鏡」來了!還記得英劇《黑鏡》中的「AI男朋友」嗎? 女主角瑪莎的男友在車禍中喪生,後來她用男友過去在社交媒體上發布的照片、視頻等信息創建了一個新的虛擬男友,並開始跟「他」電話交流,隨後甚至還把「他」做成了和男友一模一樣的實體機器人。
  • 綠幕助手綠布背景摳人像
    (若資源失效,我們會儘快更新)綠幕助手是一款超級好用的虛擬拍攝的錄影軟體,綠幕助手中加入了電影後期特效中常用的綠幕摳像技術,主播們只要將自己的背景換成綠色,通過綠幕技術實現虛擬場景,虛擬直播間。
  • 直播攝像頭透明背景實時摳像,一學就會的OBS直播綠幕摳像
    現在直播流行,我們經常看到直播過程中,主播攝像頭只顯示人物,而不顯示背景或者攝像頭拍攝到的其他內容,主屏幕是要直播的課件或者遊戲屏幕,如下圖所示的直播截圖,注意她耳機中間的空隙在移動過程中依然是透明的,無背景人像與遊戲畫面融合在一起,效果特炫酷,很多人都好奇,這種即時效果是怎麼做到的
  • 【奇怪的知識】一種實時摳綠幕的方法和一種直播間視頻捕獲設備感光度及辨析度不足時增強清晰度的方法
    從器材角度上看,我們需要一塊綠幕、一臺📷視頻捕捉設備和一些燈。綠幕作為背景,視頻捕捉設備捕捉畫面,燈的布置是這幾個中相對較複雜的。照亮綠幕☑️如果不照亮綠幕的話會產生由主光打向主體時產生的影子,摳圖會摳不出來。紅色框代表的是有白色虛影黃色框代表的是人像周圍有綠邊要想尋找問題的原因,我們先要知道我們都做了什麼。我們現在做了兩件事兒:1.布光、布景📸;2.
  • 7 Papers & Radios | 微軟亞研麻將AI「Suphx」技術細節
    、換背景的利器,但如果不在綠幕前拍攝,我們還能完美地轉換背景嗎?華盛頓大學的研究者最近就上傳了這樣一份論文,不在綠幕前拍攝也能完美轉換視頻背景,讓整個世界都變成你的綠幕。在論文中,研究者提出了一種創建蒙版(matting)的新方法。多數現有的蒙版方法都需要以綠幕為背景,或者手工創建一個三元圖(trimap)。當然,也有些自動方法不需要三元圖,但效果會很差。本文提出的這個蒙版方法也不需要三元圖,但摳圖、換背景效果要更好。
  • 谷歌發布地圖「時光機」:100年前,你家街道長啥樣?
    △大谷Spitzer現在,除了用AI修復老影像資料,谷歌還發布了新的「時光旅行」方案。就像這樣,用3D視角,一覽1890年到1970年曼哈頓切爾西區的建築變化。這樣一臺「時光機器」的引擎,是谷歌推出的基於瀏覽器的工具集rǝ(音return),主要由3部分組成:一個眾包平臺。用戶可以上傳城市歷史地圖,將其與現實世界的坐標進行匹配,完成地理修正,並將其矢量化。 一個時空地圖伺服器。能顯示城市地圖是如何隨時間變化的。 一個3D體驗平臺。運行在rǝ地圖伺服器之上,利用深度學習,根據有限的歷史圖片和地圖數據重建3D建築,創造3D體驗。
  • 谷歌 AI 開源 Deepfake 檢測數據集,3000+ 真人...
    谷歌希望能夠通過這些視頻數據,更好的維護整個社會的網絡安全環境,並使得開發者能夠利用這些數據,開發新的 Deepfake 檢測工具,更高效地識別 Deepfake 假視頻。谷歌在博客上發表了相應的文章來介紹這一數據集,雷鋒網 AI 開發者將其整理編譯如下。Deepfake 視頻檢測數據集背景近幾年來,深度學習的發展催生了曾經被認為不可能實現的技術。
  • 一提電影特效就說綠幕,但他們到底在說什麼? --淺談電影背景特效藝術
    它們的作用是通過在同一色彩(藍/綠)的背景上拍攝物體,以便在後期處理時,通過背景色彩特殊的色調信息加以區分前景和背景,從而達到自動去除背景保留前景的目的,也就是俗稱的「摳像」。然後摳下來的「像」,會被疊加到處理好的背景,場景上,以完整圖像。比如像這樣↓
  • 蘋果自動駕駛部門「裁員」又「重組」,AI負責人接掌「泰坦」
    這個代號為「泰坦」、包括數百名工程師的的自動駕駛部門現在由蘋果公司人工智慧部門高級主管約翰·賈南德雷亞(John Giannandrea)負責,他將負責繼續開發最終可用於蘋果電動汽車的自動駕駛系統。賈南德雷亞2018年加入蘋果,此前他是谷歌機器學習和搜索團隊的負責人。
  • 會打電話的 AI 背後:谷歌 Duplex 技術解析
    具體效果可以先看看 I/O 大會現場的演示視頻:在這兩則真實電話錄音中,Duplex 不僅用自然流暢的語音和電話另一頭的人類完成了交流,對方根本沒有意識到打電話來的居然是個「AI」,而且第二則錄音中它還成功地處理了意料之外的發展狀況,不僅理解了「無需預定」,還主動詢問了等位的時間。
  • 谷歌員工又發聯名信起義了:Jeff Dean道歉,AI倫理學家Timnit Gebru...
    近日解僱 AI 倫理學家 Timnit Gebru 導致了谷歌內部員工起義的爆發;在解僱事件當天,谷歌還遭美國國家勞工關係委員會(NLRB)提起訴訟,其指控谷歌非法監視僱員,報復性解僱有興趣加入工會的僱員,也和 Timnit Gebru 有關。  周三,美國包括德克薩斯州在內的 10 個州又指控谷歌「濫用在線廣告方面的壟斷地位」,直指公司利潤這塊「大肥肉」。
  • 關於綠幕,你需要知道的知識點!
    綠幕特效技術一般會在一些好萊塢電影或者電視臺才能看到,現在隨著科技的進步,綠幕特效對於個人來講也可以隨意玩轉了。綠幕特效技術一般都是靠後期軟體進行摳綠色(去溢色)合成。那關於綠幕環境搭建話,需要注意哪些東西呢?
  • 多種綠幕打光技巧解析
    和好萊塢大製作一樣,電視臺也有可能使用綠幕拍攝。無論使用綠幕還是藍幕,都要進行背景扣圖。有人覺得給綠幕場景打燈光很複雜,下面介紹一些基本的設置,步驟很簡單。為了使摳圖的過程變得簡單,綠幕背景需完全打上光,因為影子很難做摳圖。汗毛或者玻璃、液體等透明物體周圍的背景燈光是最基本的。目標物體遠離綠幕能防止綠幕對物體的反射,而燈光只打到物體上,能完全控制其曝光及光源的方向。綠幕背景下拍攝什麼樣的場景決定了你要使用什麼樣的拍攝設置。例如,近景拍攝演員的頭部或中景拍攝演員上半身,地面就用不著打光。
  • 谷歌最新3D人體捕獲裝置:LED蛋,背景、陰影、光照隨意調
    」的慘案。來自谷歌的研究者發明了一種 Bling Bling 的「LED 蛋」3D 人體捕獲裝置:先把表演者請進「蛋」裡一陣猛拍,然後進行重建和渲染,就能任意切換人物所處的環境,連光照、陰影都可以根據環境進行調整,簡直完美。「燈光」在影視作品、遊戲和虛擬環境中的作用至關重要——有時候它是決定一個場景表演質量的關鍵,這個很容易理解。
  • 谷歌「打工人」叫板管理層,這是科技公司的第一場「工人運動」
    今天的「五一勞動節」,就是為了紀念 1886 年的芝加哥大罷工。但直到 1930 年,受經濟大蕭條影響,當時的總統羅斯福才推出新政,從法律上允許工人組織工會。組織化的工會讓工人們能聯合起來,與企業進行對等的談判,畢竟在企業面前,個人的力量還是太過弱小。通過勞工運動和工會,美國工人贏得了「雙休日」、「八小時工作制」等基本權益,這種勞動制度得到了全球範圍內的廣泛認可,一直延續到今天。
  • 清華背景「圖靈人工智慧」成立新公司「南京圖寧」,或在人工智慧...
    值得一提的是,「南京圖寧」還曾發起一項對外投資事件,投資對象是成立於2019年6月的圖寧正時(南京),從持股比例來看,或為其子公司。事實上,36氪發現,「南京圖寧」與「圖寧正時」公開的公司地點都為南京市棲霞區仙林街道齊民路6號樓5棟602室,或從事相關業務、團隊有重疊。