業界 | 自動捕捉高光時刻:谷歌展示Google Clips全新智能攝影技術

2021-03-06 機器之心

選自Google AI

作者：Aseem Agarwala

機器之心編譯

參與：路、張倩

谷歌今天宣布，旗下 AI 智能相機 Google Clips 的技術再獲升級。現在，它已能剪輯並自動捕捉特定時刻的圖像——如人們的擁抱和親吻，或跳躍和舞蹈動作。Google AI 博客對這款智能相機背後的機器學習技術進行了解讀。

對我而言，攝影就是在幾秒鐘之內認識到一個事件的重要性，同時為這個事件找到恰當表達形式的一種精密組織形式。

——Henri Cartier-Bresson

在過去幾年裡，人工智慧經歷了一場類似寒武紀的爆發，在深度學習方法的幫助下，計算機視覺算法能夠識別出一張優質照片中的許多元素，包括人、微笑、寵物、日落、著名地標等。但是，儘管最近取得了這些進展，自動攝影仍是一個頗具挑戰性的問題。相機能自動捕捉不平凡的時刻嗎？

今年 2 月，谷歌發布了 Google Clips，這是一款全新的免持相機，可以自動捕捉生活中的有趣瞬間。在 Google Clips 的設計過程中，谷歌主要遵循以下三個重要原則：

谷歌希望所有計算都在設備上運行。除了延長電池壽命和減少延遲之外，設備端處理還意味著，除保存或共享視頻之外，任何視頻都不會離開設備，這是隱私控制的關鍵一環。

谷歌希望該設備能夠拍攝短視頻，而不是單張照片。有動作的時刻可能更深刻，也能留下更真實的記憶。而且，拍攝一個引人注目時刻的視頻往往比即時捕捉一個完美瞬間更容易。

谷歌希望捕捉人和寵物的真實時刻，而不是將精力放在捕捉藝術圖像這種更抽象、更主觀的問題上。也就是說，谷歌並未試圖教 Clips 思考構圖、色彩平衡、燈光等問題，而是專注於如何選取包含人和動物進行有趣活動的時刻。

學會識別不平凡的時刻

如何訓練算法來識別有趣的時刻？與大多數機器學習問題一樣，研究者首先從數據集入手。他們在不同的場景中創建了一個由數千個視頻組成的數據集，想像 Clips 在這些場景中得到應用。同時研究者還確保數據集涵蓋廣泛的種族、性別和年齡。之後，谷歌聘請了專業攝影師和視頻編輯仔細查看視頻，選出最佳的短視頻片段。這些早期的處理為他們的算法提供了可以模仿的實例。然而，僅僅從內容處理者的主觀選擇來訓練算法是有挑戰性的，我們需要平滑的標籤梯度來教會算法識別內容的質量（從「完美」到「糟糕」）。

為了解決這個問題，研究者採用了第二種數據收集方法，目標是在視頻長度上創建連續的質量分數。研究者將每個視頻分割成小段（類似於 Clips 捕捉到的內容），然後隨機選擇片段對，並要求人類評分者選擇他們喜歡的片段。

研究者採用這種成對比較的方法，而不是讓評分者直接給視頻評分，因為選擇一對中更好的一個要比給出一個數字容易得多。研究者發現評分者在成對比較中非常一致，而在直接評分時分歧大一些。給定任意給定視頻足夠多的成對比較片段，我們就能計算整個長度上的連續質量分數。在這個過程中，研究者從 1000 多個視頻中收集了超過 5000 萬對成對比較視頻片段。這是一項非常耗費人力的工作。

訓練評估視頻片段質量的模型

基於該質量得分訓練數據，研究者的下一步就是訓練一個神經網絡模型來評估設備捕捉到的任意照片的質量。谷歌研究者首先假設了解照片中的內容（即人、狗、樹等）有助於確定「有趣性」（interestingness）。如果該假設正確，則我們可以學習一個使用識別到的照片內容的函數來預測其質量得分（得分基於人類的對比評估結果）。

為了確定訓練數據中的內容標籤，研究者使用了支持谷歌圖像搜索和 Google Photos 的谷歌機器學習技術，該技術可以識別超過 27000 個描述對象、概念和動作的標籤。研究者當然不需要所有標籤，也不會在設備端對所有標籤進行計算，因此專業攝影師選擇了幾百個他們認為與預測照片「有趣性」最相關的標籤。研究者還將最相關的標籤與評分者的質量得分結合起來。

有了這個標籤子集之後，研究者需要設計一個緊湊高效的模型，在能量和發熱嚴格受限的設備端預測任意給定圖像的標籤。這是一項挑戰，因為計算機視覺背後的深度學習技術通常需要強大的 desktop GPU，在移動端設備上運行的算法遠遠落後於桌面端或雲端的當前最優技術。為了訓練設備端模型，谷歌研究者首先採用大量照片集合，然後再次使用谷歌基於伺服器的強大識別模型來預測上述每個「有趣」標籤的置信度。研究者訓練了一個 MobileNet 圖像內容模型（Image Content Model，ICM），用於模仿基於伺服器的模型的預測。該緊湊模型能夠識別照片中最有趣的元素，忽略不相關的內容。

最後一步是利用 ICM 預測的照片內容，預測輸入照片的質量得分，使用 50M 成對比較視頻片段作為訓練數據。得分通過逐段線性回歸模型進行計算，將 ICM 輸出轉換為幀質量得分。視頻片段中的幀質量得分取平均即為 moment score。給定一組成對對比視頻片段，該模型計算出的人類偏好的視頻片段的 moment score 更高一些。該模型的訓練目的是使其預測儘可能與人類的成對比較結果一致。

生成幀質量得分的訓練過程圖示。逐段線性回歸模型將 ICM 嵌入映射至幀質量得分，視頻片段中的所有幀質量得分取平均即是 moment score。人類偏好的視頻片段的 moment score 應該更高。

該過程使得研究者訓練出一個結合谷歌圖像識別技術和人類評分者智慧的模型。（人類評分者智慧主要體現在指出有趣內容的 5000 萬條意見。）

拍照控制器（Shot Control）

基於這一預測照片「有趣性」的強大模型，Google Clips 可以決定哪些時刻需要實時捕捉。其拍照控制器算法遵循以下三個主要原則：

尊重電量 & 發熱：谷歌希望 Clips 的電池能夠持續大約三小時，同時不想設備過熱，因此該設備不能一直全力運行。Clips 大部分時間處於每秒拍攝一幀的省電模式。如果這一幀的質量超過 Clips 最近拍攝的閾值集，則它進入高功率模式，以 15 fps 進行拍攝。Clips 在遇到第一次質量高峰時保存該視頻片段。

避免冗餘：谷歌不希望 Clips 一次捕捉所有時刻，而忽視了其他內容。因此谷歌的算法將這些時刻聚合成視覺相似的組，限制每一簇中的視頻片段的數量。

後見之明的好處：看到所有的視頻片段後，再選擇最佳的視頻片段就比較簡單了。因此視頻片段捕捉到的時刻要比它展示給用戶的多。當視頻片段要遷移至手機時，Clips 設備會花一秒時間查看其拍攝成果，只把最好和最不冗餘的內容遷移過去。

機器學習公平性

除了確保視頻數據集展現人口多樣性，研究者還構建了多個測試來評估該算法的公平性。研究者通過從不同性別、膚色中均勻採樣，同時保持內容類型、時長和環境條件不變，來精心創建數據集。然後，研究者使用該數據集測試該算法在應用到其他群體時是否具備相似性能。為了幫助檢測提升 moment 質量模型時可能發生的任何公平性回歸，研究者向該自動系統添加了公平性測試。該軟體的任意改變都會在該測試中運行，並獲得通過。注意該方法無法確保公平性，因為研究者無法測試每一個可能的場景和結果。但是，研究者相信這些步驟是實現機器學習算法公平性的長期工作中的重要部分。

結論

多數機器學習算法都是為評估客觀質量而設計的，如判斷照片中是否有貓。在本文中，谷歌的目標是捕捉一個更難捉摸、更主觀的質量——判斷個人照片是否有趣。因此，谷歌將照片的客觀、語義內容與主觀人類偏好相結合，構建了 Google Clips 背後的人工智慧。此外，Clips 被設計成與人協同，而不是自主工作；為了獲得優質的結果，人類的取景意識依然重要，還要確保相機的方向是有趣的內容。谷歌對 Google Clips 的出色表現感到欣慰，期待繼續改進算法來捕捉「完美」時刻！

原文連結：https://ai.googleblog.com/2018/05/automatic-photography-with-google-clips.html

本文為機器之心編譯，轉載請聯繫本公眾號獲得授權。

✄---

加入機器之心（全職記者/實習生）：hr@jiqizhixin.com

投稿或尋求報導：content@jiqizhixin.com

廣告&商務合作：bd@jiqizhixin.com

相關焦點

谷歌最新3D人體捕獲裝置:LED蛋,背景、陰影、光照隨意調

隨著計算機視覺技術的演進，計算機已經能夠比較「自然」地還原人臉形狀、皮膚紋路，但是在模擬燈光條件這一塊還是缺乏寫實感。谷歌這個全新的系統可以完美還原人物周圍的光影效果，使得合成的影像看起來更加逼真。通過與 AR 等技術的融合，該系統可以無縫地將捕捉到的人體融合到現實世界中或電影、遊戲等中的數字場景。它可能會徹底變革 3D 捕獲技術領域。
谷歌推出錄音程序Recorder,智能處理海量音頻信息

如果我們能夠擁有一個智能錄音機，可以實時轉錄並標記長時間的錄音內容，幫助我們像搜索文本圖像一樣迅速定位找到相關信息，那該多好！通過自適應尺寸的中值濾波器技術對分類結果進行處理，就能得到平滑且連續的輸出。同時模型和前後處理也滿足高效的能耗要求，以便適應移動端嚴格的功耗限制。自動標籤建議錄音結束後，程序還能夠根據內容自動生成三個最具代表性的標籤，幫助用戶快速構建文件標題。
谷歌賣斷貨的AI相機Clips, 只是一個超低性價比的GIF剪輯器?|深度測評

根據谷歌官方的定義，Clips 是「智能攝像機」。這是攝像機行業內的一個新種類。如果沒有當前的車載技術，這種產品不會存在於攝像機領域內。這款產品看似包裹在一層可愛的包裝下，看上去像是 Ins 圖標。但實際上，Google Clips 是一款精密複雜的高科技產品。
【智能電動汽車專題】跨界篇:谷歌(NASDAQ:GOOGL),科技巨頭進軍汽車領域,Waymo自動駕駛技術全球領先

谷歌作為全球領先的科技巨頭企業，在汽車領域布局已久。谷歌母公司Alphabet旗下Waymo，是全球領先的自動駕駛技術公司，採用高舉高打，直接研發L4/L5級自動駕駛的技術路線，並積極與車企合作，推進自動駕駛技術在出行服務、物流、技術授權、公共運輸等領域應用。
谷歌宣布退出中國 google.cn已經關閉

3月22日東部時間下午：Google 正式宣布關閉 google.cn , 停止審查搜索結果 CN域名重定向到google.com.hk 谷歌公司稱打算繼續在中國的研發工作，並還將保留在中國的銷售業務。 Google香港首頁上有「歡迎您來到谷歌搜索在中國的新家」字樣。
追勢科技夏晴:低速自動駕駛迎高光時刻

在臨港新片區管委會的園區，記者看到了追勢科技正在現場直播其最新的低速自動駕駛代客泊車技術，我們也是第一時間在現場採訪了追勢科技的產品總監夏晴女士，一探這一家低速自動駕駛科技企業的究竟。「記者」：您好，請您幫我們介紹一下我們正在展示的是什麼技術？
AI 相機 Google Clips 正式開賣,首批嘗鮮者有這些使用體驗

這款小巧的產品面向家庭場景，在功能上主要集成了機器學習技術，可對場景中的人物、寵物、環境等畫面進行識別和分析，能夠讓攝像頭發現適合拍攝的畫面時進行自動拍攝。今天，這款 AI 相機正式對外開始售賣，科技媒體 9to5Google 整理了外媒對該產品的評測體驗，雷鋒網對此進行了編譯。
定格2020 北汽集團車型的高光時刻

2020年倒計時最後3天回望這不平凡的一年北汽集團馬力全開，步履不停一款款安全、環保、智能、舒適的汽車產品是我們的初心和驕傲也是我們不變的承諾這一年所有的艱辛、努力與熱血凝聚成一款款高光車型與一個個精彩時刻
Google Earth 谷歌地球app

（app）由於google退出中國市場，中國大陸無法使用google相關軟體，但是可以通過ourplay框架，來使用Google相關軟體。也可以在框架中使用其他google軟體，請自行發揮。our框架下載網址：ourplay.net/downloadour框架下載網址：cdn.ourplay.net/gsaid/OurPlay-2.7.2.apkGoogle Earth 谷歌地球，通過衛星圖像、整個地球的3D地形圖像以及全球數百個城市的3D建築圖像，從高空探索整個世界
不一樣的兒童攝影佳能EOS 100D捕捉動人瞬間

對於家庭來說，捕捉到小孩的情緒和性格比體現技術能力和技巧應用更為重要。無論如何，將良好的攝影技術、技巧與正確的拍攝時機相結合，你就能得到珍貴的兒童家庭照片。f/1.4，1/2500秒，ISO100 3"觸摸液晶屏，操控簡單，即使是攝影初學者也可以輕鬆上手。同時，佳能還推出了第二代混合式AF系統，配合全新全新9點中央十字對焦系統，對拍攝活潑好動的兒童也是不在話下。
谷歌語音助手的一小步,谷歌改變的一大步

谷歌語音助手谷歌宣布了12個谷歌語音助手的新特性。1、同步聯網智能家居設備語音助手同步智能家居設備老版本谷歌助手，在添加智能設備後要經過一段時間才能使用。新版本在添加新智能設備之後，打開谷歌助手並說出指令「Sync my devices」，將會自動同步到帳號，然後就能用語音助手控制智能設備。
谷歌地球 Google Earth Pro中文免費版

谷歌地球(google earth)是一款谷歌官方推出的虛擬地球儀軟體，通過使用谷歌地球(google earth)軟體用戶能夠免費瀏覽各個國家和地區不同風景的高清衛星圖片，讓你足不出戶就了解全世界。並且還有很多特色的功能來等你體驗。
Line 推出智能音箱 Wave,能夠挑戰亞馬遜和谷歌嗎?

編者按：智能音箱市場上，目前最佔優勢的還是亞馬遜的Alexa，而蘋果和谷歌也不甘示弱，正在發力。韓國著名即時通訊軟體Line也在10月5日全新推出了自家的智能音箱Wave。「關燈，」他對著床邊發光的智能音箱說，這就是Line於10月5日全新推出的智能音箱。另一個場景是：在下班回家的路上，媽媽發來一條信息：「還沒睡覺？」女兒回答說：「Clova，告訴媽媽，爸爸睡著了。」這是Line對其智能音箱Clova Wave的美好願景，它能幫助人們實現無數簡單又暖心的生活場景。
Google I/O 2019 我們看到了一個正在改變世界方方面面的谷歌

正如之前劇透的一樣，在Keynote環節上，谷歌展示了自家在技術方面的創新，Android Q、Google Pixel 3a & 3a XL、以及Nest Hub Max也逐一登上了舞臺。接下來我們就來回顧一下發布會上的細節。
蘇州相城區發布智能駕駛「上路計劃」,福特開放自動駕駛汽車數據集

隨著「上路計劃」的發布，蘇州高鐵新城將為落地智能駕駛車輛提供多樣化的道路測試條件與場景，同時圍繞智能駕駛相關企業產品展示、業務拓展、基礎研發、融資等需求提供相應支持與服務。論文提出一個通用、高性能的自動駕駛檢測器，可兼顧3D物體的檢測精度和速度，提升自動駕駛系統安全性能，兩者兼得的實現在業界尚屬首次。該論文團隊表示，檢測器的創新是自動駕駛領域落地的關鍵突破口，此次提出的檢測器融合了單階段檢測器和兩階段檢測器的優勢，因此同時實現了3D檢測精讀和速度的提升，未來檢測器的創新研究還可以解決自動駕駛產業的更多難題。
暗光《三岔口》+華為Mate40系列用影像見證黑夜中的高光時刻

在一系列的老物件展示詳解後，京劇行業藝術家宋小川、京劇文化弘揚者王珮瑜帶領觀眾領略了京劇《霸王別姬》經典片段—虞姬舞劍。優美的身形、婀娜多姿的動作配合《夜深沉》曲牌，藝術表現力和感染力極強，輕鬆將觀眾時空感帶入劇中。身處臺下的宋小川老師用華為Mate40將記錄展示了虞姬身段，憑藉著30倍變焦，華為Mate40能輕鬆定格遠處的畫面。
谷歌秘密重返大陸?google.cn域名今日凌晨可以打開

【TechWeb報導】1月27日消息，據國外媒體報導，有不少中國網友反映，從26日晚上到今日凌晨的某段時間內，谷歌.cn域名（www.google.cn）能夠被大陸網友訪問。有網友表示，.cn域名確實可以正常訪問，但僅限於手機；此外，雖然.cn頁面可以正常顯示，不再直接跳轉至Google.com.hk，但點擊搜索、圖片，仍為Google.com.hk提供的結果。
十億像素+360度全景谷歌技術背後的藝術呈現

【環球科技報導記者李文瑤】技術與藝術似乎天生就是彼此糾纏的一對愛侶。藝術為技術提供想像和創造的空間，技術為藝術提供了實現人類夢想的方法。許多科學家、藝術家和教育家都認為：科學與藝術的結合是未來人類思想發展的主流。而在現在，技術又為藝術提供一種全新的展示方法：將實體的藝術作品搬到網際網路上。
GOOGLE智能助理會讓您向朋友和家人發送提醒

谷歌正在給它的助手添加一個新功能，讓你可以將提醒分配給其他人，只要這個人是一個可信任的助理用戶選擇組的一部分。這個功能主要是為家庭設計的——它將通過家庭組功能發揮作用——這樣父母就可以向子女或配偶發送提醒，並在手機或谷歌助手支持的智能顯示屏上彈出提醒。但它也可以為朋友或室友工作，公司說。
Google 推出 HDR+ 連拍攝影數據集

文 / Google 機器感知軟體工程師 Sam Hasinoff連拍攝影是支持 Google 近期推出的智慧型手機上的

業界 | 自動捕捉高光時刻:谷歌展示Google Clips全新智能攝影技術

相關焦點

谷歌最新3D人體捕獲裝置:LED蛋,背景、陰影、光照隨意調

谷歌推出錄音程序Recorder,智能處理海量音頻信息

谷歌賣斷貨的AI相機Clips, 只是一個超低性價比的GIF剪輯器?|深度測評

【智能電動汽車專題】跨界篇:谷歌(NASDAQ:GOOGL),科技巨頭進軍汽車領域,Waymo自動駕駛技術全球領先

谷歌宣布退出中國 google.cn已經關閉

追勢科技夏晴:低速自動駕駛迎高光時刻

AI 相機 Google Clips 正式開賣,首批嘗鮮者有這些使用體驗

定格2020 北汽集團車型的高光時刻

Google Earth 谷歌地球app

不一樣的兒童攝影 佳能EOS 100D捕捉動人瞬間

谷歌語音助手的一小步,谷歌改變的一大步

谷歌地球 Google Earth Pro中文免費版

Line 推出智能音箱 Wave,能夠挑戰亞馬遜和谷歌嗎?

Google I/O 2019 我們看到了一個正在改變世界方方面面的谷歌

蘇州相城區發布智能駕駛「上路計劃」,福特開放自動駕駛汽車數據集

暗光《三岔口》+華為Mate40系列用影像見證黑夜中的高光時刻

谷歌秘密重返大陸?google.cn域名今日凌晨可以打開

十億像素+360度全景 谷歌技術背後的藝術呈現

GOOGLE智能助理會讓您向朋友和家人發送提醒

Google 推出 HDR+ 連拍攝影數據集

不一樣的兒童攝影佳能EOS 100D捕捉動人瞬間

十億像素+360度全景谷歌技術背後的藝術呈現