iPhone 12 Pro Max的最新相機已經相繼被大家評測了,所謂計算攝影也逐漸完美。但其實這個領域的領跑者並不是蘋果,而是一個非常小眾的系列:Pixel——它出生在龐然大物 Google 的門下,卻知者甚少。
本文的主要目的是深入介紹手機端計算攝影帶來的變革和它的發展階段,內容上會從Pixel發展史入手,通過淺顯易懂講故事的方式闡述其中的各個環節。
今年蘋果全新發布的iPhone 12 Pro Max大幅更新了相機硬體大47%的感光元件,2軸Sensor Shift防抖, LiDAR深度sensor……
iPhone 12 PM的鏡頭和傳感器
之外,iPhone 12 大幅更新了 DeepFusion算法,終於在大部分日常用例下幾乎追平了谷歌Pixel。
當然這種目前世界最先進的「計算攝影」絕對不是簡單把很多照片加權平均這麼簡單,那麼具體是什麼樣呢?
廣義來說任何使用算法來處理畫面的攝影手段都算。例如蘋果的Smart HDR,抑或是各大手機的全景拍攝功能,甚至包含濾鏡類的後期「藝術加工」。本文主要關注前者,即「增強畫質」,也即是Levoy重新定義的計算攝影概念 。
2016 Google Pixel / XL
繼Nexus和Chrome Pixel之後,2016年穀歌在 MadeByGoogle 大會上公布了這兩款手機。他們搭載的是當時先進的索尼的 IMX378 傳感器,加上初試牛刀的計算攝影功能,Pixel直接問鼎了DxOMark 的頭把交椅。不過那時候計算攝影初露頭角它的效果還不是很突出大家沒重視,理所當然的認為是Pixel硬體好,校準好,而且市場上還有很多覺得谷歌作弊的文章湧現。
除此之外,2016那個良莠不齊的市場裡,Pixel除了相機之外還有著當時安卓陣營最流暢的體驗,控制得最好的電池消耗,Google Photos無限存儲以及親兒子最新的OTA,因此被各大媒體捧上了天。如此先進的技術後面是一個被矽谷評為大牛的傳奇角色 Marc Levoy,他是開創計算攝影的教父級人物。他加入谷歌前,任職史丹福大學計算機圖形學教授,後面會講到。
第一代計算攝影處理的影像:HDR+,當其它廠商還完全依賴於傳感器本身提供的HDR(區域多分多重曝光HDR)的時候,谷歌一騎絕塵帶來了超好的噪音控制和動態範圍。
這裡,Pixel的核心技術HDR+的原理是用欠曝的 Burst shoot來創建多重相片,進而合併出更高畫質的圖像。
這個技術在手機上算是首創,但不是最先發明。最早這項技術是NASA的物理學家發明用在NASA的天體望遠鏡上。
HDR+原理:Burst Stacking 拼合。上圖:ISO 25600下,單長幀 vs 10短幀拼合。概念上很簡單,但要最大化挖掘硬體能力,在所有場景下高速,穩定的實現卻非常之難。Marc和他的團隊在背後工作了2年多才完成HDR+的產品化。
2017 Google Pixel 2 / XL
過了一年時,Pixel 2頂著皇冠問世。這一代,谷歌為了深度測算,拋棄了畫質更好的IMX378,而換上了擁有雙像素的IMX362 。這顆CMOS和IMX378同年,畫質參數稍遜,但是多了一個雙像素PDAF。雙像素是什麼意思呢,就是說每個像素一分為二從左半鏡頭和右半鏡頭看出去的影像是有區別的,一般單反上被用來快速自動對焦,而Pixel團隊除了對焦以外還把它用來計算深度圖像;深度測算這個問題,當時其它家手機廠商還只能通過多攝像頭來計算,而且簡單CV的雙攝立體深度計算問題很多,相比之下Pixel2的深度卻十分清晰乾淨。
於是靠著老掉牙的PDAF技術的Pixel 2竟然挖掘出新鮮的單攝景深玩法,屬實震驚。同時Pixel 2為了提升其中繁雜的機器學習計算效率,手機中又內置一顆谷歌自研VisualCore晶片來加速神經網絡。
雙像素PDAF的原理,每個像素一分為二,通過兩者的相位差來界定對焦偏移。由於所有像素都能檢測相位差,所以對焦速度快而且準。
Pixel 2的單鏡頭模擬景深效果,使用了上一代的HDR+,機器學習和DPPDAF來識別前景 (P2上的機器學習只是輔助blocking作用)
這一年,雖然相機硬體上落後對手一年多,Pixel 2依然是DxO頭榜。各大廠商這時幡然醒悟,開始奮起複製Pixel關於照片疊加的概念,這裡面最積極的就是蘋果,因為同在矽谷,用了一大堆昂貴硬體的iPhone X的相機卻被「村裡新來撿破爛的谷姓孩子」全面吊打。
2018 Google Pixel 3 / XL / a
時間快進到2018,從這代開始,Pixel換上了大家通常戲稱的「祖傳」IMX363 CMOS。同時,Pixel第三代是計算攝影真正閃耀的一代。能繞過硬體本身的設計目的把其性能發揮到如此無以復加地步的僅 Pixel一家。
左:Issac Reynolds(Pixel相機產品經理),右:Marc Levoy
Pixel 3的第一個炸彈是Night Sight。IMX363原本的夜間採光能力用孱弱形容也是毫不誇張。當時其它廠商的夜間模式基本都是長曝光+高ISO+更強的CMOS硬體,蘋果更是出於眾所周知的保守策略,連超長時間曝光的功能都沒加,夜拍能力約等於0。Pixel 3發布會這張對比圖基本上可以用震驚來形容,同時讓大部分人覺得絕對是噱頭,等著谷歌打臉。
Pixel 3 著名的手持-夜間模式對比圖:iphone xs的效果昏暗而且噪音非常多,細節模糊,而pixel3幾乎很好地將原始顏色和細節拍攝出來,整個畫面乾淨明亮。大家一臉質疑地進來,捧著一碗碗「真香」出去
這個新型夜間模式的發明不僅解決了困擾業界多年的手持不能拍暗光的難題,還把手機影像的上限極大提高了。只要通過疊加更多的照片,理論上可以無限接近於單個像素的ground-truth。不過在實際處理當中,極暗情況下顏色的還原還是需要AI進行彌補。
當然,新東西遭到的非議也很多:最多的來自於傳統攝影師和一些數碼小白粉。他們的核心論點是,這種照片照出來的不是真實的畫面,相當於PS,攝影不再純粹。當然這個說法有一定事實基礎,但是否更多是出於對新生事物的抗拒,咱們後文再說。
Night Sight 的原理最初也是NASA的物理學家們發明的,但宇宙飛船穩定的取景的環境對比手機來說,這種算法的難度並不一樣:Night Sight也需要好幾秒的曝光才能獲得好的夜景,但是並不容易「糊」 ;玩過單反的朋友應該對暗光拍攝呼吸法有著很深的印象。ISO暴力提高沒有解決的這個問題最終被計算攝影解決了。
當然如上文說到,這項裡面的細節其實遠比想像的要複雜,最大問題就是要支持手持。
有種猜測是谷歌也許是出於兼顧儘可能大的硬體範圍或者提供一個安卓樣板才這麼做,真相不得而知,但無論怎樣,事實就是谷歌基本上給自己選了一個地獄難度。
如果形象點畫個圖的話,大約像這樣:
比如拿上圖的對齊來說,對齊圖片並不難,但是要在低光下對齊就很難。噪音越多對齊越難。要麼擴大計算範圍,但速度太慢;減少範圍?噪音太多。
要找到適用於所有場景的算法真的很難。比如改善噪音的辦法就是更長的曝光和更好的硬體。但是谷歌又偏偏故意沒有選擇旗艦CMOS,而且為了手持,曝光時間還不能太長,基本上就相當於,夜間蘋果華為能看到大概圖片的時候,谷歌的相機硬體拼合時只能看到一堆噪音,這意味著需要更複雜的算法,更多的資源消耗。但同時又必須要兼顧處理速度,不能太長,這點時間裡還要抽出一部分處理AI上色……難度之大可想而知。
蘋果在次年的iphone 11中終於實現了類似的辦法,但是在碾壓式硬體的加成下,依然不能完全贏過Pixel 3。足見Night Sight系統的強大。
第二個炸彈是Super-Res Zoom,超解析度變焦。在這個模式下,手機會自動收集手部的生物顫抖所形成的偏移,補全出數字變焦後缺失的像素。更創新的是,如果使用三腳架,沒有手部運動的情況下,Pixel 3會自動讓鏡頭的光學防抖組件進行規律的運動,以造成微小的偏移。
Pixel 3相機會自動利用OIS防抖系統做不微小抖動
所以SuperRes Zoom相當於玩了一把變廢為寶,利用了劣勢的手部抖動免費給變焦系統增加了一個1.5x的縮放功能。
由於是數碼變焦,不受光學組件的限制,所以在兩個光學檔位中間的縮放比例時,也能完美工作,而光學變焦並不能做到這一點。例如1.8x變焦時,蘋果用的是1x的照片強行裁剪得到的,無法享受到2x光學變焦的好處,但是Super Res Zoom不受影響。
有無SuperRes Zoom的比較
有意思的是,我拿iPhone12 pm做了測試,今年的iphone上,蘋果終於也悄悄實現了類似的功能,集成在DeepFusion運算中,效果不如SuperRes Zoom,而且畢竟是谷歌先做出的,蘋果完全沒有為此打廣告。
iPhone 12 pm 12倍混合變焦和2.5倍光學變焦的區別 ,ProRAW模式下比較明顯。
SuperRes Zoom裡面為了進一步增加解析度,還繞過了去馬賽克demosaic階段。
什麼是demosaic呢?
手機裡面相機的CMOS實際是由一系列感光點陣組成的,每個點都能感知光源的強度,為了感知色彩就需要RGB三種顏色的傳感器,他們通常如下圖的方式排布。
所以當手機收到如上圖CMOS發來的信號時,得到的解析度是8x8,但是由於每個像素需要三種顏色通過一些列插值算法才能合成完整的色彩,所以實際有效解析度大約需要除以3。
這麼一來,普通手機中看似1200萬的像素解析度就被硬生生砍成了400萬。
谷歌在實際實現SuperRes Zoom的過程中發現,自己手上有一堆照片可以用來合成,那麼實際上算上偏移,每個感光點可以擁有兩張以上的亮度信息,也就是說,每個點已經具有了最終的顏色,那麼就不用再demosaic了,400萬像素又還原成了1200萬。
其次是Computational Raw的提出。
這個模式也就是Pixel 3的RAW拍照模式。這個模式不是真正的RAW,它實際上是經過了Pixel 3內部大部分計算攝影管線的處理。唯一省略掉的是上文提到的 SuperRes Zoom,由於第三方App並不能支持其中的Demosaic處理,所以只能以貝爾排列的分離通道方式存儲。
在iPhone 12 Pro和Pro max上,即將發布的iOS 14.3會帶來ProRAW格式的支持,這個格式跟之前的RAW不一樣,它基本上就是這裡說到的Computational Raw。
這種混合了所有軟體增強的新型RAW輸出,在當年就已經被稱之為「單反最大的威脅」。時到如今2020年底,利用手機完成在線商用內容拍攝的工作室也越來越多,計算攝影的革命正在燎原。
由此,ProRaw的提出讓iPhone 12 Pro Max終於在大部分算法和能力上追平了谷歌。
Pixel 3和 iphone 12 pm的RAW 格式選項
最後還有Pixel 3更新的景深算法。主要是得益於AI方面的進步,識別更加精準了。另外也加入了諸如散焦之類的參數。總之,單攝識別率當時基本上依然是世界第一,但沒有打過配有ToF測距的手機。
Pixel 3的機器學習深度推算
Pixel 3 XL景深對比iPhone (非LiDAR模式)
2019 Google Pixel 4 / XL / a
這是目前為止谷歌最後一次在計算攝影上帶來變革。Pixel 4相機硬體上基本沒有任何改進,除了增加了一枚2x人像鏡頭。不過軟體上 Pixel 4大幅提升了 SuperResZoom的畫質,以及帶來了天文攝影 Astrophotography 的功能。天文攝影實際是一種極暗光線 + 天體運動補償的的拍攝功能,在手機上實現起來極為困難,其中最重要的原因之一就在於上文提到的信噪比問題,再加上Pixel 4孱弱的感光硬體,谷歌基本上都是在比對手複雜得多的極稀疏的數據下做處理。
為了表現一下這個功能的能力,我去年在幾乎伸手不見五指的密林裡做了一個測試:
左:Pixel 4 XL 三腳架 60秒,ISO 2077,f/1.8,每幀4秒,天文模式; 右:iPhone 11 Pro Max 三腳架30秒(iOS限制),ISO 8000, f/1.8,夜間模式。人眼實際感受:幾乎什麼都看不到,包括天空。
可以看到Pixel幾乎在毫無光線的情況下很大程度上正確還原了細節和色彩,包括地面受到月光穿透樹葉帶來的些許綠色散射。比較符合白天看到的樣子。
對於這樣的結果,我只想說:
Pixel 4的另一特殊feature是實時預覽HDR效果,可以手動調節高光和暗影曝光值。由於HDR+的計算量很大,這個問題上谷歌其實是採用的機器學習來模擬HDR+最終效果。
Pixel 4 Live HDR
Pixel 4發布以後,今年早些時候,Pixel計算攝影的關鍵性人物Marc Levoy黯然離職。他沒有透露具體離職原因,只是在問到是否還會深耕當前的工程時,他表示,堆疊照片的計算攝影方法已經臻於成熟,是時候尋找新的挑戰了。
「I think it was time to declare victory and move on. There were diminishing returns among these table stakes of high dynamic range imaging and low light imaging, and it was time to look for a new frontier.」 - Levoy
Levoy 和另外幾個關鍵性人物的離開也加速了Pixel系列的衰退,緊隨之後發布的Pixel 5直接乏善可陳,除開沒有任何革命性的算法提出以外,硬體上也是不盡人意。在計算攝影走向大眾之後4年,Pixel 相機的皇冠最終被蘋果摘走,包括國外各大知名博主都紛紛表示了倒戈。第一代的計算攝影的革命到此接近末尾。
未來是什麼呢?其實矽谷早已指明了方向,那就是人工智慧。在AI的支持下,更多不可思議的結果正在以以後春筍般的速度湧現……
如果要較真的話,暫時Pixel 的算法依然有優勢,只是差距越來越小
最後回到之前提的一個問題,如此的計算攝影到底還是不是真正的攝影?首先拋開AI增強或者物體剔除之類的大改,就上文所說的疊加式計算攝影來看,肯定是算真正的攝影。為什麼呢?
因為攝影進入數字時代後就從來不再是接收光這麼簡單了,包括最老式的數碼單反,要把CCD接收到的電信號形成最終的像素都是經過複雜的軟體處理的,中間會丟掉大量信息,破壞大量信息,不同的算法之間質量差別也非常大。如果說這種處理能被接納為真實的攝影,那麼所謂HDR+一類的堆疊方式,完全沒有質的區別,它們只是更加聰明的利用了原始數據,用了數學手段儘可能多的還原了真實信號,不存在軟體層面的自動再創作。至於顏色上的調效,仁者見仁。未來,人眼會逐漸全面落後於機器視覺,這是幾乎不爭的事實,能不能接受也只是時間問題。
寫本文時用到的兩隻小白鼠,IBIS機身防抖,超大Sensor,LiDAR測距,ProRaw,4K杜比視界……今年最全面最好用的手機相機機皇,非蘋果莫屬。