機器之心報導
參與:魔王、蛋醬、杜偉
剛剛,頂級計算圖形學機構 ACM SIGGRAPH 頒發了 2020 年最佳博士論文獎。MIT CSAIL 博士後研究員、太極(Taichi)論文第二作者李子懋(Tzu-Mao Li)獲得該獎項。SIGGRAPH 頒獎詞中稱他的博士論文「為新興的可微計算機圖形學奠定了基礎」。
在這篇 148 頁的博士論文中,李子懋探討了視覺計算、編程系統和統計學習之間的關係。他將經典計算機圖形學和圖像處理算法與現代數據驅動方法相結合,從而增強了物理理解。李子懋利用統計學中的數學工具和機器學習開發能夠解決圖形和視覺問題的新算法。此外,他開發的編程系統簡化了可學得視覺計算算法的高效實現和數學推導。
該論文的主題是解決計算和應用複雜圖形學 pipeline 導數所面臨的挑戰,以便利用這些導數更好地擬合和採樣參數或者解決逆問題(inverse problem)。這項研究被認為「解決了圖形學算法中的不連續性以及現代硬體的大規模並行性問題,其貢獻遠遠超出了傳統的自動微分」。
在頒獎詞中,SIGGRAPH 稱該論文「為新興的可微計算機圖形學研究領域奠定了基礎」,李子懋是「物理可微渲染領域的先行者」。
這篇論文的主要貢獻包括以下三項:
首先,它推導並實現了首個全面的可微渲染解決方案,該方案可以正確計算涉及任意場景參數(如相機姿態、場景幾何、材料和光照)的渲染圖像上標量函數的導數。這使得多種圖形學和視覺算法能夠使用導數分析圖像的 3D 屬性,包括 3D 重建和對抗樣本生成。
其次,論文的另一項貢獻是提出了一個領域特定的自動微分編譯器,它基於 Halide 程式語言構建,用於微分圖像處理算法。該編譯器只需研究人員付出很少的編程努力,即可以高性能自動生成複雜圖像處理算法的梯度。這就為使用靈活構造塊開發高效準確的數據驅動圖像處理算法開闢了新的路徑,與深度學習中常用的粗粒度算子形成鮮明對比。
最後,該論文提出了首個 MCMC(馬爾可夫鏈蒙特卡羅)渲染算法,該算法使用光路吞吐量的二階導數,來加速移動焦散或光滑材料多反射照明等高難度特效的渲染進程。具體來說,該研究使用光傳輸貢獻的 Hessian 矩陣來捕獲被積函數的強各向異性(anisotropy)。
獲獎博士論文
現在我們來看這篇博士論文《Differentiable Visual Computing》的具體內容。
論文連結:https://people.csail.mit.edu/tzumao/phdthesis/phdthesis.pdf
計算機圖形學、圖像處理和深度學習算法的導數在指引參數空間搜索或解決逆問題方面有著廣泛的應用。隨著算法複雜度不斷增加,我們不能只對簡單的數學函數進行微分,還需要處理編碼複雜數據變換的通用程序。這篇博士論文介紹了三個工具,用來解決獲取和應用複雜圖算法導數時遇到的挑戰。
可微圖像處理
傳統上,從業者往往只能使用有限數量的粗粒度算子或手動導出的導數來編寫程序。該研究利用反向自動微分擴展圖像處理語言 Halide,及其自動優化梯度計算的能力。這有助於自動生成任意 Halide 程序的梯度,且性能較高,程式設計師也無需付出大量精力。
該研究展示了它的多種應用,如該系統能夠提升傳統前饋圖像處理算法的質量,將經典和深度學習方法之間的界限模糊化。
可微蒙特卡洛光線追蹤
3D 渲染領域需要與相機參數、光源、幾何和外觀等參數相關的梯度。但是,梯度計算難度很大,因為渲染積分包括不可微分的 visibility 項。這項研究提出了首個通用可微光線追蹤器,它可以解開渲染方程,同時還考慮到了幾何不連續性。
該研究還展示了該原型在逆向渲染和神經網絡對抗樣本生成方面的應用。
新型採樣算法:Hessian-Hamiltonian Monte Carlo
最後,這篇論文展示了,光路吞吐量(light path throughput)的二階導數對於指導前向渲染中的採樣也很有用。在 3D 渲染中,模擬光滑材料的多反射效果和運動中的光傳輸是一件很有難度的事情,因為被積函數具備高維度,且高貢獻區域較為狹窄。
該研究擴展了 Metropolis Light Transport 算法,使其適應被積函數的局部形態,從而提升了採樣效率。具體而言,Hessian 能夠捕獲被積函數的強各向異性。該研究借鑑了漢密爾頓蒙特卡洛方法,並模擬泰勒展開,以從高貢獻區域中獲取樣本。
論文結構
這篇論文的結構如下:
論文第二、三章綜述了自動微分、優化和採樣的背景,及其之間的關係;
第四章解決了基於圖像處理算法高效生成導數這一系統挑戰;
第五章提出了通用可微分光線追蹤器,這是首個計算場景參數渲染積分(rendering integral )梯度的完整解決方案,該方案還能正確地考慮幾何不連續性;
第六章展示了馬爾科夫鏈蒙特卡洛渲染算法,該算法通過二階泰勒展開,自動顯式地適應被積函數的局部形態,從而提升採樣效率。
李子懋個人簡介
李子懋目前是 MIT CSAIL 的博士後研究員,與 Jonathan Ragan-Kelley 共同從事研究工作,此前二人曾在 UC 伯克利有過六個月的合作。
2011 年和 2013 年,李子懋在國立臺灣大學獲得計算機科學和信息工程的學士和碩士學位,期間曾作為「通信與多媒體實驗室圖形學小組」的成員,跟隨莊永裕教授從事相關研究。之後他前往 MIT,師從 Frédo Durand,並獲得計算機科學博士學位。
他的導師 Frédo Durand 是計算機圖形學領域的頂尖研究者,在今年初清華大學發布的人工智慧全球 2000 位最具影響力學者榜單中,Frédo Durand 被評為計算機圖形學領域的 TOP1 學者。此前的計算機圖形開源庫「Taichi」作者、清華姚班畢業生胡淵鳴也是 Frédo Durand 的學生。
去年 5 月,MIT CSAIL 的胡淵鳴等人開源了名為「太極」的開源計算機圖形庫,主要面向計算機圖形學領域的研究者,提供易於使用的計算機圖形學基礎架構,並提供了 40 多份計算機圖形學重要研究的實現。
2019 年 9 月,該研究團隊上傳了關於太極的預印版論文,李子懋是第二作者。今年 1 月,李子懋和胡淵鳴等人繼續推出了太極的自動微分版本「微分太極」 。他們的導師 Frédo Durand 也參與了這兩項工作。
目前,李子懋在計算機圖形學方面的多項研究代碼均已開源,並在學界和業界產生了廣泛的影響,擁有眾多使用者,包括 MIT、UC 伯克利、康奈爾大學、布朗大學的研究者,也包括 Adobe、谷歌、Technicolor、InterDigital 等企業研究實驗室的開發人員。李子懋在寫作該博士論文過程中編寫的可微渲染器「redner」目前的下載量已超 10 萬次。
上個月,這位年輕的學者也有了最新動向:李子懋將於 2021 年 7 月加入加州大學聖地牙哥分校計算機科學與工程系,擔任助理教授。
值得一提的是,這也是華人學者連續三年獲得 SIGGRAPH 2020 最佳博士論文獎。去年和前年該獎項由加州大學伯克利分校閆令琪博士和朱俊彥博士摘得。
參考內容:
https://www.siggraph.org/2020-outstanding-doctoral-dissertation-award-tzu-mao-li/