數據時代幾何處理與建模的研究進展與趨勢

2020-12-05 騰訊網

  CCF於1月11日發布了最新一期《中國計算機科學技術發展報告》,對可群智協同計算、軟體智能化開發技術等11個方向的研究進展做了詳細介紹和討論。我們將分期分享報告中的精彩內容,加入CCF會員登錄CCF官網,可在數字圖書館欄目下載和瀏覽。

  1 引言

  1.1 數字幾何處理在生活中的應用和數據時代的新應用需求

  近幾年,隨著計算機硬體設備計算能力的不斷提升,尤其是GPU和計算集群的發展,伴隨著三維列印,人工智慧,和虛擬實境潮流的席捲,數字幾何處理,即數位化幾何處理在越來越多的領域開始慢慢扮演著越來越重要的角色。 比如遊戲娛樂,電影傳媒,藝術設計,工業製造,航空航天,醫療教育,和文化保護等等領域越來越多的用到數字幾何處理的技術。另一方面,隨著輕量級3D掃描設備(比如微軟Kinect)和建模技術的突飛猛進以及近期WebGL和雲端計算的發展和需求,網絡上的三維模型開始海量出現並不斷刺激著各種產業需求。大量數據的出現,包括單個模型和場景模型,使得內容的產生變得相對容易,而另一方面,大量數據也給傳統數字幾何處理的算法和技術帶來了新的機遇和挑戰。傳統的幾何處理算法在海量數據面前的瓶頸和短板也慢慢呈現,如何快速有效且魯棒的處理海量幾何數據,從中提取我們需要的信息,比如精確建模,快速成型和瀏覽,高效智能的變形,語義分析,和組織管理到交互,這些問題也慢慢影響著傳統幾何處理方法的發展。從簡單物體的理解分析,到複雜甚至多物體的聯合分析,從簡單物體的建模渲染和交互,到複雜和整個場景的建模渲染和交互,這些需求都給傳統的幾何處理領域帶來了新的衝擊,引導著數位化幾何處理的潮流。

  1.2 傳統數字幾何處理的基本問題及其與數據時代需求的衝突

  數字幾何處理,即對數位化幾何模型的處理和分析,大的來講可以細分為以下兩個分支問題:理解(understanding)和建模(modeling)。理解又包含了很多子問題,比如模型去噪,模型分割,模型匹配,模型檢索等。建模,在某種意義上有可以分為重建式建模(從二維圖像,深度圖,點雲,CT,草圖等),編輯式建模(通過變形改變已有模型),過程式建模(通過組件的語法演繹),和合成式建模(通過組件的重組)等。很多問題很顯然不能簡單地從單物體拓展到多個物體,比如分割,簡單地將已有的單物體分割方法應用到多個物體上很容易會丟失多個物體隱含的對應關係,匹配也是一樣。多個物體帶來的內涵規律性是單物體分析沒有辦法去挖掘和直接套用的。並且傳統幾何處理的算法往往缺乏普適性,即可能只是為了適合某一些特定的物體而特定設計的,我們稱這些方法為特製裁定的(tailored)。而在數據時代,我們更加注重算法的普適性和魯棒性。這一點在最近計算機視覺領域的深度學習的崛起和迅速發展上可以很明確的看到。數據可以讓我們重新審視和改進之前我們解決問題的方式和方法。

  1.3 數據主要在哪些領域出現且其背後需求驅動

  數據的大量湧現其實並不是一個時間段井噴的效益,而是多年來的積累,更是其背後的產業需求和發展所推動的。我們迎來了工業4.0時代,隨著三維列印的崛起,虛擬實境硬體和算法的發展,WebGL, WebVR, 整個圖形學正在朝端到端的路線發展,更多的會面向普通用戶群體。而這裡一個非常重要的任務就是三維建模,包括材質紋理和真實感,也就是我們已經開始不滿足於二維圖像所給我們帶來的感官刺激,要往真實的更接近我們的生活的空間,可多角度可操控可製造等。比如近幾年興起的房地產虛擬看房,服裝業的虛擬試衣,三維遊戲,到工業的三維列印零部件設計以及虛擬旅遊景點等。三維建模,以前只是一個特殊技術群體的奢耗品,要讓普通用戶和消費者可以隨時隨地創建想要的三維模型,這是圖形學一直以來想要解決的一大難題。而正是近幾年三維列印和虛擬實境等的崛起,讓這個內容生成的問題變得更加迫切需要解決。這一主流驅動刺激和帶動了近幾年來一系列的幾何處理的工作。另外一個非常重要的領域就是我們的教育和醫療,在這些和我們生活息息相關的領域裡面也越來越多的用到了數位化的技術,VR教室,醫療數位化(骨科,牙科,內科等)。一個很有意思的事情是,在醫療行業,積累了大量的數字醫療影像和資料,很多都是可以直接精確建模的,這些數據的積累伴隨著目前圖形圖像技術的推動,人們越來越想往智能化的方向去代替以往大量的人力物力甚至達到遠程技術操控。而數位化處理這些數據的新的方法因而也應運而生。

  1.4 本文圍繞的問題與展望

  由於篇幅原因,本文著重圍繞著數字幾何處理領域目前熱門的四大板塊內容進行展開,希望可以以點拓面,讓廣大讀者們對數據時代幾何處理的發展方向和方式有一個大致的了解和思路:1.數據驅動的結構分析的方法發展及其應用;2.數據驅動的模型的高層次語義分析的發展及其趨勢;3. 數據驅動的幾何變形技術的發展及其趨勢;4.數據驅動的三維幾何模型的合成和重建技術的發展及其趨勢。在文章最後,我們提出了一些待解決的問題和對未來數字幾何處理發展的一些看法,希望可以對後續學者們的工作有啟發作用。

  2 概述

  2.1 數據驅動的結構分析

  在大量數據湧現之前,傳統的幾何處理方法都集中在對物體具體幾何特性的理解和計算方面,比如曲率,法向,紋理特徵等。這些對局部幾何特徵的理解和分析往往不能展現一個物體在全局功能上的特點,比如曲率的特徵只是描述物體某表面的幾何彎曲程度,它並不能告訴我們這個物體的全局功能、結構特性以及結構與功能的關聯屬性。近年來,基於結構的幾何分析和處理被國內外學者們慢慢提出來,並且應用到幾何處理的各個分支裡,比如基於結構的編輯,基於結構的合成等。

  圖1 結構在生活中的例子(圖片來自[2])

  很早以前,人們就開始探究物體外在結構和它們內在功能間的聯繫。例如,動物的犄角和外殼常為螺旋狀,是出於對堅固性和增長模式的考慮[1]。這種功能相似的物體常常會有相似的結構。因此,對物體結構的研究能幫助我們更好地理解物體的功能,從而能更好地幫助我們進行物體的處理和再設計。為了讓讀者對結構有一個清晰明了的概念,我們首先對結構做一個相對普適化的定義。後面我們會提到,根據具體應用和出發點的不同,所需要的結構信息也會有所延伸和拓展。

  圖2 結構的表示:部件和組織關係(圖片分別來自[42],[43])

  2.1.1 結構的定義

  首先,我們都知道一個物體其實是由多個相同或者不同子功能的部件構建而成,各個部件有機結合,共同形成了整個物體的功能。例如椅子,由椅腿、椅背、凳面等部件組成,這些部件被人為地有規律地連結在一起,共同反應了椅子的功能與特性。再比如,一個組織結構,是有各個職能部門,每個部門有其內在的特定組織結構且與其他部門有機協作共同組成了整個組織結構的職能。

  結構在幾何學中,從某種意義上來講,就是物體部件之間的布局和聯繫。部件,在這裡是一個抽象概念,它代表物體上某個有意義的組成部分(常含語義意義),而不是幾何學上的簡單分割(分割可以是任意的,而部件必須是有其單獨子功能的)。部件間的聯繫是物體結構中最關鍵的部分,它描述了物體各個部件間是通過什麼樣的方式有機地組合在一起的(在數字幾何處理中可以被數學化地表示為一個能量函數)。

  2.1.2 結構的提取和分類

  有了結構的定義,下一個問題就是如何從一個給定的物體中提取結構。對物體結構的提取,就是要找到物體部件間的聯繫。這可歸結為以下三個問題[2]:

  識別出各個部件—幾何學中的語義分割問題;

  部件的參數表達—幾何學中部件參數化問題;

  定義部件之間的關係—幾何學中關係定義和表達問題。

  對此,近年來研究者提出了各種方法對物體進行結構分析,其可概括為以下三類方法:

  (1)用戶手動設置結構模型;

  (2)基於先驗模型,擬合當前數據;

  (3)通過學習的方式,直接從訓練集中學習模型。

  這些方法都可分別解決結構提取的三個問題。下一章節中我們詳細介紹近幾年來國內外對於結構分析及其應用的算法研究和發展歷程。

  2.2 數據驅動的高層次語義分析

  由於不同人對於物體的功能和風格的理解會有一定的差別,目前尚不存在一種公認的方式可以對任意一種功能或者風格給出明確的定義。因此,不同的研究工作的差異性從本質上講往往源自於對功能和風格的不同定義。本章節將對不同的功能和風格的定義方式進行介紹,並對基於不同定義的分析方法進行概述。

  2.2.1 功能的定義方式和分析方法

  功能是引導物體設計的關鍵因素,也一直都被作為區分不同種類物體的主要依據。因此,從一定程度上講,功能性是物體的本質屬性。雖然人們對於物體功能具有很強的識別和分析能力,但是將每一種功能具體化,並將其轉化為計算機能識別的定義,卻是一件非常困難的事情。近些年來,在計算機圖形學領域,研究者們漸漸從傳統的幾何細節分析轉向結構分析,並進一步升華為功能分析。功能分析方面的工作的主要目的就是去理解、刻畫以及識別不同的功能,從而進行功能引導的相關應用。

  a) 基於內部高層結構特性

  在物體結構分析基礎上,功能可以被定義或刻畫為物體部件之間高層次結構關係。例如,一般的椅子都會具備坐墊、椅背和椅腿三個不同的語義部件,而這三個語義部件之間又遵循了一定的結構化準則。

  由於高層次結構分析需要在部件的基礎上進行,基於這一定義的功能分析方法對於模型的輸入要求也相應較高,即所有模型需要被分割成具有對應關係的語義部件,從而通過分析這些部件在具有同一功能的不同模型間的結構共性來刻畫功能性。具體地,這一類分析方法又可以根據其對於結構關係的不同表達方式進行進一步細分。

  b) 基於與外界的交互方式

  上述基於物體內部高層結構特性的功能分析方法主要的一個局限性是忽視了物體在實現其功能時與外界環境進行交互的必要性,例如,椅子的功能是要讓人穩定地坐在上面,即需要支持與人之間應該有的那種特定交互方式。因此,單純考慮物體本身的幾何結構特性並不能完整刻畫其功能性,而是要綜合考慮物體與周圍環境的交互方式,不同的交互方式對應的不同的功能。

  相應地,基於物體與外界的交互方式的功能分析方法就要求體現其功能的交互作為模型的額外輸入,即模型需要被放置在能夠體現其功能的場景中。通過描述這些場景中物體與周圍環境交互來刻畫對應的功能,根據交互的相似性來刻畫所體現功能的相似性。具體地,這一類分析方法可以根據交互對象的不同細分為基於人與物體的交互和基於物體與物體的交互,根據交互過程又可以細分為靜態交互和動態交互。

  c) 基於交互導向的幾何特性

  上述兩種功能的定義方式和分析方法分別將主體著眼於物體自身的幾何結構和物體與外界的交互,均對所能分析的模型輸入有較高的要求,具有一定的局限性。為了解決這一問題,功能的第三種定義方式是對上述兩種定義方式的融合,即將物體幾何特性和交互進行關聯,將功能定義為物體需要支持相應交互所應滿足的幾何特性,例如,對於椅子功能,分析的是模型為了穩定支持與人之間的交互所應滿足的幾何特性,從而對於任意新給定模型的功能性評估,不再需要提供額外的交互輸入,而且直接通過判斷對應的幾何特性而得到。

  為了對上述交互對應的幾何特性進行提取,通常需要提供定義二中所需的輸入數據,即一組具有相同功能的模型以及體現每一個模型功能的額外交互輸入,通過數據驅動的方式建立起幾何特性和交互之間的對應關係,從而能夠進一步對給定的單個模型進行特性匹配從而識別出交互與功能。此類分析方法同樣也可基於交互對象和交互過程進行細分。

  2.2.2 風格的定義方式和分析方法

  相對於功能,風格是一種抽象且更為主觀的一個概念。而且不同於功能,風格的體現只依賴於物體本身,並不通過物體與其他物體的交互所體現,因此,風格的定義方式均是基於物體本身的,即完全依賴幾何,不依賴於周圍環境。但是,類似於功能分析,風格分析方面的工作的主要目的也是去理解、刻畫以及識別不同的風格,從而進行風格相關的應用。

  a) 基於顯式定義

  正是因為風格的理解帶有一定程度的主觀性,第一種風格定義方式是主觀的描述性定義,即根據生活常識和經驗,人為定義出某一風格需要滿足的要求或者區分不同風格應該依賴的準則。例如,將高腳凳和矮腳凳的風格差別直接歸結為不同部件之間的比例差異,從而可以直接通過對這個比例的計算來對給定模型進行風格分析。

  對應於這一類定義方式的分析方法的主要核心是人為將較為抽象的定義與物體幾何特性建立起緊密的聯繫,從而能夠進行直接提取和刻畫,進而用於風格的識別和分類。相應地,輸入模型需要根據不同的定義進行不同方式的預處理,如上述例子中的基於部件比例的風格定義,需要將模型預先分割成具有對應關係的部件。

  b) 基於隱式定義

  由於個人經驗以及歸納能力的局限性,上述顯式的風格定義方式往往過於狹隘,應用範圍小。為了解決這一問題,第二類風格定義方式則是基於數據驅動的隱式定義方法,即通過給定樣例,用機器學習的方法來對風格相關特徵進行提取和歸納。例如,給定多組具有不同風格的模型,通過比較學習出對不同風格起決定作用的幾何特性。

  對應於這一類定義方式的分析方法,根據最終目標的不同,主要分成對於風格進行間接描述的度量學習和對風格進行直接描述的分類器學習兩大類。對於風格度量學習,需要提供的訓練數據通常是一系列模型三元組(A,B,C)作為優化約束,其中模型A和B的風格相似性高於A和C的相似性。而對於風格分類器學習,則需要提供更為明確的具有不同分割標籤的模型集,以分析出相同風格模型的共性和不同風格模型之間的差異性。

  2.3 數據驅動的模型形變

  2.3.1 數據驅動的模型變形的定義與主要的研究問題

  數據驅動的模型變形,是對具有形變的三維模型集合進行分析得到模型進行合理變形的變形空間或者變形空間之間的映射關係,在該空間中優化計算得到滿足用戶約束或者外在約束的三維模型,所分析的模型集合具有相同的網格拓撲關係和不同的幾何位置。研究的內容包括模型變形的表示,模型變形的分析方法,數據驅動的模型變形方法以及數據驅動的模型變形的重建方法。在對人臉和人體的幾何進行重建時,有很多研究工作是將已經採集的人臉與人體模型進行參數化表示,通過對模板進行數據驅動的變形的方式來擬合傳感器提供的外在約束。因為其研究內容和研究方法的共性特徵,因此我們將這些變形的重建工作也劃歸到數據驅動的變形的主要研究問題中。

  2.3.2 數據驅動的模型變形研究問題的基本要求

  a) 合理真實的變形結果

  對於自然界中存在的物體,如人體,四肢動物,布料等,其變形結果的合理性包括滿足物理定律以及不自交等約束;對於藝術家創作的卡通形象,其變形結果的合理性源於藝術家自身的定義;針對這兩類物體,變形的合理性都可以通過已有模型集合的分析得到,已有的模型定義了其合理性的空間。 模型在該空間中進行變形從而得到合理的變形結果。在保證合理性的同時,用戶希望變形的結果具有更加生動真實的效果,比如隨著肘關節的運動,引起的胳膊上肌肉的收縮和膨脹,以及面部運動引起的面部皺紋的變化,通過對數據集進行學習,編碼這些運動之間的映射關係,來生成真實的變形結果。

  b) 少量的用戶交互

  在生成合理真實的變形效果的同時,減少用戶的交互是數據驅動的模型變形所追求的另外一個目標。用戶通過拾取少量的控制頂點並進行簡單的拖拽交互就可以生成合理的變形結果,避免了繁瑣的模型變形的過程。其原因在於通過模型的變形空間減少了模型變形的自由度,從而通過少量的交互就可以在變形空間中找到與用戶需求最匹配的變形模型。在使用骨架對模型進行變形的過程中,通過學習到的骨架變形與模型細節變形之間的映射關係對模型的細節進行變形,從而避免了用戶對模型細節進行變形所需要的交互。

  c) 更高的變形重建精度和更少的傳感器依賴

  通過對採集到的人臉和人體模型進行分析並得到其變形的先驗分布。給定相同的傳感器的輸入(如點雲或者深度圖),可以通過該先驗分布來減少噪音對變形重建的影響,從而提高變形的重建精度。數據先驗的引入,減少了變形重建過程中的欠定性,這使得變形重建的方法減少了對設備的依賴,所需的硬體設備從需要高精度的雷射掃描儀過渡到廉價和更加普及的單目彩色相機。

  2.3.3 數據驅動的模型變形的一般方法

  a) 基於線性空間的方法

  給定模型的變形集合,通過特徵提取可以得到一組模型的基底向量,這組向量所張成的線性空間定義為模型合理的形變空間。具體定義如下所示:

  b) 基於線性映射的方法

  這類方法主要應用在對骨架變形添加變形的細節。 對於人類或者動物的運動,由於其運動是由骨架驅動的,所以對這類模型進行變形往往使用基於骨架的方法,即對模型設定骨架,然後驅動網格模型進行變形。但是由於骨架變形的方法不具有對模型的表面細節(如肌肉的舒張和)進行變形的能力,所以需要建立骨架變形與模型表面變形的線性映射關係,根據骨架的變形驅動模型表面的變形。

  c) 基於非線性空間的方法

  由於模型的變形空間往往分布在低維流形上,直接在變形的基底張成的線性空間進行插值可能會產生不自然的變形結果。因此另外一類方法通過分析模型的低維流形空間,在低維流形空間上對模型進行變形,從而生成自然合理的變形結果。

  2.4 數據驅動的三維建模

  三維建模是計算機圖形學的重要研究內容,是解決「三維內容瓶頸」的重要途徑。目前三維建模主要包括交互式建模、過程式建模、三維獲取與重建、數據驅動建模等方法。交互式建模仍然是目前三維建模的主要方法。該方法由用戶根據建模目標,使用交互式建模軟體(如3D Studio Max、Maya、Blender等)進行建模。但是,交互建模往往是專業三維建模、美工人員的工作,對於初學者和普通人來說很難嫻熟掌握。過程式建模主要用於基於規則的大規模場景快速構建。三維獲取與重建需要藉助價格昂貴的三維獲取設備。數據驅動建模,通俗講就是基於樣例或訓練數據的三維建模。此類方法往往基於同類樣例數據建立參數或者非參數模型,用於描述三維模型的幾何和結構。這些模型可被用於在交互或自動建模中進行幾何和結構推斷,從而實現自動或半自動的三維模型構建。因此,數據驅動建模本身可以體現和應用於交互式建模、過程式建模和三維重建等方法中。

  2.4.1 數據驅動建模的問題定義和基本分類

  數據驅動三維建模是指以現有三維模型集為基礎,通過重用模型集中的幾何部件,或者建模三維模型的幾何-結構約束,以支持幾何和結構推斷,實現三維模型的自動生成,或對其它三維建模方法的輔助。因此,數據驅動三維建模通常由以下三個組成部分:三維模型數據集、幾何/結構模型和建模輸入/約束。以下圍繞這三個方面,給出數據驅動三維建模方法的概述和分類。

  首先,根據三維模型集的利用方式,數據驅動建模可以分為內容重用和模型學習兩個基本方式。內容重用是數據驅動建模的最基本形式,一個典型例子是著名的「Modeling by Example」工作[3],該方法通過對現有三維模型部件的提取和重組,來生成新的三維模型。部件提取本質上是三維模型分割,目前已有較多較成熟的方法。但部件重組這一問題卻相對困難。這是由於部件重組涉及「什麼部件之間可以彼此組裝」以及「如何組裝」等問題。而這些問題本質上是部件的語義對應、匹配和關聯,這些問題目前仍是圖形學,特別是幾何處理領域的難題。因此,部件重組往往是半自動的。單純的部件重用方法一般在交互式建模中多用。而模型學習則涉及從更多樣例三維模型中提取和歸納三維建模的結構約束和構成規則,或從模型集中學習出三維模型結構的統計模型,形成參數或非參數的結構模型,用於支持建模過程中的結構約束和推理,以實現自動或交互式的三維建模。很多數據驅動建模方法可以兼有上述兩種方式,既學習結構模型,又重用數據中的內容,如[12][32]。

  其次,根據結構模型的表達方式,可以分為參數方法和非參數方法。參數方法一般採用概率模型來描述三維模型的結構組成和約束關係。例如,Chaudhuri等人[77]採用概率圖模型來描述三維模型的部件構成(如四足動物必須有四條腿)和部件之間的語義約束關係(如四足動物的腿必須與軀幹相連)。該方法基於大量訓練數據,學習上述概率圖模型的圖結構及其中的概率參數。於是三維建模就轉化為基於學習到的概率模型的採樣,逐個生成各個部件並組裝。所生成部件符合統計模型中蘊含的部件組成和關係約束,從而得到符合結構約束的、更多新穎三維模型。非參數方法往往並非是基於概率模型的,而是通過預先給定或計算得到的三維模型的部件關聯,提取和歸納結構約束,從而實現結構約束下的部件重組。例如,Xu等人[32]首先計算同類三維模型的部件對應,然後基於對應關係,在兩個三維模型之間進行部件交換,從而實現了新模型的自動生成。該方法被用於三維模型集的演化式建模(evolutionary modeling)當中。

  最後,數據驅動的幾何建模,根據建模中是否有數據集以外的、用於引導和約束建模的輸入,可分為數據驅動的模型生成和數據驅動輔助的建模。前者往往是內容重用與模型學習結合的方法。後者往往用數據驅動來輔助其它建模方法。例如,在基於單幅圖像的三維建模中[83],可以用三維資料庫提供強大的幾何和結構先驗,從而解決二維到三維過程中的二義性。史丹福大學Huang等人[82]研究了通過圖像和三維模型聯合分析,實現基於單幅圖像的物體重建。此外,三維數據驅動的方法還可以用於支持基於RGBD圖像的三維重建等[40][41][101]。

  2.4.2 數據驅動建模的基本要求

  數據驅動建模是一種從數據到數據的建模方法,該方法由於只需用戶提供極少的幹預和稀疏的約束,建模結果具有較大的自由度。這種自由度帶來的好處是生成模型的新穎性和多樣性,這對於創造性建模(creative modeling)來說非常重要。與此同時,這種自由度所帶來的問題是,採用數據驅動方法對三維模型結構約束進行建模時,很難準確和全面地描述模型的構成和約束。於是,保證生成模型的結構合理性成為數據驅動建模的難點所在。因此,對於數據驅動三維建模方法,有一些特殊要求需要考慮。

  a) 合理性(Plausibility)

  很自然地,我們首先要求所生成的三維模型是合理的。然而,關於三維模型的合理性,目前尚未有工作深入探討過,也沒有形成一致認可的定義。一般意義上,由於數據驅動方法是基於樣例/訓練數據的建模方式,我們自然會要求生成模型與輸入樣例具有一定程度的功能一致性和結構相似性。即數據驅動模型生成中所謂的「更多類似(more of the same)」原則。例如,如果輸入的是一個三維椅子模型的集合,那麼我們自然要求生成模型也具有椅子的功能(可以用來坐),同時,如果輸入的椅子都是轉椅,那麼輸出的椅子也應該具有轉椅的結構。然而,如何判斷一個三維模型是否具有某項功能,以及如何度量兩個模型的結構相似度,這兩個問題本身都是非常困難的,都是目前形狀分析領域的前沿和難點問題。

  判斷合理性的另一個思路是通過統計學習方法得到樣例或訓練集的形狀流形表示(shape manifold),然後計算新生成的模型到該流形的距離,通過檢驗它是否落入或接近該流形,來判斷其合理性。結構流形的學習也是當前形狀分析的難點問題,目前的方法都只能表達結構的某個方面[21]。由於深度學習的強大表達能力,基於深度神經網絡的結構流形學習具有很好的前景。最近,Li等人研究了基於深度遞歸自編碼器的生成模型學習[34],該工作基於三維模型的部件層次表示和遞歸編解碼,學習到三維模型結構的一個流形表示。

  總之,判斷三維模型的合理性仍是三維形狀分析的難點問題。因此,多數數據驅動方法仍然依靠人來判斷三維模型的合理性,對生成結果進行人工篩選[32]。

  b) 多樣性(Diversity)

  除了合理性,我們還要求生成三維模型具有較好的多樣性。首先,生成模型相對某類輸入樣例來說,在保證合理性的前提下,要有一定程度的變化(variation)。這種變化越豐富多樣,說明生成模型的泛化(generalization)能力越強,即真正學到了該類物體的最本質結構特徵和約束。從流形學習的角度來看,具備多樣性的生成模型,學習到了輸入模型集的較完整的形狀流形,並且具備在該流形上任意漫遊並生成對應三維模型的能力。對於生成模型來說,多樣性和合理性往往不能兼得:多樣性會意味著輸出模型與輸入模型之間有較為顯著的結構差異;而根據上述關於合理性的描述,這種輸入、輸出之間的結構差異越大,生成三維模型的合理性就越難以保證。

  c) 帶約束的生成(Constrained generation)

  上文曾提到,數據驅動方法常被用於輔助其它方式的三維建模,如交互式建模、過程式建模、三維重建等。為實現數據驅動輔助,我們需要對學習到的生成模型進行必要的約束,以生成符合具體建模需求的三維模型。例如,在交互式數據驅動建模中,一般要求生成模型能夠在用戶已經構建的部分模型的基礎上,推理出下一個可能的部件和組裝方法。這裡要求生成模型具有基於已知約束的推理功能,而Chaudhuri等人開發的基於概率圖模型的部件推薦方法[77],即具有這樣的帶約束的推理能力。因為已知部件可以作為未知部件存在的前提條件,基於統計學習到的條件概率,即可推理出最可能的下一個部件。同樣的思路也可以用於三維室內場景模型的生成[97]。在過程式建模中,數據驅動方法往往用於學習概率形狀語法(Probabilistic shape grammar),即由數據推斷語法規則及其概率參數[76]。

  d) 形狀空間學習(Shape space learning)

  生成模型的學習,本質上是對輸入數據進行降維,從而學習到高維數據的低維緊緻表示,以及由高維到低維的編碼(encoding)映射和由低維回到高維的解碼(decoding)映射。這一低維空間如果與數據空間的距離緊密相關,即為一個有意義的低維子空間。特別是,如果這一低維子空間上的距離與數據空間的幾何形狀或結構相似度成正比,則這一個子空間可以認為是三維模型的形狀空間或結構空間。數學上,如果編碼映射函數滿足利普希茨連續條件,則低維子空間滿足上述條件。高維數據在低維空間上的一個嵌入(embedding)即高維數據的編碼,這一編碼如果符合同態編碼(homomorphic encoding)條件,即:

  P(f(x),f(y))=f(P(x,y)),

  其中,P為原數據空間或編碼空間中的某個操作(如算術運輸操作),f為高維到低維的編碼映射。直觀上講,如果對兩個數據的編碼進行某項操作,等同于于先對數據進行相同操作再對操作結果進行編碼得到的最終結果,那麼映射f相對於操作P來說是同態映射或同態編碼。滿足同態編碼的形狀子空間具有很多優良性質。例如距離保持嵌入、支持在子空間上的操作和編輯等。更一般地,如果子空間上的編碼支持同態的基因操作(homomorphic genetic operations),即對編碼的交叉(cross-over)和變異(mutation),則該編碼可以認為是三維模型的形狀DNA,這對於自動演化式三維模型生成來說意義不言而喻。

  e) 可擴展性(Scalability)

  生成模型往往都是基於一個固定的樣例訓練集學習得到的,因此學習能力常常受限於輸入數據的規模。如果模型學習能夠高效、動態處理新加入的樣例數據,則可以不受限於已有數據集,實現生成模型的動態更新和在線學習。這一特性對於某些應用來說很有意義,例如樣例數據是通過動態獲取的方式得到的情形。

  f) 異構樣例集(Heterogeneous exemplar set)

  目前大多數生成模型是基於同類物體的三維模型樣例集訓練得到的。一個自然的問題是,能否基於多類物體的模型集學習一個聯合生成模型。這樣做的好處是可以生成更為變化多樣的三維模型。例如,如果樣例集中包含椅子和床,那麼生成模型中也許會包括二者的一個組合或是某種中間形態。不過,但由此帶來的問題是,這些中間形態的合理性保證也許更難。

  2.4.3數據驅動建模的主要方法

  數據驅動的建模大致可分為兩類,即非參數方法(non-parametric methods)和參數方法(parametric methods)。非參數方法主要以模型集聯合分析為基礎,通過構建模型之間的結構和語義關聯,支持模型的部件重組和拼裝,實現新模型的自動生成。參數方法則是首先確定描述三維模型幾何和結構的概率模型,然後通過統計學習得到概率模型的參數,用以描述樣例模型的結構組成和變化,支持模型生成。上述兩種方法代表了目前數據驅動三維建模的主流方法。

  過程式建模是一類基於形狀語法的建模方式,由於形狀語法的設計和編輯比較困難,人們很自然地想到如何由大量數據反推形狀語法,即逆向過程式建模。由於該類方法也是由數據出發構建生成模型,我們也將之歸為數據驅動三維建模的一種。一般來說,語法規則是非參數的,但也有一些工作採用了參數語法[75]或概率語法[76]。因此,逆向過程式建模不能被簡單歸類於參數或非參數方法。此外,由於基於語法的生成屬於一種獨特的建模方式,我們遂將逆向過程式建模作為一種獨立的方法單獨介紹。

  三維場景是由多個三維物體模型組成的複合三維模型,其組成方式、結構特徵、功能語義等都與單個物體三維模型有明顯不同。因此,很多面向單個三維物體的生成模型並不能直接用於生成三維場景。此外,一些對於單個物體生成模型的要求和評判標準(如合理性等)也不能直接照搬用於場景。因此,三維場景需要設計專門的生成模型。因此,我們將三維場景合成作為一種獨立方法加以介紹。

  a) 非參數方法:結構對應與重組

  三維幾何建模的最基本途徑便是部件組裝。建模人員往往會對目標物體的各個部分進行分解,然後分別建模各個組成部分,再進行拼裝。有時,某些部件很可能已存在於模型資料庫中,於是可以直接重用這些已有部件。由此說來,數據驅動的思想其實早已體現在了交互式建模的實踐中了。這也是Modeling by Example[3]方法所提出的基本思想(圖3)。對於數據驅動的自動建模來說,問題在於如何實現模型部件的自動分解、對應和組裝。三維模型的分解(decomposition)已有多年的研究歷史,目前已有眾多基於機器學習的優秀算法提出。對每個樣例模型進行部件分解後,需要建立這些部件的對應關係(correspondence),才能實現部件的互換(replacement)和重組(recombination),或者統稱部件的重排(part reshuffling)。三維模型的對應計算仍是圖形學,特別是形狀分析領域的難點問題。基於對應關係,部件交換和重組便相對容易實現了。不過,交換後的部件如何組裝和拼接,又是幾何處理與建模的一個難點問題。相同功能的部件,在不同的結構上下文中的組裝方式不同,不同部件重組後很可難直接拼接,需要重新計算部件之間的合理對準,並對拼接處進行後處理。

  圖3 數據驅動建模的非參數方法,基於部件重用的數據驅動建模。左:Modeling by Example[3]。右:Shuffler[79]

  總之,非參數方法概念上簡單、直觀,但為保證所生成模型的合理性,仍有不少技術難題需要克服。一般來說,此類方法對於動物、人體等具有良好表面流形網格(manifold mesh)的模型更適用,更容易得到較高質量的部件重組和拼接結果。對於人造物體來說,由於其結構複雜,部件組裝很難保持原有的合理結構,因而難以保證結果質量。

  b) 參數方法:結構的統計建模

  參數化方法本質上是對三維模型幾何和結構的統計建模。統計形狀建模(statistical shape modeling)的研究由來已久。早在上世紀七八十年代,就有很多統計形狀建模方法被提出,並成功應用於醫學圖像分析、生物進化分析等。但這些模型一般只關注三維對象的幾何形狀變化。本報告的第三個技術方向詳細介紹了這種面向幾何統計建模方法。到了九十年代末,圖形學和視覺領域也有不少工作使用統計建模方法研究人臉[36]和人體[37]的建模。

  對於幾何的統計建模,一般都是建立在具有相同網格連接(mesh connectivity)和頂點對應關係(vertex correspondence),但不同幾何形變(deformation)的一系列模型基礎上的。對此,只需以整個網格頂點所構成的坐標向量作為輸入,採用降維分析的手段研究其變化模式(variation mode)。對於結構統計建模來說,研究目標由模型表面頂點的坐標位置,轉變為模型的部件組成和關係。對部件組成和關係進行統計建模面臨以下三個方面的困難。首先,類似於頂點對應,需要建立部件之間的對應,才能實現對部件幾何和拓撲的統計分析。但是,如前所述,部件對應計算本身非常困難。其次,部件間關係建模涉及多個部件,是典型的多元變量分析,並且不同關係涉及到的部件類型和數目皆不同,如何建模部件的異構、多元關係是具有挑戰性的問題。第三,模型的部件表示(part-based representation)是一種離散表示方法,這種表示方法很難用一個連續統計模型來描述,因此常需考慮使用混合模型(mixture model)。

  為克服上述困難,Sidhartha等人首次提出了基於概率圖模型的建模方法[77]。該方法基於有標註分割的三維模型集,通過建模和學習語義部件之間的概率因果關係,實現對模型結構的學習和推理(圖4)。概率圖模型本身就是一種混合概率模型。圖模型將部件的類別、出現頻次、相互關係表達為一個聯合概率,通過貝葉斯定理表示為多個條件概率的乘積,然後通過極大似然方法,從大量數據中學習這些概率的參數。Kalogerakis等人構建的概率圖模型還可以學習出一些隱含變量[12],用來描述更高階的、無法直接觀察和指定的部件間關係,比如抽象的模型風格與部件組成之間的關係。

  除了概率圖模型,另一種可行的方案是使用參數化模板來描述一個三維模型集的形狀和拓撲變化模式。例如,史丹福大學Ovsjanikov等人為某類物體的三維模型集建立一個由部件包圍盒構成的模板,然後從樣例數據中學習出該模板的形變參數和可行約束,用來瀏覽和探索整個模型集[26]。但是這種模板的結構是固定的,不能處理同類物體中出現的結構變化(如轉椅和躺椅)。如何處理模型的結構變化是基於模板的參數表示的所面臨的主要困難。一些工作嘗試了基於多模板的模型集參數表示[20],但是如何在這些模板之間實現關聯、耦合,以形成一致的參數表示,目前仍是亟待解決的問題。

  基於概率圖的參數方法,是對三維結構的離散表達,因為它將模型的部件及關係等表達為不同的條件概率。因此,這種方法無法學習到三維模型集的緊緻結構特徵表示,以及相應的結構特徵空間。為實現結構空間的學習,統計學習方法需要學習高維三維結構的低維特徵表示及其內在流形。一般方法有流形學習、自編碼器等。由於深度神經網絡在近年來的盛行,深度生成模型學習在近年來受到了大量關注。深度神經網絡具有強大的特徵學習能力,因此深度生成模型可以學習到緊緻而又有意義的低維特徵空間,這對於結構空間的學習來說是一個好消息。這裡提到的有意義特徵,即是指該特徵空間保持了語義相關的結構相似度(例如,不論從功能還是結構上看,兩個不同轉椅之間的距離一般要比它們到一個餐椅的距離更大)。除了保持結構相似度之外,符合同態編碼條件(見上文)也是一個重要要求。基於學習到的語義相關結構空間,我們可以計算一個三維結構相對於上述空間的嵌入(亦稱特徵推斷或編碼),也可以通過採樣和解碼空間中的點,實現結構保持的模型生成。

  圖4 數據驅動建模的參數方法:基於概率圖模型的部件推理[77]

  c) 形狀語法:逆向過程式建模

  過程式建模是一種基於形狀語法的建模方法。該方法從一個代表基元形狀的符號開始,反覆應用語法規則對當前形狀進行重寫(編輯)操作,從而不斷編輯和擴展當前模型,直至最終形成一個複雜的三維模型。過程式建模往往用於構建外形極其複雜、且帶有一定隨機性的物體,例如植物、城市建築群等。但過程式建模方法的缺點在於,形狀語法的設計十分困難,往往需要具備一定三維建模經驗和程序設計素養的專業人員。並且形狀語法一旦設計好,很難進行修改。因為一個很小的規則變動可能導致整個建模效果的極大變化。這些問題為過程式建模帶來很多不便之處,導致其使用範圍嚴重受限。對於一般用戶來說,過程式建模方法往往作為後端系統,隱藏在一個更為易用的交互式建模軟體中,例如著名的城市建模軟體CityEngine就是典型的基於形狀語法的交互式建模軟體。

  因此,人們自然想到,如何根據一些已知樣例來自動生成形狀語法,使得這些語法不但可以解釋這些輸入樣例,還能通過引入一些隨機性來生成更多的變化。即所謂逆向過程式建模(圖5)。一般來說,正向問題是演繹推理,是一般到個別的推理,而逆向問題則涉及歸納推理,是從個別到一般的總結歸納,因此逆向問題往往更為困難。

  逆向過程式建模需要從三維樣例模型中反推出一套描述能力強且簡潔的形狀語法,涉及到對樣例模型集的聯合分析,幾何-結構特徵提取,以及對分析結果的合併、抽象、歸納和總結,最終生成精練的語法規則,用於解釋輸入的樣例模型,並生成新的三維模型。逆向過程式建模一般包括三個基本步驟。一是對樣例模型進行幾何和結構分析,如特徵提取、對應計算等,以提取在樣例集中公共代表基元。二是對提取基元進行關聯、合併和抽象,對樣例模型進行基於基元的抽象描述,形成樣例模型的結構化表示。三是在樣例模型集之間,建立結構關聯並提取公共子結構,為歸納和提煉語法規則做準備。形狀語法規則的最終形成則是由不同語法規格決定的。可以看出,上述每一個步驟都涉及模型的形狀和結構分析,以及多個模型之間的結構關聯與對應,因而,逆向過程式建模的困難程度可想而知,它仍是目前三維形狀分析與建模領域的開放問題之一。

  圖5 針對三維建築模型的逆向過程式建模[93]

  d) 三維場景合成

  三維場景包括室外和室內場景,由於室內場景具有布局緊湊、範圍限定、包含對象有限、結構特徵明顯、功能明確等特點,往往成為自動建模的主要研究對象。與單個物體的部件結構不同,室內場景物體布局的空間關係較為鬆散。對於單個模型而言,不同部件之間的上下文關係往往可以基於部件之間的空間關係刻畫,這種上下文關係可用於建立不同模型之間的結構對應。但由於場景中的空間關係較為鬆散,一般很難可靠提取上下文關係。此外,室內場景中包含更多樣的功能子結構。例如,一個房間中可能包含會客區、工作區和休息區,每個子區域都是由一組相關物體組合構成的特定的功能區域。

  對於三維場景自動合成(圖6),數據驅動同樣體現在兩個方面,即內容重用和生成模型學習。由於三維場景建模一般只涉及對室內物體(如家具、裝飾品、生活用品等)三維模型的布局和擺放,因此幾乎都會直接重用三維模型庫中的現有模型。室內場景的生成模型同樣包括參數和非參數兩類方法。參數方法與單個模型生成類似,只是採用概率圖模型去刻畫場景物體之間的上下文。非參數方法往往基於場景中的頻繁模式(如頻繁子結構)的提取和對應,實現基於子結構的場景物體檢索、放置和替換。

  圖6 數據驅動的三維場景自動合成[97]

  3 國內外研究進展比較

  3.1 數據驅動的結構分析

  結構分析及其應用方面是近幾年國內外圖形學研究領域的新方向,國內外的研究比較可以從兩方面來看。第一是結構分析算法的研究上,第二是結構應用的研究工作。很明顯的是,結構化分析算法研究方面國際上做的引導性工作比較多,比如最先提出對稱結構分析的Mitra教授, Pauly等人在2007-2008年的Siggraph上的工作。以及Zheng和Mitra等人合作的後續的基於組件圖表示的結構化分析算法。在這方面做的好的有領引作用的還有MPI團隊,斯坦福圖形團隊,普林斯頓圖形組。而在結構分析的應用方面,國內學者們的工作就相對比較多且處於國際領先地位,比如在基於結構的三維重建方面,清華大學的胡事民老師的團隊的基於RGBD重建的工作,浙江大學周昆老師的基於RGBD的在線室內重建工作,以及國防科大徐凱老師的基於結構的模型合成,基於圖像的結構化模型重建,以及先前深圳先進研究院(SIAT)的陳寶權老師的結餘結構關係的人造模型重建,浙大許威威老師的基於結構和多圖像的機械模型重建,均處於國際領先地位。這些國內外研究側重點的差異說明了國內學者更加注重實用性,這對於圖形學領域或許是一個很好的信號。當然比較原理性根本性的理論分析上的突破也需要有人去做才會更完善。

  3.2 數據驅動的高層次語義分析

  由於功能和風格分析均屬於三維形狀分析領域較新的研究方向,不像本文提到的一些其他方向具有較為長久的發展歷史,目前仍處於起步階段,因此,相應的國內外研究進展並未有明顯差別,而是呈現出良好的協同發展趨勢。

  從研究的方法和思路上看,在功能分析方面,國外的研究者更側重於分析人與物體的交互,起到引領作用的團隊主要是斯坦福圖形團隊和普林斯頓圖形組,而國內的研究者則更關注於刻畫物體與物體間的交互,旨在建立更具一般性的功能模型,主要的研究團隊包括深圳大學的胡瑞珍老師和西安交通的趙璽老師。在風格分析方面,國外的研究者更側重於物體整體風格的相似性度量,代表性工作主要來自於普林斯頓的Funkhouser教授和不列顛哥倫比亞大學Sheffer教授,而國內的研究者則更關注於特定風格的理解和分類,主要研究者包括國防科大的徐凱老師和深圳大學的胡瑞珍老師。

  3.3 數據驅動的模型變形

  在數據驅動的模型變形方面,最為經典的研究方法是基於線性空間的方法。由於國外同行從事該領域的研究工作起步較早,該類方法早期的代表性研究工作是由美國麻省理工學院Sumner等人在2005年提出的將變形梯度域作為模型的線性變形空間的研究工作[59]。該方法由於其簡潔性和有效性,除了被用於對三維模型進行變形還被廣泛的應用在圖形學的其它領域。但是由於變形梯度的局限性,使得該類方法不能處理具有大尺度變形的三維模型庫。為此,中科院計算所的高林與其合作者在2016年提出了一種新穎的旋轉不變特徵用於表示模型的變形[63],並用這些特徵組成了模型的線性變形空間,這克服了已有的方法不能處理大尺度變形的局限性。在變形效果與變形效率方面都優於目前國內外已有的研究工作。因此在基於線性空間的模型變形方面,國內具有領先地位。

  在基於線性映射的方法方面,該類方法廣泛的應用在高真實感的人體與四肢動物變形,通過學習的方法建立全局肢體變形與局部細節變形之間的線性映射關係。美國Centropolis公司的Lewis等人首先定義了該類方法的框架[64],史丹福大學的Anguelov等人[65]與麻省理工學院的Wang等人[69]分別定義了人體模型與肢體動作模型之間的線性映射關係。該類方法不僅需要建立線性映射關係,更重要的是依賴於高質量的三維模型庫,而國內在該方向的研究工作並不多。

  在非線性空間方法方面,維也納技術大學的Kilian等人最早提出將三維模型視為分布在高維空間中的低維流形中的點[67],並通過黎曼曲面來描述該低維流形,該方法只能描述具備等距變換的三維模型的變形。中科院計算所的高林與其合作者藉助於機器學習上的流形學習的理論來描述三維模型變形空間[68],相比較而言,國內外在該領域各有特色,國外研究人員通過定義嚴格的數學理論來生成模型的變形序列,雖然在理論上嚴謹,但是限制了模型變形的範圍。國內的研究人員提出的方法適用的變形範圍更廣,但是在理論上沒有對變形空間進行嚴格的數學理論上的定義。

  在數據驅動的人體變形的重建領域,國內的研究工作相對較少。國內的研究工作主要集中在非數據驅動的方法上,這些方法沒有對人體數據進行學習建立先驗的分布,並以此作為重建人體形變的依據。國外的研究在數據驅動的人體形變重建領域一直具備領先地位,從Allen等人的人體形變重建的工作[37],到2005年史丹福大學的Anguelov等人的Scape研究工作[65],以及近期的德國馬克普朗克研究所的研究人員關於動態人體形變重建的研究工作[70]。而在數據驅動的人臉形變的重建領域,國內已具備領先地位,浙江大學的周昆教授的研究團隊在2013年建立了一個具有100個人50個表情的資料庫[71],基於該資料庫該團隊通過對這些數據進行分析開展了一系列的人臉變形重建的研究工作。

  3.4 數據驅動的三維建模

  3.4.1 非參數方法

  非參數數據驅動建模方法思路簡單、效果顯著,在國際和國內都得到了較多的關注。非參數方法的難點問題在於對三維模型的部件分割、部件對應和部件組裝。在三維模型分割方面,自Kalogerakis等人於2010年提出基於有監督機器學習的三維模型標註分割方法以來[13],眾多研究人員提出了各種基於機器學習的三維模型分割方法,最近也有一些基於深度學習的分割方法提出[105],以及一些交互式標註分割工作[18][106]。目前,很多方法都以預先分割/標註的三維模型集為前提。但是,針對大規模數據集的一致分割仍然是非常困難的。國內在數據驅動的三維模型分割方面有不少優秀工作,但是相比國外的研究而言,針對大規模數據集的研究仍相對較少。

  非參數方法的另一個重要問題是模型的對應計算。針對三維模型的聯合分析,構建部件級的對應關係,仍然是目前圖形學的難點問題。針對該問題,史丹福大學Guibas教授團隊近年來研究的基於Cycle consistency和Functional map的一系列工作較為顯著[107][108]。這些工作既有堅實的理論基礎,也有較好的實驗結果。國內在對應計算方面的研究相對較少,徐凱等人[53]通過學習三維模型集的風格-內容分離聚類(這裡的風格指的是部件的比例),實現了同類物體不同三維模型之間的部件對應。此外,一些國內學者針對點對應開展了一些研究。總之,目前國內在對應計算方面的理論貢獻仍略顯不足。

  對於部件的組裝和拼接來說,國際和國內研究都尚少,並未形成方法體系。以色列的Sharf等人提出了SnapPaste,用於交互式的三維模型部件拼接。國內中科院深圳先進技術研究院黃惠研究員(現為深圳大學教授)提出了基於場的三維部件之間的自動對接,以及在銜接處自動計算實現網格的拼接融合[88]。但是這些方法難以支持複雜結構的組裝拼接。徐凱等人在其模型集演化工作中[32],對於部件交換的三維模型組裝,採用了部件級Controller的結構保持形變[110]。

  3.4.2 參數方法

  參數方法在國際上的研究主要分為三個流派,即基於概率圖模型的方法、基於參數模板的方法和基於流形學習的方法。前者已在三維模型生成上取得巨大成功,但是依賴於模型集的預先分割和語義標註,因此很難擴展到大規模數據集上。由於基於參數模板的建模,本質上是模板對數據的匹配,因此對於輸入數據規模具有線性複雜度。對於多模板而言,其複雜度也只是O(MN)的,其中M是模板數,N是模型數。

  上述兩個流派的代表工作主要都來自國際,如史丹福大學的概率圖模型,史丹福大學、普林斯頓大學的參數模板。國內對參數方法的研究尚少。對大規模數據集而言,參數方法具有較好的潛力。因此,有必要加強這方面的研究。基於流形學習的方法在國際國內都得到了關注。特別是近兩年深度神經網絡、深度生成模型學習得到長足進步,針對三維形體幾何和結構的流形學習再次受到大量關注。總的來說,國內在參數方法的研究方面還比較薄弱,特別是在前兩個流派的研究上,並沒有多少來自中國大陸的研究工作。我們希望在深度學習熱潮的推動下,能夠有更多國內學者投入到基於流形學習的三維模型分析與建模的研究中來。

  3.4.3 逆向過程式方法

  過程式建模的代表研究團隊是瑞士ETH的Pascal Muller教授團隊(創辦了CityEngine公司)、普渡大學的Daniel Aliaga教授團隊以及沙特KAUST的Peter Wonka教授團隊。逆向過程式建模的為數不多的代表工作也主要出自這些團隊。國內的陳寶權教授團隊在中科院深圳先進技術研究院期間,研究了一種針對不規則建築立面的分層的、層次化的分析方法[94]。該方法通過層次化分解和對稱最大化原則,得到了立面結構的高層次分析與理解,實現了逆向過程式的立面結構建模,可以被用來對建築立面進行結構相關的編輯和檢索。目前,基於深度學習的(逆向)過程式建模取得了一定的成功[23][31],為逆向過程式建模這一難題的解決帶來了契機。國內學者可以關注這方面的研究,有望在這一難題的研究上實現「彎道超車」。

  3.4.4 場景建模方面

  由於室內場景建模本身所具有的應用前景,國際國內都有較多的相關研究。數據驅動三維場景建模的前提是數據驅動三維場景的分析和理解。對比國內外研究,國內在三維室內場景的分析方面略有欠缺。一些較為新穎的概念和方法,如基於上下文的分析、基於人的行為動作的分析,都是國外研究團隊(主要是史丹福大學Hanrahan教授團隊)率先提出的。在國內,國防科大的徐凱與合作者首次提出了類別顯著的局部子結構(稱為Focal)的分析和提取,成為室內場景分析的重要概念之一。

  在場景合成方面,繼承了針對單個模型的參數化方法,史丹福大學團隊研究了基於概率圖模型的場景自動生成。基於人的行為動作,他們研究了基於行為的室內場景合成。加拿大西蒙弗雷澤大學張皓教授團隊提出了基於人的行為動作的三維場景自動演化建模[99]。國內方面,一些團隊的研究水平與國外不相上下。清華大學的徐昆等人提出了一種基於草圖的數據驅動室內場景建模方法[100]。深圳大學的胡睿珍博士與合作者提出了基於關係模板的複雜場景自動生成[104]。此外還有數據驅動方法用於室內場景重建[40][101][41][102]和對象識別[25]的若干工作。這些工作顯示,這些國內團隊在數據驅動室內場景建模方面處於國際領先水平。

  4 發展趨勢與展望

  4.1 無監督的結構分析及其與結構合成的緊密耦合

  限於有標註數據的數量和可擴展性,基於無標註數據的、無監督三維模型結構分析將成為形狀分析的重要發展趨勢之一。已有的無監督結構分析大多基於三維模型的聚類分析[53],這些方法的本質是密度估計(density estimation),用於發現數據的概率分布模式。還有一些方法研究部件聚類分析[15],通過非線性降維,分析部件之間的相似性,用於三維模型集的一致分割。

  針對三維模型整體結構的降維分析,有利於提取三維模型的結構特徵,從而分析不同結構之間的關聯。對於三維模型整體結構的無監督學習,目前的工作尚比較少。最近,基於深度學習的生成模型研究為上述目標提供了可行的思路。這些方法的基本思路是,以生成任務來引導分析任務,即通過生成合理的三維模型結構,來提取三維模型的本質結構特徵[54]。這裡,對生成結果的合理性度量,可以通過極大似然估計(如基於變分貝葉斯推斷的變分自編碼器,Variational Auto-Encoder)或對抗訓練(如生成對抗網絡,Generative Adversarial Network)來實現。總之,基於生成任務的無監督學習,為三維模型的結構分析提供了新的有效途徑。數據合成能力是數據分析能力的最深刻、最直接體現。對三維模型結構無監督合成的深入研究,有助於我們對三維結構的深入理解,進而對結構分析產生重要影響。

  4.2 三維模型結構空間學習

  三維模型的結構數據是否存在一個低維流形結構,如何提取這個流形結構,是當前形狀分析領域的開放問題。我們認為,同類物體的結構和外形具有一定的連續演化特性。例如,很多三維形體的設計,也許的確體現了人類在設計之初,在不同可能性之間進行的探索和演化。這種演化自然蘊含了數據的冗餘。因此,三維形體的幾何和結構,也許確實可以通過一個低維嵌入進行描述。目前,很多工作已經證實了三維表面模型的等距形變可以用低維流形表示。而針對三維模型結構的流形學習目前仍是一個開放性難題,面臨以下幾個問題。首先,如何刻畫同類物體三維模型之間的結構演化?其次,如何實現三維模型的結構相關表示?第三,如何定義某類三維模型的可行性,即流形的可行性邊界?

  4.3 多種功能分析方法的融合

  結構化分析及其應用在近幾年內被研究得很多,然而結構畢竟還只是一個相對全局化的表達,它並不能在語義學上顯式的給出一個物體功能特性,只是隱式的編碼了一個物體的功能。物體、物體部件,最核心的是它的功能。在越來越多的應用驅動裡,我們將會看到更多圍繞物體功能來決定物體特性(如形態、材質、物理特性等)的設計。所以在最新的幾年裡,越來越多的研究者開始注重功能性這個主題。但這並不意味著完全拋棄結構的分析,結構始終都會作為一個物體內部本質的全局描述而存在。在新的語義學和功能特性分析上來看,研究者們將會引入更多的輔助元素來幫助處理和分析一個或一組物體,比如最近幾年興起的基於物體和人或者周圍環境交互方式的功能性分析方法。因此,如何將這將不同種功能分析的方法進行有機融合,得到一個完整全面的功能分析工具是一個非常值得深入研究的問題。

  4.4功能和風格引導的三維建模

  功能和風格作為對於三維形狀高層次分析和描述的兩大方面,對於三維模型的設計起到至關重要的作用。一方面,現實生活中各種人造物體的設計和生產的初衷都是為了使其實現某一特定的功能,因此對於與物體功能相關的本質幾何特性的理解有助於引導具有相同功能的物體的半自動化設計。對於具有相同功能的不同物體,它們通常在幾何或者結構上存在不同程度的差異性,而這種差異性更多的是屬於風格的範疇,是設計師創意的體現。在確定基本功能的雛形上再進行風格化設計的這種基於語義的層次建模方式可以使得建模過程中各個環節的任務更加明確、高效。另一方面,在產品設計的過程中,我們得到的往往並不是單獨的一個物體,而是一組具有相同風格但是實現不同功能的物體,如一組歐式家具包括了床,沙發,桌子,椅子等。因此,對於某些特定風格的精確理解以及對應的元素提取將對產品的設計起到非常強的指導作用。如何通過分析集合整體風格的統一性,在不破壞物體功能的前提下,引導產品風格修正成為設計關鍵。雖然在這些方面已有一些相關工作,但是目前仍處於初步發展階段,具有很大的探索和發展空間。

  4.5 實時可擴展的網格變形方法

  數據驅動的模型變形技術依然存在以下研究難點,當模型庫中的模型存在大尺度的非剛體幾何變換,並且當資料庫中的模型變形模式豐富的時候(有幾十個甚至上百個變形模式),當前的方法難以對其進行準確的分析,無法做到實時的變形。如何對具有大規模與大尺度非剛體變換的模型庫進行準確的分析並進行實時的數據驅動的變形方法是未來亟待解決的問題之一。當前數據驅動的模型變形方法沒有給用戶提供一種基於語義交互的方式,使得用戶必須通過控制頂點來控制變形的結果,因此提供一種基於語義交互的模型插值方法可以提高模型變形的效率並減少用戶的交互工作量。

  4.6基於數據先驗的人臉與人體建模

  在人臉、人體變形估計方面,通過建立數據的先驗來幫助重建人臉與人體的變形已成為主流的研究方向之一,該類方向目前的趨勢是使用廉價普及的單目彩色相機來重建三維的變形。相對於人體變形,人臉變形主要不存在大尺度旋轉的情況,因此相對容易解決,目前通過單目相機重建人臉幾何的問題基本解決,未來的方向是如何提高重建的精度並重建人臉細節的變形。通過單目相機恢復人體的三維幾何模型仍然是一個難題,也將是未來的主要研究方向之一。

  5結束語

  在這篇文章中,我們針對數字幾何處理的相關內容,從四大板塊內容概述了其在數據時代背景下國內外發展現狀,以及對未來發展趨勢的展望。希望本文能幫助讀者對數字幾何處理的發展較為全面的了解和認識,並能對今後研究工作開展有所啟發。

相關焦點

  • 數據科學研究的現狀與趨勢全解 - 大數據_CIO時代網 - CIO時代—新...
    大數據時代的到來及數據科學出現為人們提供了另一種研究思路,即數據範式(「數據→問題」範式),在尚未從數據中提煉出知識的前提下,用數據直接解決問題。數據範式強調的是在尚未將數據轉換為知識的前提下,直接用數據去解決現實世界中的問題。以機器翻譯為例,傳統機器翻譯方法是基於自然語言理解,準確說是基於語言學和統計學的知識進行,屬於知識範式的範疇。但是,這種傳統機器翻譯效果一直並不理想,且尚無突破性進展。
  • 淺談數據分析和數據建模
    過去企業都是通過線下渠道接觸客戶,客戶數據不全,只能利用財務數據進行業務運營分析,缺少圍繞客戶的個人數據,數據分析應用的領域集中在企業內部經營和財務分析。數字時代到來之後,企業經營的各個階段都可以被記錄下來,產品銷售的各個環節也被記錄下來,客戶的消費行為和網上行為都被採集下來。企業擁有了多維度的數據,包括產品銷售數據、客戶消費數據、客戶行為數據、企業運營數據等。
  • 未來十年大數據工程師即將失業?自動化建模平臺已實現零基礎建模
    它會完全取代現有的建模過程麼?會有一部分人失業嗎?本文將從自動化建模平臺本身的痛點、技術細節、飛貸金融科技研發自動化建模平臺的踩坑經驗和思考,以及自動化建模的市場趨勢和人才發展角度,給大家提供一些思考。當下建模平臺普遍存在哪些痛點?
  • 類星體幾何距離測量研究獲進展
    王建民團隊利用幹涉數據,巧妙地結合中科院雲南天文臺麗江2.4米望遠鏡和美國Steward天文臺Bok 2.3米望遠鏡長達10年的反響映射數據,從而實現高精度測距。這種方法不依賴於任何已有的距離階梯,也不依賴於傳統工具必需的消光、紅化以及標準化等改正,而且系統誤差可進行觀測檢驗,為精確丈量宇宙幾何、研究宇宙膨脹速度和歷史開闢了一個新途徑。
  • 基於大數據的人工智慧海洋學預報研究取得進展
    近日,由中國科學院海洋研究所研究員李曉峰領銜、國內多家海洋科研單位人員組成的人工智慧海洋學團隊,以熱帶不穩定波相關聯的海表溫度場為例,研發了以衛星遙感大數據驅動的針對海氣系統中複雜海洋現象的人工智慧預報模型,並在針對熱帶不穩定波相關的海表溫度時空演變預報方面取得研究進展。
  • 數據科學研究的現狀與趨勢全解
    ,可以將數據科學理解為大數據時代一門新科學,即以揭示數據時代,尤其是大數據時代新的挑戰、機會、思維和模式為研究目的,由大數據時代新出現的理論、方法、模型、技術、平臺、工具、應用和最佳實踐組成的一整套知識體系。
  • 數學建模研究過程指導:從高中數學體會數學概貌和數學建模
    說明:此文稿為朱浩楠老師於2018年11月-12月北京地區聯校數學建模活動的課題研究階段中,每天一篇發布給各課題組的研究方法指導文件的匯總。為方便更多的同學參考使用,現調整為正序後通過遇見數學微信公眾號發布,版權歸朱老師和遇見數學公眾號所有。
  • 人工智慧的研究、應用與發展趨勢
    在達特茅斯會議後,人工智慧AI倖免於幾次潮熱和「蕭條」,才進入今天的新時代發展進程,主要是人工智慧AI領域的三所學校,人工智慧AI領域的重大成就和突破性進展情報。人類的智慧來自由100億個神經元細胞組成的神經網絡的大腦,因此,對大腦神經網絡的結構進行建模可能是人工智慧AI研究的主題,即這是一個神經元網絡,可將您的大腦連接到該神經網絡,直接使用計算機進行建模,與之前從未研究過的「智能」形成對比,該網絡具有這種學習能力。神經網絡的最早研究始於1943年。
  • 大數據時代的社會科學研究新範式
    不同於自然科學,社會科學以人類社會現象為研究對象,其傳統研究範式在認知準確性方面飽受爭議。然而,大數據時代的到來為彌補這一缺陷提供了潛在的解決方案。隨著全球新一輪科技革命與產業變革的加速演進,數據來源、數據處理以及數據分析等數據相關技術發展迅速,特別是以統計學習、機器學習、深度學習乃至更為廣泛意義的人工智慧為代表的數據分析手段,正在帶來新的認知方式,為形成數據驅動的社會科學研究新範式提供有力支撐。
  • 數據建模中分類與預測模型
    摘要:  隨著計算機技術的興起,當前社會已經進入大數據資訊時代。資本市場隨著投資者的不斷湧入以及金融科技的不斷發展,交易時所涉及到的信息也逐漸繁雜。如果還是利用過往的分析模式,個人的力量就顯得愈加薄弱。
  • 阿里達摩院2021年十大科技趨勢發布:第三代半導體大爆發,數據處理...
    2018年起,阿里達摩院都會自身研究及實踐,與學術界和工業界進行一場頂級腦暴,對次年的的科技趨勢作出了預判,趨勢方向的選擇綜合考量了技術成熟度、產業前景和社會價值等維度。趨勢六:數據處理實現「自治與自我進化」隨著雲計算的發展、數據規模持續指數級增長,傳統數據處理面臨存儲成本高、集群管理複雜、計算任務多樣性等巨大挑戰;面對海量暴增的數據規模以及複雜多元的處理場景,人工管理和系統調優捉襟見肘。因此,通過智能化方法實現數據管理系統的自動優化成為未來數據處理發展的必然選擇。
  • 融合問題建模的數據表示之探討
    在多維信號表示發展的歷史長河中,傅立葉變換曾經長時間佔據信號處理的統治地位,但由於其局部模式分析不足,人們逐步研究出小波分析、多尺度幾何分析(如Ridgelet、 Curvelet變換)等不同形式的固定基函數系統,提供人工解析形式的數據表示或者變換。
  • 蛋白質組學研究進展與趨勢
    1.蛋白質組學研究的研究意義和背景 隨著人類基因組計劃的實施和推進,生命科學研究已進入了後基因組時代。在這個時代,生命科學的主要研究對象是功能基因組學,包括結構基因組研究和蛋白質組研究等。儘管現在已有多個物種的基因組被測序,但在這些基因組中通常有一半以上基因的功能是未知的。
  • 曠視科技 CSG 算法負責人姚聰:深度學習時代的文字檢測與識別技術...
    這次探討的主題是深度學習時代文字檢測與識別領域的最新進展。這些進展被分成 5 個類別: 從語義分割和目標檢測方法中汲取靈感 更簡化的 Pipeline 處理任意形態文字 使用 Attention 使用合成數據。
  • 群核科技雲設計時代「4+4+N」產品矩陣亮相
    升級為群核科技後,不單只是品牌層面的考量,更大的因素是產品能力驅動,群核背後代表的是其雲渲染、雲計算、多核心等處理能力。  結合產業趨勢和大數據洞察,此次酷+大會上,群核科技「4+4+N」產品矩陣正式亮相。未來五年,該產品矩陣將更加全鏈路、立體、深刻地影響整個大居住行業。
  • IBMS建模數據怎麼強化?它的輕量級建模滿足你的需求!
    IBMS建模數據怎麼強化?它的輕量級建模滿足你的需求!傳統的智能建築/建築自動化/建築安全/智能校園經常採用建築信息模型建築信息模型(BIM)軟體,如Autodesk的Revit和Bentley,但這些BIM建模模型的數據往往過於肥大
  • 北京大學查紅彬:基於數據流處理的SLAM技術
    北京大學查紅彬教授為大家帶來報告《基於數據流處理的SLAM技術》。查紅彬,北京大學信息科學技術學院智能科學系教授,機器感知與智能教育部重點實驗室主任。主要從事計算機視覺與智能人機互動的研究,在三維視覺幾何計算、三維重建與環境幾何建模、三維物體識別等方面取得了一系列成果。
  • 提高建模效率,改變手工作坊式生產,AutoML的技術研究與應用進展...
    100+ 頂尖技術專家、1000+ 大數據從業者齊聚於此,以「大數據驅動智能+」為主題,聚焦智能時代大數據技術的發展曲線,圍繞大數據與社會各行業相結合的最新實踐,進行了深度解讀和討論。其中,熱門的「自動化機器化學習技術與系統」論壇於12月6日拉開帷幕,作為本次論壇的開場嘉賓,江蘇鴻程大數據研究院副總經理、南京大學PASA大數據實驗室博士朱光輝帶來了《自動化機器學習AutoML技術研究進展 》的主題演講。
  • AI時代,數據挖掘過時了嗎?—企業數據挖掘成功之道(理論篇)
    大數據時代、人工智慧時代,機器學習、人工智慧、深度學習、集成學習……概念漫天飛,數據挖掘似乎成為一個過時技術和概念。今天小編結合多年專業學習與研究經驗,從實踐應用的角度重新梳理一下「數據挖掘」,讓您能夠拋開概念了解本質!
  • 口腔生物力學問題有限元分析的研究進展
    生物系統建模與仿真研究可把生物系統簡化為數學模型,並對這些模型用計算機進行分析,以代替複雜、昂貴乃至無法實現的實驗。本文綜述了有限元法在口腔領域中的應用研究進展,其中,有限元法在口腔顱頜面外科中主要應用於顱骨牽張、頜面軟硬組織術後變化、骨折過程中頜骨的受力分析等;口腔種植和內科學中的應用主要集中於種植體、充填物對義齒、牙體及其相關組織應力分布的影響。