相異數據的等距高斯過程潛在變量模型

2022-01-28 慕測科技

引用

Jorgensen, M., & Hauberg, S. (2021). Isometric Gaussian Process Latent Variable Model for Dissimilarity Data. In Proceedings of the 38th International Conference on Machine Learning (Vol. 139). International Machine Learning Society (IMLS). Proceedings of Machine Learning Research Vol. 139

摘要

我們提出了一個概率模型,其中潛在變量考慮了模型數據的距離和拓撲結構。該模型利用生成流形的黎曼幾何賦予潛在空間一個定義明確的隨機距離測度,該測度被局部建模為 Nakagami 分布。通過審查過程,這些隨機距離被尋求儘可能類似於沿著鄰域圖的觀察距離。該模型是通過基於成對距離觀測的變分推理來推斷的。我們演示了新模型如何在學習流形中編碼不變量。

1.介紹

降維是指將數據壓縮到較低的維度表示,同時保留底層信號並抑制噪聲。當代非線性方法大多依賴於統一假設,即觀測數據分布在嵌入觀測空間的低維流形附近。除了這個統一假設之外,方法通常因關注三個關鍵屬性之一而不同(表 1)。

拓撲保持。拓撲空間是一組對連續變形保持連通性不變的點。對於有限的數據,連通性通常被解釋為一種聚類結構,這樣拓撲保持方法就不會形成新的聚類或分解現有的聚類。出於可視化目的,統一流形近似投影(UMAP)似乎是該領域的最新技術。

距離保持。設計用於尋找與觀測數據相似的成對距離低維表示的方法通常可以被視為多維標度(MDS)的變體。通常,這是通過直接最小化壓力來實現的,壓力定義為:

其中 dij 是兩個數據點 xi 與 xj 的差異(或距離),Z = {zi}Ni=1 代表了在 Rq 中的低維表示。

概率模型。上述方法的一個共同特點是,它們在從高維到低維的映射中學習特徵,而不是由低維到高維學習。這使得這些方法對於可視化非常有用。生成模型允許我們在高維空間中製作新樣本。與我們特別相關的是高斯過程潛變量模型(GP-LVM),GP-LVM 學習了一個隨機映射 f: Rq→RD 以及潛在表示 z,這是通過在高斯過程之前將映射邊緣化來實現的。生成手段允許這些方法擴展到可視化之外,例如缺失數據插補、數據擴充和半監督任務。

在本文中,我們使用高斯過程來學習一個黎曼流形,在這個過程中,流形上的距離與黎曼假設所指的局部距離相匹配。假設觀測數據位於具有無限內射半徑的 RD 的黎曼 q-子流形上,那麼我們的方法可以學習到與原始流形等距的 q 維表示。類似的表述只適用於原始流形為平面情況下嵌入到 Rq 的傳統流形學習方法。我們通過生存分析中的通用技術,結合基於高斯過程弧長理論的似然模型,學習全局和局部結構。最後,我們展示了高斯過程方法邊緣化潛在的表示,並產生一個完全貝葉斯非參數模型。

本文處理的數據是實例之間的成對距離。這自然給該方法增添了幾何色彩,因為距離屬於幾何範疇。請注意,這並不排除表格數據——我們只需要點之間的可計算距離。此外,許多現代數據集以成對距離的形式出現:基於進化樹上距離的蛋白質、用於位置識別的簡單全球定位系統數據、來自心理學的感知數據等。

2.背景材料

2.1 高斯過程

高斯過程(GP)是函數上的分布,f: Rq→R 滿足對域 Rq 中任何有限的點集ziNi=1,輸出 f = (f(z1),...,f(zN))具有聯合高斯分布。該高斯分布完全由平均函數 μ:Rq→R 以及一個協方差函數 k: Rq×Rq→R 決定,如此:

其中 μ=(μ(z1),...,μ(zN)),K 是一個 N×N 矩陣,第(i,j)個元素為 k(zi,zj)。

2.2 黎曼幾何

流形是一種拓撲空間,其上的每個點都有一個與歐氏空間同胚的鄰域;也就是說,流形是局部線性空間。這種流形可以嵌入到比相關歐幾裡得空間維數更高維的空間中;流形本身具有與局部歐氏空間相同的維數。因此,q 維流形 M 可以看作是嵌入在 RD 中的曲面。為了沿著流形進行定量陳述,我們要求流形是黎曼的。

定義 1. 一個黎曼流形 M 是一個帶有內積的平滑 q-流形:

內積在 x 中是平滑的,其中 TxM 代表在 x 上評估的 M 的切線空間。

曲線長可以從黎曼內積中很容易地定義出。如果 c:[0,1]→M 是一條光滑曲線,它的長由給出。在一個嵌入的流形 f(M)上,變成:

然後,對於 x,y∈M,M 上的度量可以定義為:

2.3 Nakagami分布

我們考慮被高斯過程浸入的隨機流形,這種流形上的曲線(7)的長度也必然是隨機的。幸運的是,由於該流形是高斯場,因此曲線長度與 Nakagami 分布非常接近。Nakagami 有密度函數:

參數 m ≥ 1/2 且 Ω> 0;Γ 代表伽馬函數。這些參數可以用方程來解釋:

3.模型與變分推理

先決條件確定後,我們建立了一個局部距離保持和全局拓撲保持的高斯過程潛在變量模型。注意:我們用 Z 表示數據集 Χ= {xi}Ni=1,xi∈RD 的潛在表示,用 f: z→x 表示生成映射。

3.1距離拓撲保持

我們建立了一個高斯過程潛在變量模型(GP-LVM),為距離和拓撲保持而明確設計。普通的 GP-LVM 採用高斯似然,其中當以高斯過程 f 為條件時,我們假設觀測值為 Χ。相反,我們考慮觀測值之間成對距離的可能性。

鄰域圖。為了對局部性建模,我們將模型限制在嵌入觀測數據 Χ 的圖上,頂點 V=Χ 且邊 E= {eij}的無向圖。相當於,G=(V,E)可以用其帶有條目的鄰接矩陣 AG 來表示:

流形距離。為了得到成對距離的似然度,我們首先回顧潛在空間中的 zi 和 zj 之間的線性插值具有曲線長度:

其中 J 代表 f 的雅可比行列式,是我們的生成流形近似。

由於流形距離 dM 是最短連接曲線的長度,因此根據定義,sij 是一個 dM 上的上限。然而,由於流形與歐氏空間是局部同胚的,那麼我們可以期望 sij 是到鄰近點距離的一個很好的近似,即

審查。為了將這種行為編碼為似然度,我們在目標函數中引入了審查。這種方法通常應用於生存分析中的缺失數據,即已知某個事件的發生晚於某個時間點。我們可以把審查看作是對數據不平等的建模。對於具有密度函數 gθ,服從分布函數 Gθ 的數據 ti,審查似然函數定義為:

其中 θ 是分布 G 的參數,T 這是實驗結束的某個「時間點」。CarreiraPerpian 指出,大多數鄰域嵌入方法都有兩個損失函數:一個吸引近點,一個散射遠點。審查為類似的術語提供了似然度,它可以被視為最大方差展開思想的概率版本。

局部距離似然度。從前面我們知道,如果流形 f(M)是高斯場,那麼距離 sij 近似為 Nakagami 分布。因此,我們把似然度表示為:

其中 Gθ 是帶有參數 θ={m,Ω}的 Nakagami 函數分布,得到的對數似然在圖 2 中的等式 16 中給出。

3.2邊緣化表示

我們有一個損失函數(16),它將 eij 與參數 θij={mij,Ωij}相匹配。我們現在尋求首先擬合這些參數,並將其邊緣化,以獲得完整的貝葉斯方法。首先,我們假設條件為 θ,我們得到獨立的觀測值,即

從方程 3.1 可知,我們通過引入一個潛在的高斯場 J 和一個潛在的表示 z 來推斷 Nakagami 的這些參數。這允許我們定義曲線長度(12),我們假設它也是 Nakagami 分布的。實際上,我們從等式 12 中抽取 m 個 sij 樣本,並估計它們的二階矩的均值和方差,這通過公式 10 給出了 mij 和 Ωij 的估計值。

本質上,我們將流形 J 上的距離與觀察到的距離 ε 相匹配。我們忽略了該流形

此外,我們可以在等式 19 中提出一個先驗並將其邊緣化。我們通過變量推斷一切,並在邊緣化變量上選擇一個變量分布。我們用下列公式近似後驗 p(θ,J,z,u|ε):

其中 u 是一個誘導變量,且有:

其中 μz 是大小為 N 的向量,Az 是 N×N 對角矩陣,q(u)=N(μu,S)是一個全 M 維高斯,這使我們將對數似然度(16)與證據下界(ELBO)綁定在一起:

總之,我們有一個潛在的代表 Z 和一個被浸入為 GPJ 的黎曼流形。這意味著在任意兩點 zi 與 zj 之間,我們可以計算出近似 Nakagami 的值 sij。有了審查,如果 eij<ϵ,我們就可以把 sij 與觀察值 eij 相匹配;否則我們就把 sij 所有值都放在[ϵ,∞)。通過最大化等式 26,用變分推理對其進行優化。

3.3不變性與幾何約束

為什麼值得用無坐標的方法學習流形?通過引入等價類,不變量很容易通過相異對進行編碼,即如果 xi 與 xj 在同一等價類中,那麼 d(xi,xj)=0。這種等價類的流行選擇是旋轉、平移和縮放。人們希望對模型施加的許多約束可以表述為幾何約束,這也適用於基於 GPLVM 的模型。幾何約束也可以用高斯過程編碼,高斯過程直接輸出到黎曼流形上。

3.4. ϵ的拓撲數據分析及其影響

模型自然會受到超參數的影響。我們認為,可以使用拓撲數據分析以幾何基礎的方式選擇它,通過構建一個 Rips 圖可以找到 ϵ,從而 ϵ-NN 圖可以捕獲正確的數據拓撲。要理解 ϵ 從更廣的角度來看意味著什麼,我們可以研究邊界用例。如果 ϵ=∞ 我們會匹配所有觀測到的距離,這類似於 MDS。如果邊緣化的 J 的協方差函數是常數,潛空間也被服從歐幾裡得,因此 Iso-GPLVM 在這種情況下可以被視為概率 MDS。

4.實驗

我們首先在一個經典的玩具數據集 COIL20 和圖像數據集 MNIST 上進行實驗。我們將所提出的模型稱為等距高斯過程潛變量模型。為了進行比較,我們還基於不同的數據評估其他模型。在所有情況下,我們用 IsoMap 初始化 Iso-GPLVM,因為眾所周知,基於 GP 的方法對初始化很敏感。

4.1 Swiss roll

Tenenbaum 等人引入了「Swiss roll」來強調非線性流形學習的困難, 點雲位於嵌入在 R3 中的二維流形上,可以被認為是一張卷在自身周圍的紙(見圖 3A)。我們通過 MDS、t-SNE、IsoMap 和 Iso-GPLVM 四種方法發現了二維潛在嵌入。從圖 3 中,我們觀察到線性 MDS 無法捕捉高度非線性的流形。t-SNE 捕捉到了一些局部結構,但全局狀況並不理想。由於數據集是為 Isomap 的「geodesic」方法構建的,因此它既能捕捉全局結構,又能捕捉局部結構。

4.2 COIL20

COIL20 由 20 個物體的灰度圖像組成,這些圖像是從 72 個不同的角度拍攝的,橫跨一個完整的旋轉(見圖 4 的一些例子)。這意味著總共有 1440 幅圖像——我們使用的版本大小為 128×128 像素,因此原始數據位於 R16384。

首先,我們只關注一個對象——旋轉的橡皮鴨——來突出 geodesic 行為。圖 4 顯示了潛空間中學習流形上的二維嵌入和 geodesic。我們清楚地從旋轉的鴨子上觀察到所期望的的環形結構。除此之外,geodesic 顯示了潛空間的黎曼幾何:它們沿著數據流形移動,避開沒有觀察到數據的空間。背景色是測度,它提供了潛空間的黎曼幾何視圖。IsoMap、t-SNE、UMAP 等也能推斷出循環嵌入,但 Iso-GPLVM 是唯一能推斷潛空間的幾何學的模型。

當同時考慮所有 20 個對象時,分離不同對象的全局元素是推斷拓撲結構的關鍵任務。圖 5 中可以看到 IsoMap 和 IsoGPLVM 的嵌入。由於 IsoMap 隱含了一個連通流形的假設,因此它很難清晰地分離對象。Iso-GPLVM 找到了全局拓撲結構,但在任何情況下都沒有找到局部結構。

4.3 MNIST

指標。我們在來自 MNIST 的 5000 張圖像上評估我們的模型,我們首先希望強調不變量如何用相異數據編碼。我們考慮將我們的模型擬合到三種不同距離度量下的數據。我們考慮經典的歐幾裡得距離度量:

此外,我們考慮在圖像旋轉下不變的度量:

其中 Rθ 對一個圖像旋轉 θ 度。我們注意到總是有 dROT(xi,xj) ≤ d(xi,xj)。最後

我們介紹一個字典指標:

其在審查階段強制攜帶不同標籤的圖像相互排斥。當離散變量可用時,這是一種基於離散變量對拓撲或聚類進行編碼的簡便方法。

結果。圖 6(A-C)顯示了這三個指標的潛在嵌入。面板 A、D 和 E 的潛在嵌入基於歐幾裡得度量。我們觀察到 IsoMap (D)和 Iso-GPLVM (A)在形狀上看起來相似,這並不奇怪,因為我們用 IsoMap 初始化,但 IsoGPLVM 的數字分離更清晰。總的來說,從聚類的角度來看,t-SNE 在視覺上表現更好;但是(A)中簇間距離會大於連接它們的直線。在聚類方面,字典方法比其他度量方法更為突出。這是預料之中的,因為度量使用標籤信息,但是清楚地說明了特定領域的度量是如何從弱信息或部分信息發展而來的。除了圖中間的一個區域外,大多數類都被很好地分開了。潛在空間的黎曼幾何意味著 geodesic (最短路徑)可以在我們的模型中計算。圖 6F 顯示了字典度量下的 geodesic 示例,它們高度非線性的外觀強調了學習流形的曲率。

5.討論

我們引入了一個從相異數據進行非線性降維的模型,它是第一個基於高斯過程的該類模型。該方法的非線性既源於高斯過程,也源於似然性的審查。它統一了來自高斯過程、黎曼幾何和鄰域圖嵌入的思想,與傳統的嵌入到 Rq 中的流形學習方法不同,我們通過學習的度量嵌入到一個 q 維的黎曼流形中。這允許我們學習與真實潛在流形等距的潛在表示。

我們的實驗突出表明,Iso-GPLVM 可以學習數據的幾何形狀,並且通過學習一個流形來進行高斯過程回歸,幾何約束更容易編碼。與高斯過程相關的不確定性量化貫穿始終,並進一步強調了不確定性、幾何和拓撲之間的聯繫。據我們所知,我們的模型是同類模型中的第一個,局部來說它可以通過相關的黎曼測度來評估流形近似的質量。

致謝

本文由南京大學軟體學院 2021 級碩士研究生楊靈權翻譯轉述,博士生肖媛審核。

相關焦點

  • 使用高斯混合模型,讓聚類更好更精確(附數據、代碼、學習資源)
    讓我們仔細看看這個算法是如何工作的,這將為後續了解高斯混合模型打下基礎。首先,我們先確定目標分組數量,這是K的數值,根據需要劃分的族或分組的數量,隨機初始化k個質心。然後將數據點指定給最近的質心,形成一個簇,接著更新質心,重新分配數據點。這個過程不斷重複,直到質心的位置不再改變。
  • 什麼是高斯混合模型
    這種方法的一個局限性是沒有不確定性度量標準或概率來告訴我們一個數據點與一個特定的聚類的關聯程度。那麼,如果使用軟聚類而不是硬聚類,效果會怎麼樣呢?這正是高斯混合模型(簡稱GMMs)所要嘗試的。現在我們來進一步探討這個方法。
  • NeurIPS 2020 | 近期必讀高斯過程精選論文
    在高斯過程中,連續輸入空間中每個點都是與一個正態分布的隨機變量相關聯。此外,這些隨機變量的每個有限集合都有一個多元正態分布,換句話說他們的任意有限線性組合是一個正態分布。高斯過程的分布是所有那些隨機變量的聯合分布,正因如此,它是連續域上函數的分布。
  • 獨家 | 使用高斯混合模型,讓聚類更好更精確(附數據&代碼&學習資源)
    讓我們仔細看看這個算法是如何工作的,這將為後續了解高斯混合模型打下基礎。首先,我們先確定目標分組數量,這是K的數值,根據需要劃分的族或分組的數量,隨機初始化k個質心。然後將數據點指定給最近的質心,形成一個簇,接著更新質心,重新分配數據點。這個過程不斷重複,直到質心的位置不再改變。查看下面的gif,它代表初始化和更新簇的整個過程,假設簇數量為10:
  • 推薦 :使用高斯混合模型,讓聚類更好更精確(附數據&代碼&學習資源)
    讓我們仔細看看這個算法是如何工作的,這將為後續了解高斯混合模型打下基礎。首先,我們先確定目標分組數量,這是K的數值,根據需要劃分的族或分組的數量,隨機初始化k個質心。然後將數據點指定給最近的質心,形成一個簇,接著更新質心,重新分配數據點。這個過程不斷重複,直到質心的位置不再改變。查看下面的gif,它代表初始化和更新簇的整個過程,假設簇數量為10:
  • 達觀數據陳運文:一文詳解高斯混合模型原理
    另外我們還假定了隱含的數據分布是高斯分布,並以此來繪製分布曲線,並以此為前提預估潛在的分布情況。如果採集越來越多的數據,通常身高的分布越來越趨近於高斯(儘管仍然有其他不確定因素),模型訓練的目的就是在這些假設前提下儘可能降低不確定性(達觀數據 陳運文)。
  • 如何利用高斯混合模型建立更好、更精確的集群?
    這將幫助你了解高斯混合模型是如何在本文後面發揮作用的。因此,我們首先定義要將總體劃分為的組的數量——這是 k 的值。根據需要的簇或組的數量,隨機初始化 k 個質心。然後將數據點指定給最近的質心,形成一個簇。然後更新質心並重新分配數據點。這個過程不斷重複,直到質心的位置不再改變。
  • 淺談高斯混合模型
    反過來,為什麼有隱變量的時候一般的極大似然估計法難以適用?這就好比走路的時候,兩條腿綁在一起,可觀測的信息和隱變量的信息區分不開,自然走不動。通常,觀測數據加上隱變量構成的數據集稱為完全數據 (complete data)。EM算法的主要思想為,在觀測數據的似然函數中加入隱變量,將原本複雜、或難以表示的似然函數改寫為關於完全數據的似然函數。
  • [PRML]序列數據 -- 馬爾可夫模型
    儘管這些模型易於處理,但也有嚴重的局限性。通過引入潛在變量,可以獲得一個更一般的框架,同時仍然保持可處理性,從而指向狀態空間模型(state space models)。這裡關注狀態空間模型的兩個最重要的例子,即潛變量是離散的隱馬爾可夫模型(hidden Markov model)和潛變量是高斯的線性動力系統(linear dynamical systems)。這兩個模型都用樹形結構(無循環)的有向圖來描述,可以使用和積算法有效地進行推理。
  • 高斯過程
    高斯過程的理論知識高斯過程的Python實現使用Numpy手動實現使用`Scikit-learn`實現高斯過程小結高斯過程GaussianProcess高斯過程的理論知識非參數方法的基本思想隨著數據複雜性的增加,通常需要使用具有更多參數的模型來合理地解釋數據。在非參數方法中,參數的數量取決於數據集的大小。
  • 技術乾貨 | 一文詳解高斯混合模型原理
    另外我們還假定了隱含的數據分布是高斯分布,並以此來繪製分布曲線,並以此為前提預估潛在的分布情況。如果採集越來越多的數據,通常身高的分布越來越趨近於高斯(儘管仍然有其他不確定因素),模型訓練的目的就是在這些假設前提下儘可能降低不確定性(達觀數據 陳運文)。模型的EM訓練過程,直觀的來講是這樣:我們通過觀察採樣的概率值和模型概率值的接近程度,來判斷一個模型是否擬合良好。
  • 一種利用推斷網絡對高斯過程模型進行有效推斷的方法
    ,高斯過程模型的推斷是很困難的。本文提出了利用隨機推斷網絡為高斯過程進行推斷,並指出這是一種合理的近似。使用這類方法一個最大的問題是因為訓練時通常使用的都是minibatch,而推導這些方法時通常並沒有考慮到minibatch,因此對於大數據集網絡不一定會得到有關聯的有意義的輸出。本文通過一種隨機的函數空間鏡面下降算法解決了這個問題。
  • ML基礎:高斯混合模型是什麼?
    1.高斯混合模型概念高斯混合模型是一種概率模型,它假設所有數據點都是從有限數量的高斯分布的混合參數中生成的。反覆迭代這個過程很多次,直到兩個概率值非常接近時,我們停止更新並完成模型訓練。模型生成的數據來決定似然值,即通過模型來計算數據的期望值。通過更新參數μ和σ來讓期望值最大化。這個過程可以不斷迭代直到兩次迭代中生成的參數變化非常小為止。
  • 單變量和多變量高斯分布:可視化理解
    參數計算 假設我們有一系列數據。如何計算mu(均值)和標準差? mu的計算很簡單。這只是平均數。把所有數據的總和除以數據的總數。 這裡,xi是數據集中的單個值,m是數據的總數。 方差公式為:多元高斯分布 假設有多組數據,我們需要多元高斯分布。假設我們有兩組數據;x1和x2。 單獨建模p(x1)和p(x2)對於理解兩個數據集的組合效果可能不是一個好主意。在這種情況下,您可能希望將數據集和模型僅結合在一起建立p(x)。
  • 圖文詳解高斯過程(一)——含代碼
    從AlphaGo到AlphaGo Zero,Deepmind在MCTS超參數自動調優上一直表現出對高斯過程優化的信心,而這的確是它的優勢領域。當涉及豐富的建模可能性和大量隨機參數時,高斯過程十分簡單易用。但是,掌握高斯過程不是一件簡單的事,尤其是如果你已經用慣了深度學習常用的那些模型。為了解決這個問題,我特意撰寫了這篇文章,並用一種直觀地、可視化的方式結合理論向初學者介紹。
  • 【ICML Oral】DeepMind提出深度學習新方向:神經過程模型
    作為神經網絡的一種替代方案,還可以對隨機過程進行推理以執行函數回歸。這種方法最常見的實例是高斯過程( Gaussian process, GP),這是一種具有互補性質的神經網絡模型:GP不需要昂貴的訓練階段,可以根據某些觀察結果對潛在的ground truth函數進行推斷,這使得它們在測試時非常靈活。
  • 生成模型學習筆記:從高斯判別分析到樸素貝葉斯
    1 判別模型判別模型是一種對觀測數據進行直接分類的模型,常見的模型有邏輯回歸和感知機學習算法等。此模型僅對數據進行分類,並不能具象化或者量化數據本身的分布狀態,因此也無法根據分類生成可觀測的圖像。該模型有著研究數據分布形態的概念,可以根據歷史數據生成新的可觀測圖像。貝葉斯分類就是一個典型的例子。在這個例子中,我們有一個先驗分類,根據這個先驗分類,我們可以使用貝葉斯原理計算每個分類的概率,然後取概率最高的概率。同時,我們還可以根據特定的先驗生成特徵。這就是一個生成過程。
  • 高斯過程回歸(GPR)
    連續域上的無限多個服從高斯分布的隨機變量所組成的隨機過程2.高斯過程回歸有兩個視角:權重空間視角和函數空間視角,這兩者是等價的>優化「黑盒子」函數的效果5.高斯過程回歸也應用在機器學習模型超參數調節中,效率比網格搜索、隨機搜索都要高高斯過程回歸有兩個視角,一個是
  • 為什麼數據科學家都喜歡高斯分布
    對深度學習和機器學習工程師而言,在世界上所有的概率模型中,高斯分布(Gaussian distribution)模型最為引人注目。即使你從來沒有進行過AI項目,有很大的機率你曾經遇到過高斯模型。擴散中的微粒的位置可以用高斯分布描述自然科學和社會科學中有極其大量的過程天然遵循高斯分布。即使當它們並不遵循高斯分布的時候,高斯分布也往往提供最佳的逼近。一些例子:
  • 詳解 EM 算法和 高斯混合模型
    比如要將班上學生聚類,假設隱藏變量z是身高,那麼就是連續的高斯分布。如果按照隱藏變量是男女,那麼就是伯努利分布了。可以由前面闡述的內容得到下面的公式:      求了下界。對於和結果在之前的混合高斯模型中已經給出。4. 總結      如果將樣本看作觀察值,潛在類別看作是隱藏變量,那麼聚類問題也就是參數估計問題,只不過聚類問題中參數分為隱含類別變量和其他參數,這猶如在x-y坐標系中找一個曲線的極值,然而曲線函數不能直接求導,因此什麼梯度下降方法就不適用了。