KL散度在各領域不同的使用情況

2020-11-30 電子發燒友

KL散度在各領域不同的使用情況

李倩 發表於 2018-05-14 17:40:49

相對熵,又稱為KL散度(Kullback-Leibler divergence),是兩個概率分布P和Q差別的非對稱性的度量。近日,CMU的助理教授Simon DeDeo就在推特上表示:「用到KL散度的領域十分廣泛,包括心理學、認知學(epistemic)、熱力學、統計學、計算、幾何學等等。關於這個話題我能開一場研討會。」

於是,Simon Dedeo就在他的推特上列出了KL散度在各領域不同的使用情況,並附上相關文章。論智整理編譯如下:

心理學

在心理學領域,KL散度可以作為預測注意力指向哪裡的優秀預測器。在美國南加州大學2005年發表的一篇論文中,研究人員用數據流和新穎的數學方法探究了人們在驚訝情況下大腦的反應。他們認為,驚訝是一種一般的、理論上的概念,它可以由第一原理生成,並還可以通過時空尺寸、感覺形態和數據類型及數據來源形成。

利用貝葉斯框架理論,研究人員捕捉到實驗對象的先驗概率分布,然後將背景信息表示為:

其中模型或假設為M。有了先驗分布,新數據帶來的基本影響D將先驗分布轉換為後驗分布{P(M|D)},表示為:

在這個框架中,如果實驗對象的情緒未受影響,那麼D就不含有驚訝情緒,即後驗和先驗是一樣的。反之,如果研究對象產生驚訝的情緒,那麼後驗和先驗就會產生距離。於是研究人員通過測量後驗和先驗之間的距離,間接地測出是否有驚訝知情。這就用到了KL散度,表示為:

論文地址:ilab.usc.edu/surprise/

認知學

KL散度可以作為決定實驗方向的測量標準(讓模型產生的效果最大化)。通常,T-optimality是用來獲得最優設計,以分辨具有正態分布的同方差模型。該功能經過拓展,還用於研究文學中異方差情況和二元響應模型。在2007年的一篇論文中,來自西班牙和義大利的研究人員提出了一種基於KL距離的新標準,用於區分相應的不具有動態分布的模型。

統計學

KL散度在統計學中的應用可就太多了,但是作者重點討論了它作為測量近似求解法失敗的工具。 在作者曾經寫的博客中有這樣一個例子:假設我們是太空科學家,到了一座遙遠的陌生星球,我們想研究星球上一種蟲子,這種蟲子有10顆牙齒,但是長期生活過後,蟲子的牙齒會脫落一部分,收集了一部分樣本後,我們得到了以下牙齒數量分布:

雖然數據很好,但是有一點問題。我們離地球太遠了,傳輸數據回去的成本太高。我們現在想將數據簡化成簡單模型,只保留一兩個參數。其中一種方法是用一種均勻分布的方式表示蟲子的牙齒數量。我們知道一共存在11種可能的情況:

很顯然,我們的數據並不是均勻分布的,但是它看起來也不像我們通常所見的某種分布形態。另一種方法是我們可以試著用二項分布對數據建模。在這個案例中,我們需要做的就是估計二項分布中概率參數。我們知道,假設試驗次數為n,概率為p,那麼期望值就是E[x]=n⋅p。在這個案例中,n=10,期望值就是我們數據的平均數,假設是5.7吧。所以我們對p的最佳估計就是0.57.得到的二項分布如下:

將這些模型與原始數據對比,沒有一個能完美契合的,但是哪個更好呢?

其中雖然存在一些錯誤的指標,但我們最初的目的是儘量減少發送的信息。所以,想要知道那種模型保留了原始數據最多的信息,最好的方法就是用KL散度。

計算(機器學習)

KL散度可以作為檢測模型是否有效的工具,即可以顯示模型留有多少的無用信息。在Still等人2012年發表的一篇論文中,他們為了測試模型的質量,利用KL散度。

另一個機器學習的應用:將KL散度(通常在這種情況下被稱為「交叉熵」)當做自動編碼器、深度學習等的基本損失函數。

另外,還可用作算法公平性(algorithmic fairness)。如何以最佳方式限制一個預測算法,同時還要保證公平。本文作者與2016年發表論文,研究了大數據中的變量問題。

作者認為,當我們用機器學習處理公共政策時,我們發現很多有用的變量與其他一些有問題的變量結合在了一起。這一現象在大數據時代更加嚴重,有些預測根本沒有強有力的理論支撐。如果高質量算法無法提供有力的證明,那麼隨意做出決策是非常危險的。為了保證預測的準確性,作者用KL散度對兩種決策進行比較。

論文地址:arxiv.org/abs/1412.4643

計算(壓縮)

當為一種系統設計的壓縮算法無法應用到另一種系統上時,就需要用KL散度進行計算。

文化發展

我們認為KL散度還可以作為研究個人發展與創新人物的測量標準。在2016年的一篇論文中,研究人員認為,在一個不確定資源分布的陌生環境中進行研究,總會在新舊發現中搖擺不定,二者要進行權衡。在查找信息的過程中也是如此,求知若渴的人總會猶豫,是在已知領域深究,還是開發新領域的研究呢?為了研究這一決策過程,他們以達爾文為例,找出了他的閱讀筆記中出現的所有書,並用KL散度生成了一個模型,量化了他的讀書選擇。

論文地址:www.sciencedirect.com/science/article/pii/S0010027716302840

同時,KL散度還能用來研究競爭與合作的創造以及想法的分享。在前不久發表的論文中,美國研究人員就利用KL散度研究在法國大革命期間,人們是如何做出民主決策的。

論文地址:www.pnas.org/content/115/18/4607.short

量子理論

劍橋大學的學生Felix Leditzky寫了一本關於相對熵的介紹及其在量子理論中的應用的博士論文,其中包括KL散度是如何在互換算子的情況下生成量子的。論文共200頁,感興趣的同學可以拜讀一下。

論文地址:pdfs.semanticscholar.org/30a7/6a44a4f0f882c58bd0b636d6393956258c3f.pdf

用戶@postquantum補充:「如果你有一些受限的操作類別,那麼KL散度會告訴你你需要多少原材料(研究成果、量子糾纏、信息),這種測量是獨一無二的。」具體可參考論文:arxiv.org/abs/quant-ph/0207177

另外如果你想使用廣義熵和超統計學(即耦合系統),這是Rényi熵的特殊情況。

論文地址:www.pnas.org/content/108/16/6390

數字人文學科

KL散度與TFIDF相關,但是當它涉及粗粒化時,KL散度的性能更好。(特徵最明顯的單詞在梳理文件時部分KL較高;停止詞的KL值最低)。具體可查看相關論文。

論文地址:www.mdpi.com/1099-4300/15/6/2246

經濟學

另外,KL散度在經濟學中也有出現,推特用戶@itsaguytalking就發表論文,用KL散度研究不同國家之間的貿易情況,論文研究的目的是如何測量不同意見之間的距離。

論文地址:www.columbia.edu/~ez2197/HowToMeasureDisagreement.pdf

生物學

在2015年的一篇論文中,研究者Nihat Ay認為,隨機交互單元的相互依賴型通常由靜態聯合概率分布的KL散度量化得來的,而概率分布來自對應的參數集合上。本文中的設置由靜態擴展為動態版本,利用馬爾科夫鏈信息幾何來捕捉暫時的相互依賴關係。

論文地址:www.mdpi.com/1099-4300/17/4/2432

幾何學

將微分幾何擴展到概率單純形時,KL散度作為非測量連接。

熱力學

一項可以從不平衡的系統中提取的測量方法,使其達到平衡。

結語

由此可見,KL散度作為概率的概念之一,在多個領域都得到了應用。除了上述所介紹的領域外,KL散度最常用的領域還是統計學。除了上文所說的用處,在模型選擇上,它還是赤池信息量準則的基礎標準。

打開APP閱讀更多精彩內容

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容圖片侵權或者其他問題,請聯繫本站作侵刪。 侵權投訴

相關焦點

  • 如何理解KL散度的不對稱性?
    眾所周知,多被用於量化分布間的差異的 KL 散度是不對稱的。今天我們來聊一聊,兩個分布的一對 KL 散度之間究竟有什麼不同。:用分布 P 的最佳信息傳遞方式來傳達分布 Q,比用分布 Q 自己的最佳信息傳遞方式來傳達分布 Q,平均多耗費的信息長度為 KL 散度,表達為 D_p(Q) 或 D_KL(Q||P),KL 散度衡量了兩個分布之間的差異。
  • 梯度、散度和旋度
    【旋度在坐標系中表示】在不同的坐標系下,向量場的旋度有不同的表達方式。旋度的重要性在於,可用通過研究表徵矢量在某點附近各方向上環流強弱的程度,進而得到其單位面積平均環流的極限的大小程度。磁場是有旋場,靜電場是無旋場。
  • 散度終結篇:對散度定理最詳細的解讀
    在物理術語中,向量場的散度是向量場通量在給定點上像源的程度。它是對其「輸出度」的一種局部度量——在某種程度上,從一個無限小的空間區域輸出的場向量要多於進入該空間的場向量。通量流出的點具有正的散度,常被稱為場的「源」。通量向內的一個點具有負的散度,常被稱為場的「匯」。
  • 教程|如何使用純NumPy代碼從頭實現簡單的卷積神經網絡
    本文是該系列的第一篇文章,介紹了 KL 散度(KL divergence)的基本數學概念和初級應用。作者已將相關代碼發布在 GitHub 上。代碼:https://github.com/thushv89/nlp_examples_thushv_dot_com/blob/master/kl_divergence.ipynb基礎概念首先讓我們確立一些基本規則。
  • 十二、梯度和散度--流體力學理論知識
    這次我們通過介紹梯度和散度,來掌握一些公式化簡的技巧。1. 梯度算子          什麼叫梯度算子? 散度         散度(divergence)可用於表徵空間各點矢量場發散的強弱程度,物理上,散度的意義是場的有源性對於一個矢量場
  • 數學中的梯度、散度與旋度到底是幹嘛用的?
    不過別緊張,我們耐心看一下 ,這三種情況分別是什麼。梯度的本意是一個矢量,表示某一函數在該點處的方向導數沿著該方向取得最大值,即函數在該點處沿著梯度的方向變化最快,變化率最大(為該梯度的模)。首先,學過微積分的我們都知道,如果f是x的函數,那麼f沿x軸的變化率就是df/dx。
  • 【漲知識】嘗試理解「梯度、散度、旋度」,歡迎拍磚!
    三個度以不同的變化規律揭示了不同場的特性。    (2)三個度均用於表達某點場與場源的相依關係,不同變化規律的場對應於不同性質的場源。    在圖1.27中,圖1.27(b)和圖1.27(c)分別表示矢量場的散度場和旋度場。其中散度場(或無旋場)對應於散度源(或通量源), 旋度場(或無散場)對應於旋度源(或旋渦源)。
  • 多變量微積分-二十五講-散度定理
    散度定理,又稱為高斯散度定理、高斯公式、高斯-奧斯特羅格拉德斯基公式或高-奧公式,是指在向量分析中,一個把向量場通過曲面的流動(即通量)與曲面內部的向量場的表現聯繫起來的定理
  • ICLR2020|谷歌最新研究:用「複合散度」量化模型合成泛化能力
    這個基準使用真實的自然語言理解任務,特別是語義解析和問題回答來進行合成泛化。在具體的工作中,相關研究人員提出了複合散度(compound divergence)測量指標,這個指標可以量化訓練-測試集的分離程度,以便測量機器學習的合成泛化能力。研究人員分析了三種序列到序列機器學習體系結構的合成泛化能力,發現它們的泛化能力堪憂。
  • 基礎向-今天談談散度與旋度
    今天介紹的散度以及旋度也跟哈密頓算子有關,簡單來說,散度就是與哈密頓算子的點乘,旋度就是與哈密頓算子的叉乘。既然這裡說到了點乘與叉乘的概念,那麼顯而易見,這裡與算子相乘的函數不再是昨天說的數值函數,而是向量函數,例如:那麼我們就可以得到散度的公式:通過上式可以看出,散度是一個標量,那麼它有什麼意義呢?
  • 圖解梯度、散度與旋度(1)
    歷史告訴我們的還有時代的潮流就是跨領域! 一個只懂數學(本質上不是真的懂), 而對其它領域無知的人是絕對沒有競爭力。就算是數學專業的人也必須同時對於非主修的科目有所涉獵, 如此才可以培養寬廣的胸襟與開放的心靈, 對於別人的研究也有興趣並懂得欣賞。否則會越來越孤立以至於枯竭, 片面內省的數學玄想只會導致貧瘠。
  • 愛銳學習 | 從物理角度直觀理解數學中的梯度、散度與旋度
    不過別緊張,我們耐心看一下 ,這三種情況分別是什麼。梯度的本意是一個矢量,表示某一函數在該點處的方向導數沿著該方向取得最大值,即函數在該點處沿著梯度的方向變化最快,變化率最大(為該梯度的模)。首先,學過微積分的我們都知道,如果f是x的函數,那麼f沿x軸的變化率就是df/dx。
  • 【散度定理】圖解高等數學-下 28
    散度定理二維平面 Green 定理 - 散度法向形式說的是, 在向量場中穿過簡單閉曲線的向外流量可以通過下式做積分求得散度:
  • 氣體傳感器在不同領域中分為哪三類使用?
    打開APP 氣體傳感器在不同領域中分為哪三類使用? 工程師黃明星 發表於 2018-07-17 08:21:00 目前無論是工業、商業、公共環境,都會用到不同工作原理的氣體傳感器。而根據應用領域,環境監測類氣體傳感器一般主要可分為以下三類。
  • 【數學之美】散度定理和旋度定理、廣義旋度定理(廣義斯託克斯公式)
    散度定理通常也被稱為高斯散度定理,旋度定理也通常被稱為斯託克斯旋度定理。散度定理可以簡單描述為:矢量場的通量等於該矢量場散度的體積分,體現的是面積分與體積分的關係。更加精確地說,散度定理說明矢量場穿過某一封閉曲面的通量(第二類曲面積分),等於矢量場的散度在該封閉曲面圍起來的體積上的積分(體積分)。旋度定理可以簡單描述為:矢量場的環量等於該矢量場旋度的通量,體現的是線積分與面積分的關係。
  • 全面形象化的解釋散度和通量的物理意義
    散度,通量是高等數學和大學物理,電磁學的重要內容,難以理解,本篇用通俗的語言來解釋它的物理意義。散度,高斯定理非常重要,要學好一個太陽發出耀眼的光芒太陽在向外輻射能量,我們用向量A來表示能量的方向和大小d在太陽表面用一條封閉的曲線圈起來,那麼通過該曲線的能量就是所有向量A的疊加但是A的方向不一定在曲線的法線方向
  • 一張圖看懂梯度、散度、旋度、Jacobian、Hessian和Laplacian
    一、入門圖中的細實線箭頭表示了四種一階微分運算,包括梯度、散度、旋度和 Jacobian。每條箭頭的起點表示了相應運算的自變量的類型,終點表示了相應運算的因變量的類型,例如梯度運算是作用在標量上的,結果是向量。圖中的「向量」默認為列向量。
  • 2021國家公務員考試官網報名入口網址http://bm.scs.gov.cn/kl2021
    2021國家公務員考試官網報名入口網址http://bm.scs.gov.cn/kl2021。2021國考報名入口已於今日8時開通,報名時間截止10月24日18:00。為了方便考生順利報考國考職位,山東中公教育特整理了2021國家公務員考試報名入口及報名網址。
  • 2021國家公務員考試報名入口:http://bm.scs.gov.cn/kl2021-國家人事
    國家國考考試網同步國家人事考試網考試動態信息:2021國家公務員考試報名入口:http://bm.scs.gov.cn/kl2021,2021國考報名入口。更多關於國考報名入口,國家公務員報名,國考報名時間,國家人事考試網的信息的內容,請關注國家國考考試網以及國家華圖教育!