理解熵、交叉熵和交叉熵損失

2020-11-23 人工智慧遇見磐創

交叉熵損失是深度學習中應用最廣泛的損失函數之一,這個強大的損失函數是建立在交叉熵概念上的。當我開始使用這個損失函數時,我很難理解它背後的直覺。在google了不同材料後,我能夠得到一個令人滿意的理解,我想在這篇文章中分享它。

為了全面理解,我們需要按照以下順序理解概念:自信息, 熵,交叉熵和交叉熵損失

自信息

"你對結果感到驚訝的程度"

一個低概率的結果與一個高概率的結果相比,低概率的結果帶來的信息量更大。現在,如果$y_i$是第i個結果的概率,那麼我們可以把自信息s表示為:

現在我知道一個事件產生某個結果的自信息,我想知道這個事件平均帶來多少自信息。對自信息s進行加權平均是很直觀的。現在的問題是選擇什麼權重?因為我知道每個結果的概率,所以用概率作為權重是有意義的,因為這是每個結果應該發生的概率。自信息的加權平均值就是熵(e),如果有n個結果,則可以寫成:

交叉熵

現在,如果每個結果的實際概率為$pi$卻有人將概率估計為$qi$怎麼辦。在這種情況下,每個事件都將以$pi$的概率發生,但是公式裡的自信息就要改成$qi$(因為人們以為結果的概率是$q_i$)。現在,在這種情況下,加權平均自信息就變為了交叉熵c,它可以寫成:

交叉熵總是大於熵,並且僅在以下情況下才與熵相同 $pi=qi$,你可以觀看https://www.desmos.com/calculator/zytm2sf56e的插圖來幫助理解

交叉熵損失

紫色線代表藍色曲線下的面積,估計概率分布(橙色線),實際概率分布(紅色線)

在上面我提到的圖中,你會注意到,隨著估計的概率分布偏離實際/期望的概率分布,交叉熵增加,反之亦然。因此,我們可以說,最小化交叉熵將使我們更接近實際/期望的分布,這就是我們想要的。這就是為什麼我們嘗試降低交叉熵,以使我們的預測概率分布最終接近實際分布的原因。因此,我們得到交叉熵損失的公式為:

在只有兩個類的二分類問題的情況下,我們將其命名為二分類交叉熵損失,以上公式變為:

相關焦點

  • 簡單的交叉熵損失函數,你真的懂了嗎?
    說起交叉熵損失函數「Cross Entropy Loss」,腦海中立馬浮現出它的公式:我們已經對這個交叉熵函數非常熟悉,大多數情況下都是直接拿來使用就好。但是它是怎麼來的?為什麼它能表徵真實樣本標籤和預測概率之間的差值?上面的交叉熵函數是否有其它變種?也許很多朋友還不是很清楚!
  • 完美解釋交叉熵
    通過幾個簡單的例子來解釋和總結什麼是交叉熵( Cross Entropy) 以及機器學習分類問題中為什麼使用交叉熵。其中2是這個方案中的交叉熵。而最優方案的交叉熵是1.75。給定一個策略, 交叉熵就是在該策略下猜中顏色所需要的問題的期望值。更普遍的說,交叉熵用來衡量在給定的真實分布下,使用非真實分布所指定的策略消除系統的不確定性所需要付出成本的大小。交叉的字面意思在於:真實分布與非真實分布的交叉。給定一個方案, 越優的策略, 最終的交叉熵越低。
  • 透徹講解~交叉熵代價函數
    而且,類似sigmoid這樣的函數(比如tanh函數)有很多優點,非常適合用來做激活函數,具體請自行google之交叉熵代價函數的定義那麼我們如何解決這個問題呢?研究表明,我們可以通過使用交叉嫡函數來替換二次代價函數。為了理解什麼是交叉嫡,我們稍微改變一下之前的簡單例子。
  • 機器學習中各種熵的定義及理解
    然而究竟什麼是熵,相信多數人都能說出一二,但又不能清晰的表達出來。而筆者對熵的理解是:「拒絕學習、拒絕提升的人是沒有未來的,也只有努力才能變成自己想成為的人」。下圖是對熵的一個簡單描述:熵可以理解為是一種對無序狀態的度量方式。那麼熵又是如何被用在機器學習中呢?
  • 你還認為似然函數跟交叉熵是一個意思呀?
    似然函數不就是交叉熵嗎?」「機器學習中的似然函數怎麼看起來跟概率統計課本裡的不一樣呢?」「學長學長,我把這個model的輸出接上交叉熵後怎麼報錯了?」這是理解似然函數做損失函數的關鍵!另外,貝努利分布的模型參數就是其中一個類別的發生概率。 而二項分布呢,就是將貝努利實驗重複n次(各次實驗之間是相互獨立的)。 而多項式分布呢,就是將二項分布推廣到多個面(類別)。
  • 全球熵ETV 什麼是熵 解析entropy熵的概況 如何理解熵原理與熵增定律
    19世紀 中期德國的著名物理學家和數學家克勞修斯在全世界第一個真正提出entropy熵的概念,克勞修斯是全球公認的熱力學理論奠基人,分子運動理論奠基者。熵是表徵物質狀態的參量之一,物理意義指複雜,無或者混亂的度量。2 如何理解熵原理與熵增定律?
  • 熵:傷腦筋的熵
    ——王安石《讀史》摘要: 就不易理解和容易誤解這一點來說,entropy是非常特殊的一個物理量。Entropy的本意是一個同能量轉換相關的熱力學廣延量,中文的熵,或熱溫商,是對克勞修斯公式形式上的直譯。Entropy是一個具有深遠意義的基礎概念,量子力學以及後來的通訊理論都得益於熵概念之上的深入研究。
  • 我對熵原理的理解
    歷史上是由物理學家列奧·齊拉德(Leo Szilard)首次提出了「負熵」這個經典熱力學中從未出現過的概念和術語。負熵就是熵的對立,熵代表的是無序,而負熵表示的則是有序。我相信,在自然界中一定存在著和熵增相反的能量控制機制,只是還無法清晰地說明這種機制。 熵增與熵減,看似是相反方向,但某些時候,又只是一線之隔。大自然中的許多植物、動物,都有一個共同且鮮明的特徵,那就是對稱。
  • 熵:傷腦筋的熵-虎嗅網
    溫度一般會被混同於冷熱的感覺,溫度的概念比熵出現得早,但並不是說溫度就比熵是更基本的。人們之所以把熱力學性質看成是物理性質對溫度的依賴而不是表達成同熵的關聯,筆者揣測是因為人們還不習慣於面對熵這樣的emergent的概念 。熵是一個非常獨特的概念,就不易理解和容易誤解這兩點來說,在整個物理學領域,熵都是鮮有其匹的一個詞。
  • 熵:傷腦筋的熵|賢說八道
    ——王安石《讀史》摘要:就不易理解和容易誤解這一點來說,entropy是非常特殊的一個物理量。Entropy的本意是一個同能量轉換相關的熱力學廣延量,中文的熵,或熱溫商,是對克勞修斯公式形式上的直譯。溫度一般會被混同於冷熱的感覺,溫度的概念比熵出現得早,但並不是說溫度就比熵是更基本的。人們之所以把熱力學性質看成是物理性質對溫度的依賴而不是表達成同熵的關聯,筆者揣測是因為人們還不習慣於面對熵這樣的emergent的概念 (見下文)。熵是一個非常獨特的概念,就不易理解和容易誤解這兩點來說,在整個物理學領域,熵都是鮮有其匹的一個詞。
  • 深究熵的概念和公式以及最大熵原理
    一個隨機變量ξ有A1、A2、A3……共n個不同的結果,每個結果出現的概率是p1、p2、p3……,那麼我們把ξ的不確定度定義為信息熵,參考上面物理學熵的定義,A1、A2、A3……可以理解為不同的微觀狀態,那麼看起來信息熵應該是log n嘍?
  • 熵到底是什麼?
    熵在現代科學中有點流行。通常,它被用作"障礙"的代名詞,但是比這更有趣。這個概念本身有著悠久而有趣的歷史。為了完全理解熵是什麼,我們確實需要查看熵的來源。熵的概念的第一個暗示是拉扎爾·卡諾(Lazare Carnot)提供的,最著名的是他研究引擎並領導法國革命軍的工作。
  • 幾乎支撐著科學的半壁江山的「熵」到底是什麼?深入討論熵理論
    為了完全理解熵是什麼,我們需要知道它是從哪裡來的。最早提出熵概念的是拉扎爾·卡諾,他以研究發動機和領導法國革命軍而聞名。拉扎爾對輸入系統的功和輸出系統的功的比較之間的關係非常感興趣。他把輸出的功稱為「有用的功」,而把損失的功稱為「轉換能」。這就是後來的熵。薩迪·卡諾他的兒子(薩迪·卡諾)繼續老卡諾的工作,研究發動機。
  • 到底什麼是「熵」?----熵的概念辨析(5)
    到底什麼是「熵」? 以前的介紹:熵的世界你不懂?----熵的概念辨析(1)熵(傷)腦筋?
  • 熵的世界你不懂?----熵的概念辨析(1)
    熵,--一個難以理解和應用的概念。
  • 熱力學熵:克勞修斯
    我們來簡單看一下玻爾茲曼熵表示的意義。假如有這麼一個箱子,裡面有黑白兩色小球。我們不妨設想兩種情況,一種是兩色小球很自覺地分別在箱子的左右兩半集合,另一種是兩色小球雜亂的分布在一起。很顯然,第二種情況允許的可能性更多一些,熵也就要大一些。但既然玻爾茲曼熵也是熵,那麼就一定和克勞修斯熵滿足同樣的熵增定律。
  • 熱力學第二定律與熵(後話)
    上一期我們從熱力學的角度出發,推演了「熵」這個概念的由來,並且從微觀的角度給出了S = k lnΩ這個著名的公式(這個公式的地位與聯繫運動學和力學的F=ma,聯繫質量和能量的E=mc2不相上下)。很多讀者表示難以理解,的確,熵源於熱力學中的一個比值,卻超越了熱力學。今天我們拋開晦澀難懂的熱力學,繼續聊聊熵(聊聊人生)。
  • 一個系統:開放-封閉、熵-負熵、熵增-熵減、熵死-負熵活!
    一個系統要實現其自身的功能就要消耗掉能量,一個封閉的系統,如果不與外界發生能量的交換,這個封閉的系統,因為它會」熵增「,熵就會一直變大,直至熵變到最大之時,此時這個系統,它的內部就達到了平衡態,它的內部沒有能量流動,此時就是熵死了,想像一下,水流到最低處時,達到了平衡,沒有流動,那種止水,也即死水,就是熵死了。
  • 文獻分享| Science:DNA催化的熵驅動反應網絡
    基於Watson-Crick鹼基互補配對的核酸因其鹼基互補配對的可預測性和特異性有助於電路的設計,並且序列多樣性組合可以實現信號載體的多樣性,進而實現複雜生化電路網絡的構建。與基於核酸雜交的設計相比,熵驅動的催化設計要簡單得多,並且熵驅動能夠更快,更好地使人們理解生化電路的反應網絡。
  • 熵與商
    愛因斯坦說,熵理論在科學界是國士無雙的第一法則;貝佐斯說,我們要馬不停蹄的反抗熵;彼得德魯克說,管理就是和熵進行破釜沉舟的對抗。近兩年和身邊企業家朋友聊天,大家的侃侃而談中,「熵」是一個企業家運籌帷幄的高屋建瓴,企業界喜聞樂見的好學,已經幾乎將物理學的鬼斧神工徹底搬運到了商業運營。剛流行完風口勢能第一定律,又開始風靡熵變第二定律,如果對熵的理解沒有顯得諱莫如深,就可能被貽笑在大方之家,整個創業人生就都無序了。