從最大似然估計開始,你需要打下的機器學習基石

2021-01-08 機器之心Pro

選自Medium

作者:Jonny Brooks-Bartlett

機器之心編譯

概率論是機器學習與深度學習的基礎知識,很多形式化的分析都是以概率的形式進行討論。而這些討論或多或少都離不開最大似然估計,因為它是參數估計的基礎之一,也是構建模型的基石。在本文中,我們從最大似然估計到貝葉斯推理詳細地討論了機器學習的概率論基石,並希望能為讀者的預習與複習提供優秀的參考資源。

什麼是參數?

在機器學習中,我們經常使用一個模型來描述生成觀察數據的過程。例如,我們可以使用一個隨機森林模型來分類客戶是否會取消訂閱服務(稱為流失建模),或者我們可以用線性模型根據公司的廣告支出來預測公司的收入(這是一個線性回歸的例子)。每個模型都包含自己的一組參數,這些參數最終定義了模型本身。

我們可以把線性模型寫成 y = mx + c 的形式。在廣告預測收入的例子中,x 可以表示廣告支出,y 是產生的收入。m 和 c 則是這個模型的參數。這些參數的不同值將在坐標平面上給出不同的直線(見下圖)。

參數值不同的三個線性模型。

因此,參數為模型定義了一個藍圖。只有將參數選定為特定值時,才會給出一個描述給定現象的模型實例。

最大似然估計的直觀解釋

最大似然估計是一種確定模型參數值的方法。確定參數值的過程,是找到能最大化模型產生真實觀察數據可能性的那一組參數。

上述的定義可能聽起來還是有點模糊,那麼讓我們通過一個例子來幫助理解。

假設我們從某個過程中觀察了 10 個數據點。例如,每個數據點可以代表一個學生回答特定考試問題的時間長度(以秒為單位)。這 10 個數據點如下圖所示:

我們觀察到的 10 個(假設的)數據點。

我們首先要決定哪個模型最適合描述生成數據的過程,這一步至關重要。至少,我們應該對使用哪種模型有一個不錯的想法。這個判斷通常來自於一些領域內專家,但我們不在這裡討論這個問題。

對於這些數據,我們假設數據生成過程可以用高斯分布(正態分布)進行充分描述。對以上數值目測一番就可以得知,高斯分布是合理的,因為這 10 個點的大部分都集中在中間,而左邊和右邊的點都很少。(因為我們只使用了 10 個數據點,做出這樣的草率決定是不明智的,但考慮到我是用某個確定的分布函數生成這些數據點,我們就湊合著用吧)。

回想一下高斯分布有兩個參數:均值μ和標準差σ。這些參數的不同值會對應不同的曲線(就像上面的直線一樣)。我們想知道「哪條曲線最可能產生我們觀察到的數據點」?(見下圖)。用最大似然估計法,我們會找到與數據擬合得最好的 μ、σ 的值。

10 個數據點和可能得出這些數據的高斯分布。f_1 是均值為 10、方差為 2.25(方差等於標準偏差的平方)的正態分布,也可以表示為 f_1N(10, 2.25)。其它曲線為 f_2N(10, 9)、f_3N(10, 0.25)、f_4N(8,2.25)。最大似然的目標是找到最有可能生成已知觀察數據分布的參數值。

我生成這 10 個數據的真實分布是 f_1~N(10, 2.25),也就是上圖中的藍色曲線。

計算最大似然估計

現在我們對最大似然估計有了直觀的理解,我們可以繼續學習如何計算參數值了。我們找到的參數值被稱為最大似然估計(maximum likelihood estimates,MLE)。

我們同樣將用一個例子來演示這個過程。假設這次有三個數據點,我們假設它們是從一個被高斯分布充分描述的過程生成的。這些點是 9、9.5 和 11。那麼如何用最大似然估計逼近這個高斯分布的參數 μ 和 σ 呢?

我們要計算的是同時觀察到所有這些數據的概率,也就是所有觀測數據點的聯合概率分布。因此,我們需要計算一些可能很難算出來的條件概率。我們將在這裡做出第一個假設,假設每個數據點都是獨立於其他數據點生成的。這個假設能讓計算更容易些。如果事件(即生成數據的過程)是獨立的,那麼觀察所有數據的總概率就是單獨觀察到每個數據點的概率的乘積(即邊緣概率的乘積)。

從高斯分布中生成的單個數據點 x 的(邊緣)概率是:

在表達式 P(x; μ, σ) 中的分號是為了強調在分號後的符號都是概率分布的參數。所以千萬不要把這個與條件概率相混淆。條件概率一般會用豎線來表達,比如說 P(A| B)。

在我們的例子中,同時觀察到這三個數據點的總(聯合)概率是:

我們只要找出能夠讓上述表達式最大化的μ、σ值就可以了。

如果你在數學課上學過微積分,那麼你可能會意識到有一種技巧可以幫助我們找到函數的最大值(和最小值)。我們所要做的就是求出函數的導數,把導函數設為零然後重新變換方程,使其參數成為方程的未知數。然後就這樣,我們將得到參數的 MLE 值。我將串講一下這些步驟,但我假設讀者知道如何對常用函數進行微分。

對數似然函數

上述的總概率表達式實際上是很難微分,所以它幾乎總是通過對表達式取自然對數進行簡化。這完全沒問題,因為自然對數是一個單調遞增的函數。這意味著,如果 x 軸上的值增加,y 軸上的值也會增加(見下圖)。這一點很重要,因為它確保了概率的最大對數值出現在與原始概率函數相同的點上。因此,我們可以用更簡單的對數概率來代替原來的概率。

原函數的單調性,左邊是 y = x,右邊是(自然)對數函數 y = ln(x)。

這是一個非單調函數的例子,因為從左至右 f(x) 會上升,然後下降,然後又上升。

取初始表達式的對數能得到:

我們可以用對數的運算法則再一次簡化這個表達式,得到:

這個表達式可以通過求導得到最大值。在這個例子中,我們要找到平均值 μ。為此我們對函數求 μ 的偏導數,得到:

最後,設置等式的左邊為零,然後以μ為未知數整理式子,可以得到:

這樣我們就得到了 μ 的最大似然估計。我們可以用同樣的方法得到 σ 的最大似然估計,這留給有興趣的讀者自己練習。

最大似然估計小結

最大似然估計總是能精確地得到解嗎?

簡單來說,不能。更有可能的是,在真實的場景中,對數似然函數的導數仍然是難以解析的(也就是說,很難甚至不可能人工對函數求微分)。因此,一般採用期望最大化(EM)算法等迭代方法為參數估計找到數值解,但總體思路還是一樣的。

為什麼叫「最大似然(最大可能性)」,而不是「最大概率」呢?

好吧,這只是統計學家們賣弄學問(但也是有充分的理由)。大多數人傾向於混用「概率」和「似然度」這兩個名詞,但統計學家和概率理論家都會區分這兩個概念。通過觀察這個等式,我們可以更好地明確這種混淆的原因。

這兩個表達式是相等的!所以這是什麼意思?我們先來定義 P(data; μ, σ) 它的意思是「在模型參數μ、σ條件下,觀察到數據 data 的概率」。值得注意的是,我們可以將其推廣到任意數量的參數和任何分布。

另一方面,L(μ, σ; data) 的意思是「我們在觀察到一組數據 data 之後,參數 μ、σ 取特定的值的似然度。」

上面的公式表示,給定參數後數據的概率等於給定數據後參數的似然度。但是,儘管這兩個值是相等的,但是似然度和概率從根本上是提出了兩個不同的問題——一個是關於數據的,另一個是關於參數值的。這就是為什麼這種方法被稱為最大似然法(極大可能性),而不是最大概率。

什麼時候最小二乘參數估計和最大似然估計結果相同?

最小二乘法是另一種常用的機器學習模型參數估計方法。結果表明,當模型向上述例子中一樣被假設為高斯分布時,MLE 的估計等價於最小二乘法。

直覺上,我們可以通過理解兩種方法的目的來解釋這兩種方法之間的聯繫。對於最小二乘參數估計,我們想要找到最小化數據點和回歸線之間距離平方之和的直線(見下圖)。在最大似然估計中,我們想要最大化數據同時出現的總概率。當待求分布被假設為高斯分布時,最大概率會在數據點接近平均值時找到。由於高斯分布是對稱的,這等價於最小化數據點與平均值之間的距離。

有隨機高斯噪聲的回歸線

上一部分討論了機器學習和統計模型中參數估計的最大似然法。在下文我們將討論貝葉斯推理的參數估計,並解釋該方法如何可作為最大似然法的推廣,以及兩者等價的條件。

閱讀本文需要理解一些基本的概率論知識,例如邊緣概率和條件概率。此外,了解高斯分布有助於理解,但並不是必要的。

貝葉斯定理

在介紹貝葉斯推理之前,理解貝葉斯定理是很有必要的。貝葉斯定理的意義在於使我們能利用已有的知識或信念(通常稱為先驗的)幫助計算相關事件的概率。例如,如果想知道在炎熱和晴朗的天氣中賣出冰淇淋的概率,貝葉斯定理可以使用「在其它類型天氣中可能賣出冰淇淋數量」的先驗知識。

數學定義

貝葉斯定理的數學定義如下:

其中,A 和 B 是事件,P(A|B) 是給定事件 B 發生時,事件 A 發生的條件概率,P(B|A) 同理。P(A) 和 P(B) 分別是事件 A 和事件 B 的邊緣概率。

示例

假定一副撲克牌裡有 52 張牌,其中 26 張是紅色的,26 張是黑色的。那麼當牌是紅色的時候,牌上數字為 4 的概率是多少?

我們將牌為數字 4 設為事件 A,將牌為紅色設為事件 B。因此我們需要計算的概率是 P(A|B)=P(4|red),接下來,我們使用貝葉斯定理計算這個概率值:

1. P(B|A) = P(red|4) = 1/2

2. P(A) = P(4) = 4/52 = 1/13

3. P(B) = P(red) = 1/2

然後根據貝葉斯定理可得到:P(4|red)=P(red|4)·P(4)/P(red)=1/13。

為什麼貝葉斯定理能結合先驗信念?

僅僅看數學公式很難理解這一點。我們將再次借用冰淇淋和天氣的例子。

令 A 為賣出冰淇淋的事件,B 為天氣的事件。我們的問題是「給定天氣的類型,賣出冰淇淋的概率是多少?」用數學符號表示為 P(A=ice cream sale | B=type of weather)。

貝葉斯定理右邊的 P(A) 被稱為先驗概率。在我們的例子中即 P(A = ice cream sale) 是賣出冰淇淋的邊緣概率(其中天氣是任何類型)。一般而言,這個概率都是已知的,因此其被稱為先驗概率。例如我通過查看數據了解到 100 個人中有 30 個買了冰淇淋,因此 P(A = ice cream sale)=30/100=0.3,而這都是在了解任何天氣的信息之前知道的。

注意:先驗知識本身並不是完全客觀的,可能帶有主觀成分,甚至是完全的猜測。而這也會對最終的條件概率計算產生影響,我將在後面解釋。

貝葉斯推理

定義

首先,(統計)推理是從數據中推導群體分布或概率分布的性質的過程。最大似然法也是同樣的,如可以通過一系列的觀察數據點確定平均值的最大似然估計。

因此,貝葉斯推理不過是利用貝葉斯定理從數據中推導群體分布或概率分布的性質的過程。

使用貝葉斯定理處理數據分布

以上例子使用的都是離散概率,有時可能需要使用連續的概率分布。即賣出冰淇淋的概率可能不只是 0.3,還可能是 0.25 或 0.4 以及其它任何可能值,每個概率對應一個先驗信念,因而是一個函數 f(x),如下圖所示。該分布被稱為先驗分布(prior distribution)。

上圖中的兩個分布曲線都可以作為上述例子的先驗分布,其中兩者的峰值都在 x=0.3 處。在 x≠0.3 處,f≠0,意味著我們並不完全確定 0.3 就是賣出冰淇淋的真實概率。藍線表示先驗概率的值更可能在 0-0.5 之間,而黃線表示先驗概率可能在 0-1 之間的任何值。相對而言,黃線表示的先驗分布比藍線的「更加不確定」。

在處理模型的時候,大部分都需要用到概率分布的形式。

貝葉斯定理的模型形式

模型形式的貝葉斯定理將使用不同的數學符號。

我們將用Θ取代事件 A。Θ是我們感興趣的事件,它代表了參數的集合。因此如果要估計高斯分布的參數值,那麼Θ代表了平均值μ和標準差σ,用數學形式表示為Θ = {μ, σ}。

我們用 data 或 y={y1, y2, …, yn} 取代事件 B,它代表了觀察數據的集合。

其中 P(Θ) 是先驗分布,它代表了我們相信的參數值分布,和上述例子中代表賣出冰淇淋的概率分布類似。等式左邊的 P(Θ|data) 稱為後驗分布,它代表利用觀察數據計算了等式右邊之後的參數值分布。而 P(data| Θ) 和似然度分布類似。

因此我們可以使用 P(data|Θ) 更新先驗信度以計算參數的後驗分布。

等等,為什麼忽略了 P(data)?

因為我們只對參數的分布感興趣,而 P(data) 對此並沒有任何參考價值。而 P(data) 的真正重要性在於它是一個歸一化常數,它確保了計算得到的後驗分布的總和等於 1。

在某些情況下,我們並不關心歸一化,因此可以將貝葉斯定理寫成這樣的形式:

其中 ∝ 表示符號左邊正比於符號右邊的表達式。

貝葉斯推斷示例

現在我們來展示一個貝葉斯推斷的示例。該示例要算出氫鍵鍵長。你無需知道什麼是氫鍵(hydrogen bond),我只是用它舉例。

我用上圖因為它有助於拆分密集文本,且與我們要展示的示例有某種關聯。不要擔心,無需理解上圖也可以理解貝葉斯推斷。

假設氫鍵是 3.2—4.0。該信息將構成我的先驗知識。就概率分布而言,我將將其形式化為均值 μ = 3.6、標準差 σ = 0.2 的高斯分布(見下圖)。

氫鍵鍵長的先驗分布

我們現在選取一些數據(由均值為 3 和標準差為 0.4 的高斯分布隨機生成的 5 個數據點),代表了氫鍵的測量長度(圖 3 中的黃色點)。我們可以從這些數據點中推導出似然度分布,即下圖中黃色線表示的似然度分布。注意從這 5 個數據點得到的最大似然度估計小於 3(大約 2.8)。

氫鍵長度的先驗分布(藍線),和由 5 個數據點導出的似然度分布(黃線)。

現在我們有兩個高斯分布。由於忽略了歸一化常數,因此已經可以計算非歸一化的後驗分布了。高斯分布的一般定義如下:

我們需要將上述的兩個分布乘起來,然後得到下圖的粉線所示的後驗分布。

藍色分布和黃色分布的乘積得到粉色的後驗分布。

現在我們得到了氫鍵鍵長的後驗分布,可以從中推導出統計特徵。例如,我們可以使用分布的期望值估計鍵長,或者計算方差以量化對結果的不確定度。對後驗分布的最常用的統計計算是眾數,它被用於估計感興趣參數的真實值。在這個例子中,後驗分布是一個高斯分布,因此平均值等於眾數(以及中位數),而氫鍵長度的 MAP 估計在分布的峰值處,大約 3.2。

結語

為什麼我經常使用高斯分布?

你將注意到在我所有涉及分布的實例中,我使用了高斯分布。其中一個原因是它使數學變的更容易。但是對貝葉斯推理實例來說,它需要計算 2 個分布的乘積。此外,因為高斯分布有一個特殊的屬性,使其易於計算分布的乘積。對於高斯似然函數來說,高斯分布與它自己共軛,因此如果我把一個高斯似然函數乘以一個高斯先驗分布,我將得到一個高斯後驗函數。事實是後驗和先驗都來自相同的分布族(均為高斯),這意味著它們可被稱為共軛分布。在這種情況下,先驗分布被稱為共軛先驗。

在很多推理情景中,似然和先驗被選擇,從而得到的分布是共軛的,因為它使數學變的更簡單。數據科學中的一個實例是隱狄利克雷分配(LDA),它是一個無監督學習算法,可以發現若干個文本文檔(語料庫)中的主題。

當我們獲取新數據,會發生什麼?

貝葉斯推理的最大優勢之一是使用它無需有大量數據。事實上貝葉斯框架允許你有數據後實時、迭代地更新你的信念。其工作如下:你有一個關於什麼的先驗信念(比如參數值),接著你接收到一些數據。你可以通過計算後驗分布更新你的信念,就像上面我們做的那樣。隨後,甚至有更多的數據進來。因此我們的後驗成為新的先驗。我們可以通過從新數據中獲得的似然更新的新的先驗,並再次獲得一個新後驗。這一循環可無限持續,因此你可以不斷更新你的信念。

卡爾曼過濾器(及其變體)是很好的一個實例。它在很多場景中使用,可能數據科學中最醒目就是其在自動駕駛汽車上的應用。在我的數學蛋白質晶體學博士學位期間,我曾使用一種名為 Unscented 卡爾曼過濾器的變體,並為實現它們的開源軟體包做出了貢獻。為了更好地視覺描述卡爾曼過濾器,請查看 Tim Babb 的這篇文章:http://www.bzarg.com/p/how-a-kalman-filter-works-in-pictures/。

把先驗用作 regulariser

我們在上述氫鍵長度實例中產生的數據表明,2.8是最佳估計。但是,如果我們的估計只依據數據,則存在過擬合的風險。如果數據收集過程出現差錯,這將是一個嚴重的問題。我們可以在貝葉斯框架中使用先驗解決這一問題。在我們的實例中,使用一個以 3.6為中心的高斯先驗得到了一個後驗分布,給出的氫鍵長度的 MAP 估計為 3.2。這表明我們的先驗在估計參數值時可以作為 regulariser。

先驗與似然上的權重數量取決於兩個分布之間的相對不確定性。在下圖中我們可以看到這一點。顏色與上面一樣,藍色表徵先驗分布,黃色表徵似然分布,粉紅表徵後驗分布。左圖中我們看到藍線不如黃線那麼延展。因此後驗要遠比似然更相似於先驗。右圖中則情況相反。

因此如果我們願意增加參數的正則化,我們可以選擇縮小與似然性相關的先驗分布。

什麼時候 MAP 估計與最大似然估計相等?

當先驗分布均勻之時,MAP 估計與 MLE 相等。下圖是均勻分布的一個實例。

均勻分布

我們可以看到均勻分布給 X 軸(水平線)上的每個值分布相同的權重。直觀講,它表徵了最有可能值的任何先驗知識的匱乏。在這一情況中,所有權重分配到似然函數,因此當我們把先驗與似然相乘,由此得到的後驗極其類似於似然。因此,最大似然方法可被看作一種特殊的 MAP。

本文為機器之心編譯,轉載請聯繫本公眾號獲得授權。

---

加入機器之心(全職記者/實習生):hr@jiqizhixin.com

投稿或尋求報導:content@jiqizhixin.com

廣告&商務合作:bd@jiqizhixin.com

相關焦點

  • 最大似然估計
    的最可能的值,也就是說參數的選擇會使得這個採樣的概率最大化。,並且在  的最大似然估計。Remark. 最大似然函數不一定是唯一的,甚至不一定是存在的。(二)基本算法求解最大似然函數估計值的一般步驟:(1)定義似然函數;(2)對似然函數求導數,或者說對似然函數的對數求導數,目的都是為了更加方便地計算一階導數;(3)令一階導數等於零,得到關於參數
  • 最大似然法估計二項式分布參數
    今天我們再來看看最大似然法如何求解二項式分布參數。1.二項式分布與似然值估計公式如在人們對兩種口味飲料無偏好時,即人們喜歡香橙口味的概率p=0.5,喜歡葡萄口味的概率p=0.5,那麼7個人中4個人喜歡香橙口味的概率為0.273。計算公式如下:
  • 統計學筆記|最大似然估計以及似然比檢驗
    最大似然估計想必大家都學過,而似然比檢驗(likelihood ratio test,LR test)在文獻中也是常客,但一直沒有對其深入理解,因此本文希望對其有一個相對完整的闡述。一、似然函數    說到似然函數,就不得不說一下似然性,似然性和概率是一組相對的概念。
  • 提前一年的押題——最大似然估計
    今天要給大家講的,是統計學中的一個核心理念,也是考研數學中的一個核心考點,核心到,我起了個驚悚的標題「提前一年的押題——最大似然估計」,因為自09年起,09、11、12、13、14、15、17、18、19、20年考試中,均出現了本考點,就在試卷第23題,想必倒過來說大家更容易印象深刻,除了10年和16年,年年都考了。有同行玩笑,不會押題怎麼辦,就押最大似然估計吧,反正十年八中。
  • 生成式模型入門:訓練似然模型的技巧 - 機器之心Pro
    機器之心編譯參與:李志偉、Geek AI生成模型不止有 GAN,本教程討論了數學上最直接的生成模型(易處理的密度估計模型)。讀罷本文,你將了解如何定量地比較似然模型。在我們的模型分布下查詢新數據點 x' 的似然,從而檢測異常由於我們可以將分類和回歸問題解釋為學習生成模型的過程,對條件分布進行建模具有更廣泛的直接應用:機器翻譯 p(
  • 想入門機器學習?機器之心為你準備了一份中文資源合集
    如果你的數學背景很紮實,請跳過這一章節。如若不然,那麼重新溫習一下這些重要概念也不錯。考慮到理論的數量,我並不建議大家從大部頭開始。儘管一開始可以用它查詢具體概念,但是初學者先關注簡單的話題比較好。網上有很多好的在線資源(比如 Coursera、可汗學院或優達學城),實用且適合各種背景的人群。但是我建議從提綱之類的簡明書籍上手,其中所有核心概念均被涉及,次要概念可在需要的時候自行查詢。
  • 貝葉斯機器學習到底是什麼?看完這篇你就懂了
    如果能通過數據採樣來估計概率分布參數,最經典的方法就是最大似然估計(maximum-likelihood estimation,MLE),也就是我們所說的極大似然法。而如果將先驗考慮在內,那麼就是最大後驗概率(MAP)。如果在先驗均勻分布的情況下,這兩者應該相同。統計建模我們先將貝葉斯方法分為兩類:一為統計建模,另一個為概率機器學習。
  • 【新書推薦】《機器學習及R應用》目錄
    編者薦語:  《機器學習及R應用》終於上市啦!不少讀者想知道《機器學習及R應用》的目錄。這裡附上詳細的二、三級目錄清單,讓我們先睹為快!  以下文章來源於計量經濟學及Stata應用,作者愛計量。  陳強老師的《機器學習及R應用》終於上市啦!目前已經開始在高等教育出版社的官方微店預售。掃描(或識別)下方二維碼,即可前往售書頁面。
  • 夢裡也能見到她,你大概是喜歡這個姑娘:從貝葉斯到極大似然估計
    「最像」就是「極大似然」的意思。這就暗含了極大似然估計估計的思想:已經發生的事情,就是最可能會發生的。嚴格的說,極大似然估計的目的是:利用已知的樣本結果,反推最有可能(最大概率)導致這樣結果的參數值。看完這個例子,大家對貝葉斯公式的理解有沒有更加具體呢?來道習題檢驗一下吧。這是IFoA2016年4月的第四道真題,也是2017年慕再精算競賽裡的題源之一。
  • 似然比檢驗 - CSDN
    關於似然函數,可以參考: 似然與極大似然估計似然函數及最大似然估計及似然比檢驗 似然比檢驗LRT的應用廣泛,包括:均值(包括均值向量)的比較、重複度量、因此根據似然值的高低來判斷模型的適合度是不準確的。LRT提供了一個客觀的標準來選擇合適的模型。LRT檢驗的公式: LR = 2*(InL1- InL2)其中L1為複雜模型最大似然值,L2為簡單標準模型最大似然值LR近似的符合卡方分布。為了檢驗兩個模型似然值的差異是否顯著,我們必須要考慮自由度。LRT 檢驗中,自由度等於在複雜模型中增加的模型參數的數目。
  • 你還認為似然函數跟交叉熵是一個意思呀?
    似然函數的定義當然沒有限定樣本集X的分布函數。這樣來看似然函數的話很抽象,不知道實際中如何去用。所以我們把問題縮小一下啦。本文中,我們將似然函數作為機器學習模型的損失函數,並且用在分類問題中。這時,似然函數是直接作用於模型的輸出的(損失函數就是為了衡量當前參數下model的預測值predict距離真實值label的大小,所以似然函數用作損失函數時當然也是為了完成該任務),所以對於似然函數來說,這裡的樣本集就成了label集(而不是機器學習意義上的樣本集X了),這裡的參數也不是機器學習model 的參數,而是predict值!(哈?
  • 參數估計之點估計和區間估計
    作者 | CDA數據分析師參數估計(parameter estimation)是根據從總體中抽取的樣本估計總體分布中包含的未知參數的方法。人們常常需要根據手中的數據,分析或推斷數據反映的本質規律。點估計問題就是要構造一個只依賴於樣本的量,作為未知參數或未知參數的函數的估計值。構造點估計常用的方法是:①矩估計法,用樣本矩估計總體矩②最大似然估計法。利用樣本分布密度構造似然函數來求出參數的最大似然估計。③最小二乘法。主要用於線性統計模型中的參數估計問題。
  • 沈俠團隊開發出用於估計遺傳相關的「高精度似然函數」新方法
    然而,遺傳相關的現有估計方法存在著局限,或因必須使用大量個體基因組數據而很難高效分析大樣本[1,2],或雖使用非個體數據但達不到理想的估計準確度[3-5]。該研究開發了一種用於估計遺傳相關的」高精度似然函數」 新方法(High-Definition Likelihood; HDL),大大提高了我們對遺傳相關進行估計的能力。遺傳相關的本質是全基因組DNA變異的聯合作用機制。人類的基因組中有大量的變異,正是這些變異讓人類的外貌多種多樣。
  • 讀懂概率圖模型:你需要從基本概念和參數估計開始
    文章從基礎的概念開始談起,並加入了基礎的應用示例來幫助初學者理解概率圖模型的實用價值。機器之心對該文章進行了編譯介紹。第一部分:基本術語和問題設定機器學習領域內很多常見問題都涉及到對彼此相互獨立的孤立數據點進行分類。比如:預測給定圖像中是否包含汽車或狗,或預測圖像中的手寫字符是 0 到 9 中的哪一個。事實證明,很多問題都不在上述範圍內。
  • 史上最強:numpy 實現全部機器學習算法
    手擼算法的目的在於能夠更好的學習和深入理解算法,而不是要替代已有的框架,畢竟成熟的框架在效率和精準度上都已經得到驗證。隱馬爾可夫模型 維特比解碼 似然計算 通過 Baum-Welch/forward-backward 算法進行 MLE 參數估計 3.
  • 【原創】參數估計與假設檢驗(一)-- 參數估計之點估計
    那麼,這裡的樣本均值15.18就可以作為整個湖中所有Bream魚的寬度均值的一個估計。在統計中,進行點估計的方法有多種,例如矩估計法、最小二乘法、極大似然法,其中極大似然估計又有很多改進的形式,比如限制極大似然等。SAS/STAT的PROC步中允許用戶在進行參數估計的時候指定不同的參數估計方法。
  • [257]先驗概率、似然函數與後驗概率(1)
    歡迎關注ScalersTalk。(1)[112]扯點密碼學:可證明安全隨筆[250]機器學習成長筆記(1)[251]機器學習三要素:機器學習成長筆記(2)[253]為什麼需要機器學習:機器學習筆記(3)[254]有監督學習和無監督學習:機器學習筆記(4)公式採用Latex編輯,可以在原文連結裡看到轉化後的版本
  • 機器學習-貝葉斯估計
    上一節機器學習-概率論的簡單回顧2.2.3 貝葉斯規則將條件概率的定義與乘積和規則相結合,就得到了貝葉斯規則,也稱為貝葉斯定理2.2.3.1實例:醫學診斷假設你是一名40多歲的女性,你決定進行一項名為乳房 x光檢查的乳腺癌醫學檢測如果檢查呈陽性,你得癌症的機率是多少?這顯然取決於測試的可靠性。
  • 這6點幫你解決參數未知的重要問題 | AI知識科普
    對於這樣的問題,班主任我又要「老生常談」了——作為一門龐大而又繁雜的綜合學科,學習的過程一定需要逐步理解、逐層深入。一蹴而就是不可能的。今天,班主任就給你們講一個在機器學習中重要的方法——極大似然估計。這是一個,能夠讓你擁有擬合最大盈利函數模型的估計方法哦!
  • 第4章 參數學習
    「從第2章開始,直到第6章,我們都將處理單步不確定決策問題。」