創建模型,從停止死記硬背開始

2020-11-25 雷鋒網

對於機器學習/數據科學的研究者而言,回歸分析是最基礎的功課之一,可以稱得上是大多數機器學習/數據科學研究的起點。

本文作者 Kevin Hannay 是一位從生物學跨界到數學、數據科學的研究者,而他之所以選擇「跨界」的原因便是數學學科能夠讓他脫離死記硬背的苦海,完全以像回歸分析這樣的方式來推導結論。

在他看來,基本上所有的問題都能夠用回歸分析的思維來解決。他認為,在機器學習/數據科學的模型創建中,應該從停止死記硬背開始,而更多地借用回歸分析的思維。

相信他的分享能夠給大家一些啟發,下面來看他的分享:

一、序曲

我記性很差。

在大學,我的「初戀」是生物學,但最終我被這些課程拒之門外,因為它們強調記憶。後來我對數學這門學科「一見鍾情」,因為我不必死記硬背任何知識。數學的魅力在於它關注我們以何種方式得出結論,如果自己不能證明一個結論,那就說明你還不理解它。

出於某種原因,統計學仍然經常通過列出各種場景中應用的檢驗來授課。例如下圖所示的複雜流程圖和更加具體的統計檢驗。

檢驗平均數假設的統計流程圖

這會導致統計檢驗的混亂和誤用。不過沒關係,因為我將給大家帶來一個好消息。基礎統計學可以分為三個部分來闡釋:採樣、置信區間和回歸。

對於有數據科學和/或機器學習背景的人來說,這是個好消息。由於回歸是大多數機器學習研究的起點,這意味著你可能在還沒意識到的情況下,就已經在做統計假設檢驗了。

在本文中,我將通過舉例說明如何從回歸的角度來考慮常見的統計檢驗,從而集中討論統計檢驗的最後一步。

二、快速回顧線性回歸

在線性回歸中,我們建立特徵x和響應變量y之間關係的線性模型。

這個模型具有統計學意義,因為

被設為隨機參數。

普通最小二乘法(OLS)中噪聲項假設為正態分布

這是一個數學模型,這也是一種精確表示我們對數據集進行假設的方法。每當我們建立一個模型時,記住George Box這句名言大有裨益:

所有模型都是錯的,但其中有一些是有用的。(All models are wrong, but some are useful)

模型是對現實世界複雜性的抽象和簡化,正因為是一種簡化,所以模型總是不能完全反映現實問題,但利用它們可能捕捉到一些重要的想法。

讓我們先看一個1991至2018年 NBA選秀的數據集案例。我們可以看看選秀次數和每場比賽平均職業積分之間的關係,下面的散點圖以及數據的最佳擬合回歸線顯示了這一關係。

1991-2018年737個NBA球員的選秀次數及其職業場均得分(PPG)平均值的線性回歸分析

注意,這些點隨機抖動以避免在散點圖上重疊

最佳擬合回歸方程如下:

最佳擬合線性回歸模型

線性回歸的最佳擬合通常是通過最小化殘差項的平方來實現的。

N個數據點的線性回歸成本函數

這裡我不再討論成本函數的實際最小化原理。可以說,利用線性代數的一些技巧,能夠很快找到此成本函數的全局最小值,這為我們提供了一些最佳的斜率和截距擬合參數。

三、分類變量回歸

我們也可以對本質上是分類的特徵進行回歸,這裡的訣竅是對分類變量進行所謂的獨熱編碼,其思想是將分類級別轉換為指標變量(

)。如果輸入屬於指定的級別,則這些值為 1,否則為 0。

例如,對於NBA選秀數據,可以將「選秀號碼」列拆分為樂透區選秀(≤14)和非樂透區選秀(NL)。

然後我們可以找出這兩組球員每場平均分的差異。

編碼回歸模型,如果不是樂透區方式指標變量為0,否則為1

下面是顯示回歸線的數據圖。

斜率項 β 反映了每場比賽中非樂透區選秀(x=0)和樂透區選秀(x=1)之間的平均分差異。這裡的小幅上升趨勢意味著,我們有證據表明樂透區選秀者在職業生涯中的平均分數往往更高。

當然,這一趨勢分析是基於隨機抽樣的球員,所以如果我們收集了一個新的樣本,這種上升趨勢可能會消失。為了解決由於隨機採樣而引起的這種變化,我們可以形成斜率的置信區間。

對於上面的樂透區選秀示例,我們找到以下參數置信度為95%的置信區間:

這告訴我們,樂透區選秀球員職業 PPG 減去非樂透區選秀球員的職業PPG,其平均值可能在3.48到4.78之間。這使我們對結果的趨勢(正)和結果的大小(3.5-4.8點)都有一個了解。

我們可以看到斜率區間不包含0,這說明如果重新採樣數據,不太可能看到這種趨勢的逆轉。如果將置信水平從95%提高到99%,將看到置信區間的間隔寬度增加。為了減少錯誤,需要更大範圍的置信水平值。

我們可以玩增加置信區間的置信水平(100-p)%的遊戲,直到區間的左側剛好達到0,此時的參數值叫做p值。

零假設斜率為零的p值可以通過穩定增加置信區間的寬度,直到接觸零假設區域確定

P值給出了原假設為真(即Ho:β=0)時觀察數據的概率P(D|Ho)。

四、雙樣本 t 檢驗

在某些情況下,我們可能只關心結果的趨勢,而不關心結果的大小,這屬於雙樣本 t 檢驗的統計檢驗範疇。在基礎統計學課程中,我們學過使用雙樣本t檢驗來評估這兩種條件下收集的數據,以證明平均值的差異:控制組和實驗組。

為了在 R 語言中執行這個檢驗,首先要從相當大的選秀數據集中創建一個較小的數據集。下面的命令只生成包含100個球員的隨機子集供我們比較,還在數據集中創建一個樂透區列以便進行良好的計算。

設置兩個組進行雙樣本t檢驗,使用相同的隨機種子值可以得到與我一樣的結果

現在已準備好用R語言運行 t 檢驗。

進行雙樣本t檢驗以尋找樂透區和非樂透區選秀的NBA球員的每場比賽平均職業積分的差異

現在注意結果中的 p 值,這裡相對較小的值表明,在原假設的情況下數據不太可能達到P值。

現在,將其作為具有分類特徵的線性回歸進行檢驗。

下面將用R語言顯示簡單線性回歸的summary命令結果。

上面已經強調了重要的一點,將其與我們使用雙樣本t檢驗得到的結果進行比較,t值(直到符號)和p值是一樣的!

另外,使用R語言查看回歸的summary結果時,注意到summary結果的最後一行重複了相同的p值,這是在整個回歸模型上運行 F 檢驗的結果。

通過檢驗,可以知道模型中的任何特徵是否在統計學意義上偏離零。在這個簡單的例子中只有一個特徵,因而基於模型的F檢驗和基於樂透區特徵的T檢驗等價,但兩者在多元回歸(超過1個特徵)中將有所不同。

五、方差分析與多元回歸

假設我們想評估球員位置對他們職業平均得分的影響。首先,我們應該清理數據集中位置列的級別。

使用R中的forcats包清理位置(Pos)列的級別,這裡把一些類別合併在一起,得到C,F,G作為位置

然後,我們可以繪製按位置劃分的職業得分箱形圖:

位置對NBA球員職業得分影響的箱形圖

我們可能想知道這些組的均值是否確實不同,或者觀察到的差異是否也可以通過抽樣誤差來解釋。在經典統計中,我們通常會進行單向方差分析(方差分析)。利用R語言很容易實現:

利用R語言做方差分析,注意p值在最右邊且p=0.0813

現在也可以將其作為回歸問題來處理,回歸模型有以下形式:

通過α截距值可以得知中心的平均值,通過兩個斜率可以得知相對於中心值的點。

以上操作在R語言底層完成,下面是輸出:

雷鋒網雷鋒網

比較回歸輸出和方差分析輸出中的最後一行(F檢驗),我們再次看到同樣的結果!

由此得知單向方差分析只是具有兩個以上級別分類特徵的線性回歸模型。使用的檢驗有一個原假設,即所有斜率都為零。

六、雙因素方差分析

在雙因素方差分析中,使用兩個分類特徵來預測連續響應變量。

使用Tm(選秀團隊)列和Pos(位置)列來處理選秀數據集,雙因素方差分析需要更多的數據來擬合模型,因此我們將使用完整的數據集,而不是經過刪減的數據集。首先運行下面的兩個命令來清理兩個分類特徵級別。

利用forcats包清理整個選秀數據集的團隊列和位置列

在這種情況下,線性模型的形式是:

第一個總和是虛擬編碼的團隊變量疊加形成,第二個總和是位置類別疊加形成,上述結果很好地在R語言底層完成,要進行分析,我們可以使用以下方法構建線性模型:

建立雙因素方差分析線性模型

這裡唯一的變化是應該在模型上使用anova( )命令,而不是通常的summary( )命令,這將顯示以下結果:

Tm和Pos所在行的數據證實了位置與職業積分有密切關係,但沒有足夠的證據證明團隊與職業積分有關。現在可以看到如何使用多元回歸進行多因素方差分析。

七、協方差分析

如果在回歸中添加一個連續的特徵,那麼就會變成協方差分析(ANCOVA)。進行協方差分析的目的是,已知位置與NBA球員的PPG相關性大,但是這可能只是因為某些位置的球員比其他位置的球員的上場時間更多。

可以通過在模型中包含此特徵來控制上場分鐘數的作用效果。首先,重新縮放上場分鐘數(MP)列,使平均值為零,標準差設為1。這樣設置的目的是,因為線性模型中的截距會給平均每場比賽0分鐘的中鋒帶來職業PPG,在其他方面真的沒有作用。

現在,通過截距信息可以解釋每場比賽中平均上場時間的中鋒的平均PPG含義。也許只能解釋一小部分,但對於模型理解更有意義。

縮放「上場分鐘數」列

這是一個比賽時間和每場得分之間的關係圖,位置以顏色顯示。

現在來建立線性模型:

將產生以下結果:

通過第一行數據可以得知即使在控制了上場時間後,位置對職業PPG也有著統計上的顯著影響。

八、比例和廣義線性模型

我們也可以將其他基本的統計過程表述為回歸。然而,我們還需要利用所謂的廣義線性模型(GLM)來進行更進一步的研究。

首先要生成一個偽數據集。下面的命令生成一個R數據框,用於存儲假想比賽的罰球結果和球員姓名,其中球員A和B各投100個罰球。

球員B的命中率僅為77%,而球員A的命中率則為80%,儘管這有抽樣誤差。可以使用R語言中的table命令查看隨機繪製的結果:

這裡可能需要進行兩個樣本的比例檢驗,以檢驗兩位球員百分比不同的假設。

可以使用R語言中 prop.test 命令完成檢驗。

用R語言進行雙尾比例檢驗的結果,這裡簡單地使用兩個比例相等的原假設進行檢驗,也可以作為具有相同p值的卡方檢驗來完成。

現在是回歸方法,如上所述,由於響應變量不再是連續的,需要調整回歸來處理二進位輸出。實際上,我們希望模型產生一個概率

這裡可以使用邏輯回歸來實現,通常的回歸形式是:

在邏輯回歸中,輸出

應該給出給定

特徵時

取值是1的概率。如上所述,我們會有疑問,因為模型的右側輸出

範圍的值,而左側應該位於[0,1]範圍內。

因此,要使用上述模型就需要將輸出從[0,1]轉換為整個實數R範圍。logit 函數是最佳選擇,因為它的邏輯回歸映射為:[0,1]→R。

因此,如果輸出是由logit函數

產生的,可以使用多元回歸技術。這是邏輯回歸的基本思想:

最後,可以利用logit函數的倒數,得到實際的概率:

其中,

通過以下方式給出:

邏輯回歸是廣義線性模型(GLM)一系列技術中的一個實例。廣義線性模型包括一個線性預測函數

和一個將線性預測函數映射到響應變量的連結函數g( ):

這用R語言很容易實現,只需將lm( )函數改為glm( )函數,並指定要使用的連結函數。

使用logistic回歸和模型比較進行兩樣本比例檢驗,注意p值與上面得到的結果相匹配

在上述情況下,我們實際擬合了兩個邏輯回歸,第一個是實際想要建立的模型,第二個與雙樣本比例檢驗的原假設等價。僅擬合截距(1以上),兩個球員的罰球百分比必須相同。

然後使用anova( )函數來比較建立的模型和原假設模型,指定方差分析使用似然比檢驗(LRT)。當然,通常要注意取與上面的比例檢驗相同的p值。

另外,通過這個例子展示了如何使用回歸模型和anova命令來進行模型選擇。實際上,這是我們一直努力的方向,因為原假設一直是一個模型,以前不需要在anova命令中指定它,這也向我們展示了如何開始將建立的模型與更複雜的原假設模型進行比較。

通過模型選擇可以比較模型並超越普通的原假設模型。

九、為什麼這很重要?

數學模型自然級數的花式圖解如下所示:

RIP模型,讓此成為研究深度學習的警示!

當我們被迫將統計檢驗視作數學模型時,假設就成為了最核心的部分。研究者所希望的,是能在模型生命周期的前兩個階段維持更長的時間。而且,這就意味著我們可以停止記憶一堆統計檢驗知識。

創建模型,從停止死記硬背開始。

大家如果想繼續學習該主題,強烈建議查看 Jonas Lindelv 的網站:

https://lindeloev.github.io/tests-as-linear/教科書方面,我推薦《Statistical Rethinking》,另外基礎統計學類的書籍,大家可嘗試閱讀下《All of Statistics》;而一些更高級的回歸分析方面的書籍,我建議大家關注一下Gelman和Hill兩位學者。

via https://towardsdatascience.com/everything-is-just-a-regression-5a3bf22c459c?gi=fdba1e4d53ca雷鋒網雷鋒網雷鋒網

相關焦點

  • PowerMeter幫助證明了這種訪問方式的重要性並創建了某種模型
    近期涉及PowerMeter幫助證明了這種訪問方式的重要性並創建了某種模型內容備受矚目,很多讀者對此也很有興趣,現在給大家羅列關於PowerMeter幫助證明了這種訪問方式的重要性並創建了某種模型最新消息。
  • 什麼是BIM模型創建的必備條件?
    如今的施工圖,附帶有三維模型,這也是建築信息模型(BIM)的關鍵概念之一。雖然BIM目前正處於發展階段,且正在逐漸融入到新項目中,但對現有結構而言,BIM技術仍具有不確定性,這就像是企業擁有一座生產力不斷提高的工廠,工廠外部建築與廠內新機器設備相輔相成,工廠外部建築的改造有可能事關這家企業的生死存亡;另一種可改進中央數字模型的例子是對橋梁進行常規檢查。
  • 物理學家創建出能夠預測任何分子特性的模型
    由中國臺灣大學物理系副教授拉希德·瓦裡耶夫領導的團隊創建了一個計算分子光物理特性的模型,該模型適用於任何性質的分子由於引入了諧波效應,該模型甚至可以在分子合成之前就預測其特性,而無需進行實驗。對分子的光物理和光化學性質的了解是物理學、化學和生物學的許多領域所必需的。這種了解尤其被用於開發OLED結構和光敏劑等任務中,其中有必要創建一個有效生成殺死癌細胞的氧化劑的方案。
  • 雷射背包掃描周圍環境並創建即時3D模型
    據了解,加利福尼亞大學伯克利分校研究人員研發了一個雷射背包可以掃描周圍的環境,並創建即時3D模型。該研究團隊還支持在谷歌地球上創建3D視圖的技術。  戶外定位可以利用GPS,室內的成像就不能再依靠GPS了。
  • 「死記硬背」英文怎麼說
    但是中國教育家稱我國在改變死記硬背的應試模式這條路上依然任重而道遠。上海學生在近日的全球調查中也許拔得頭籌,但是中國教育者們並沒有因此而感到欣喜,他們稱我國在將死記硬背的應試模式轉變為創新模式這條路上依然任重而道遠。在上面的報導中,rote learning就是中國學生所熟悉的「死記硬背」,指不用理解力而依靠記憶力一味死板地背誦書本的「機械學習方法」。
  • 俄UEC公司將為TV7-117發動機創建第二級數字孿生模型
    導讀:據aviaport網站10月26日報導,俄羅斯聯合發動機公司將創建TV7-117飛機發動機的第二級數字孿生模型。該研發旨在實現工廠級元素進行虛擬測試,從而確定成本效益的參數,並實現發動機生產的現代化,該項目正在與聖彼得堡理工大學聯合實施。
  • TensorFlow極簡教程:創建、保存和恢復機器學習模型
    在代碼的後半部分,數據需要通過佔位符饋送(feed)入模型。第二點變化是,因為我們的數據量是巨大的,在給定的任意時間我們僅將一個樣本數據傳入模型。每次調用梯度下降操作時,新的數據樣本將被饋送到模型中。通過對數據集進行抽樣,TensorFlow 不需要一次處理整個數據集。
  • 研究人員基於NVIDIA GPU創建了可預測的3D細胞模型
    打開APP 研究人員基於NVIDIA GPU創建了可預測的3D細胞模型 胡薇 發表於 2018-07-10 11:21:24
  • 如何使用邏輯回歸從頭開始創建分類器
    在本文中,我將簡要描述如何使用邏輯回歸從零開始創建分類器。在實踐中,您可能會使用諸如scikit-learn或tensorflow之類的包來完成這項工作,但是理解基本的方程和算法對於機器學習非常有用。現在,我們可以繪製我們的初始數據,其中一個橙色圓圈表示用戶喜歡的電影,一個藍色圓圈表示用戶不喜歡的電影:決策邊界為了確定我們的決策邊界有多好,我們需要為錯誤預測定義一個懲罰,我們將通過創建一個成本函數來實現。我們的預測如下:當P ≥0.5,我們輸出1,當P <0.5,我們將輸出0,其中W 0,W 1,W 2是需要優化的權重。
  • 美日創建迄今最大DNA基因模型
    雖然原子模型是解決這個問題的關鍵,但在此尺度上模擬DNA並非易事,需要極強的計算能力。三本松等人在洛斯阿拉莫斯國家實驗室的「三一」(Trinity)超級計算機上進行了此次突破性模擬,該機在2018年全球超算500強上名列第六。來自該國家實驗室、新墨西哥州聯盟、紐約大學和日本理化研究所(RIKEN)計算科學中心的研究人員,收集了大量不同類型的實驗數據,創建出這一全原子模型。
  • 中國科學家創建世界首例生物節律紊亂體細胞克隆猴模型 (1/7)
    中國科學家創建世界首例生物節律紊亂體細胞克隆猴模型 繼2017年底在國際上率先攻克非人靈長類動物體細胞核克隆這一世界性難題、成功誕生世界上首個體細胞克隆猴「中中」和第二個克隆猴「華華」之後,中國科學家又經過努力,首次利用基因編輯方法,並通過體細胞克隆技術,獲得5隻生物節律核心基因BMAL1敲除的克隆猴,在國際上首次成功構建一批遺傳背景一致的生物節律紊亂獼猴模型
  • 再見卷積神經網絡,使用Transformers創建計算機視覺模型
    長期依賴和效率權衡 在NLP中,神經語言模型的目標是創建對文本中的單詞語義儘可能多的信息進行編碼的嵌入。 通常會訓練這些模型的大型版本並針對不同的任務進行微調,因此即使在數據匱乏的情況下它們也很有用。即使具有數十億個參數,這些模型的性能似乎也不會飽和。模型越大,結果越準確,並且模型呈現的新興知識越有趣(例如GPT-3)。
  • 我國科學家創建世界首例生物節律紊亂體細胞克隆猴模型
    中國科學院神經科學研究所的孫強研究員與劉真研究員、張洪鈞研究員合作,三個研究團隊經過三年努力,利用基因編輯技術(CRISPR/Cas9),成功構建了世界首例核心節律基因BMAL1敲除獼猴模型。該項成果1月24日在線發表在權威綜合英文期刊《國家科學評論》上。
  • 孩子還在「死記硬背」?了解「記憶術」的4個原則,從此高效記憶
    也就是所謂的死記硬背。那什麼是死記硬背,死記硬背的好處多嗎?有什麼更好的方法來幫助我們的孩子記憶呢?什麼是死記硬背死記硬背的意思就是我們的孩子在背誦記憶任何東西的時候,不會運用任何記憶的方法,只會一味的死板的背誦課文。
  • 創建一個3D角色模型很難
    模型 2、了解人體結構。 3、有了基本的結構,就要開始了解各個部位之間的關係和變化,這就要了解肌肉的走向了。 4、可以像建其他簡單模型一樣嘗試建模,建好之後不管怎麼樣,只要像就可以了,接著就參考別人的布線圖,看看人家為什麼是這樣分布來修改不合理的地方。 5、最後就是賦予材質了。
  • 為什麼用記憶宮殿記東西比死記硬背記得牢?
    這就是我們死記硬背的一個缺陷,那就是用死記硬背的方法背東西的時候,你會感覺你所背的很多材料長的都很像,這裡我就幾個比較簡單的例子:在背誦英語單詞的時候,我們會發現很多英語單詞長得非常相似,但是它們的意思卻天差地別,比如cup杯子、cap帽子這兩個單詞是長的非常像的2個單詞,如果單純死記硬背的話,頂多是抄幾遍或者大聲讀出來c.....u....p.....杯子,c.....
  • 毫不起眼的氘元素,緣何成為構建宇宙大爆炸模型的重要基石?
    大家在初中的時候都學過門捷列夫的化學元素周期表,現在回憶起來一定還是滿滿的枯燥,估計沒幾個人能對化學元素周期表真正感興趣,除了死記硬背,實在沒有什麼好方法能讓你記住它。但在現在看來,化學元素周期表的創建堪稱史詩級的巨作,因為它明確告訴了我們這個如此宏偉壯麗的宇宙所有已知的成分,甚至通過分析這些成分,還能知道宇宙在誕生之初到底發生了什麼。當前宇宙學的主流理論是宇宙大爆炸理論,但很多人對現代科學持懷疑態度,有些人更是喜歡挑戰宇宙大爆炸理論,認為它是胡說八道。
  • 手把手教程:如何從零開始訓練 TF 模型並在安卓系統上運行
    本教程介紹如何使用 tf.Keras 時序 API從頭開始訓練模型,將 tf.Keras 模型轉換為 tflite 格式,並在 Android 上運行該模型。否則,當它在你的 Android 應用程式上不能工作時,你無法分清是你的 android 代碼有問題還是 ML 模型有問題。3.在 Android 上實現 tflite 模型現在我們準備在 Android 上實現 TFLite 模型。
  • 還在死記硬背?讓專家告訴你提高記憶力的方法
    死記硬背是靠聲音和熟練度來幫助大腦記住的,我們過去要背一些東西,不管是學習當中的課文故事還是文言文,包括生活工作中的一些材料,只要你不能夠把它一氣呵成背下來,發現中間有一個詞想不起來,整個大腦的記憶就會斷片了。究其原因是我們的大腦不理解大腦,就是不理解這個東西怎麼被記住的,就是記憶的步驟,大腦是沒有這個概念的。
  • 如何創建用戶模型:問卷調查與數據分析
    最近閒來想和大家討論討論關於創建用戶模型的事情。一、用戶模型的建立與問卷數據的採集Persona:(Persona是用戶模型的的簡稱)是虛構出的一個用戶用來代表一個用戶群。一個persona可以比任何一個真實的個體都更有代表性。首先,用戶模型是對用戶的一種劃分,是將一個類的概念轉化成為一個角色。