[道贏·科技] | 鋰電生產製程數據不服從正態分布,正常嗎?

2020-12-07 電動邦

在日常工作中,正態分布是我們最為常見的數據分布類型。但很多時候,我們會發現自己的數據分布樣式 」千奇百怪「 ,與正態分布相比相去甚遠。

那麼,一組數據不服從正態分布,正常嗎?如果不服從正態分布的數據暗示著某些異常的話,發生的又是什麼問題呢?

為了回答這些問題,先要從正態分布的產生原理說起......

正態分布是如何產生的?

現代統計學脫胎於古典概率論,而後者,則起源於賭博。

假設我們有一粒骰子,每次將其拋出並記錄朝上的數字,當我們拋了非常多次之後,就會得到從1到6的整數均勻分布:

如果我們每次投兩粒骰子,並統計兩粒骰子和出現的次數,我們會發現兩粒骰子和的取值是2~12之間的整數,得到2(1+1)和12(6+6)點數的可能性最低,得到中位數7(有1+6、6+1、2+5、5+2、3+4、4+3六種情況)的概率最高,作圖如下:

如果我們拋三粒骰子,就會發生數據的分布更加類似於我們所熟知的 「中間多、兩邊少、左右對稱」 的正態分布樣式:

拋四粒骰子很多次,求和的分布,則與正態分布擬合的更好:

經過觀察我們可以發現:當多組均勻分布求和後,就會產生正態分布。

其實不光均勻分布求和會得到正態分布,多個正態分布求和,不論每個正態分布之間的平均值和標準差差異有多大,得到的還是正態分布。

也就是說,正態分布擁有類似於生物的 「繁殖」 功能,從而生生不息,成為自然界中最為常見的分布,並被冠以 「normal distribution」 (直譯為正常分布)的名字。

如果將上述結果進一步演繹,我們就能得到正態分布的產生原因:當一組數據同時受多個因素影響,且每一個影響因素對這組數據的影響都是基本對稱的、同時影響幅度又都不大時,這組數據就會服從正態分布。

哪些製程數據應該服從正態分布?

從上面的分析我們可以知道,如果一個製程數據同時被多個對稱因素影響,並且每一個影響因素都無法起到決定性作用時,這個製程數據就會服從正態分布。

在鋰電行業中,常見的服從正態分布的數據有:

容量分布 —— 影響容量的因素有很多,例如正極塗布重量、負極塗布重量、正極壓實密度、負極壓實密度、保液量、分容櫃精度等。在這些因素中,雖然正極重量、正極來料影響程度很大,但是由於這兩個因素往往也是服從正態分布的,因此,並不影響電池容量服從正態。

自放電分布 —— 影響自放電的因素包括原材料磁性雜質含量、極片切割的效果、車間的粉塵影響、測試條件等。這些因素每一個都像一粒拋出的骰子,合在一起的結果,就是自放電的正態分布。

內阻分布 —— 受原材料導電性能、導電劑添加量、塗布重量、電解液電導率、焊接效果等影響。

輥壓厚度 —— 受來料粉體壓實、攪拌的均一性、塗布厚度、輥壓機震動等的影響。

......

找到一個本該服從正態分布的製程能力數據,要比找到一個不該服從正態分布的製程數據,簡單的太多太多。但我們實際遇到的情況卻是:生產車間導出的上述製程數據,很少會真的服從正態分布。這又是為什麼呢?

為什麼我的製程數據不服從正態分布?

很多時候,我們會遇到這種情況:

自己家的製程數據不服從正態分布也就罷了,同時還會像規格限一邊偏移(上圖樣式為正偏),從而造成大量製程數據的不合格,這是為什麼呢?

中德睿黑帶大師唐徵老師在向學員們解釋該類問題時曾說:對於這類問題的分析,首先要回歸到正態分布的本質上來,正態分布到底是如何產生的呢?

正態分布產生的原理,在於一組數據同時受多個影響因素影響,且每一個影響因素對這組數據的影響都是對稱的、又都不至於佔主導作用,此時就會產生正態分布。

上述描述中,一共有三個關鍵要求:

1)多個影響因素

2)每個因素對數據的影響都是對稱的

3)沒有哪個非對稱的因素佔據著主導影響

以自放電製程數據正偏為例,自放電有很多影響因素,以正極磁性雜質含量為例,如果磁性雜質含量在一個比較合理的範圍,那麼來料磁性雜質的波動,就會近乎於左右對稱的影響自放電大小:雜質少一點,自放電低一點;雜質多一點,自放電高一點。這時的波動屬於過程的隨機波動,對產品的性能影響很小。

但是如果某一批來料的磁性雜質很高,那就危險了:電池自放電會因此大幅增加。但是某一批來料磁性雜質很低呢?也不至於讓自放電分布顯著降低,因為正極雜質對自放電的影響只是一個方面,還有負極、導電劑、空氣粉塵等各個方面的影響,電池自放電不會因為正極磁性雜質的異常偏低而顯著降低,卻會因為正極磁性雜質的異常偏高而顯著變高。

也就是說,正極磁性雜質,一定程度的小範圍波動時,對自放電的影響是對稱的,但是當出現了異常偏高或偏低的波動時,影響就不對稱了,且過高的正極磁性雜質含量還很可能成為電池自放電(異常偏高)的主要影響因素。此時,正態分布產生的原理被破壞,自放電自然也就難以服從正態分布了。

不只正極磁性雜質含量異常偏高,其它原材料的雜質異常波動、生產粉塵的異常波動、刀模的過度磨損、設備引入了金屬雜質等等異常情況發生後,對電池自放電的影響都不是對稱的,都會提高電池自放電的偏大比例,從而讓本該服從正態分布的自放電分布產生正偏。

同理,容量容易負偏(出現好多低容的)、內阻容易正偏(出現好多高內阻的),也都是發生了前工序的異常情況,這裡就不再一一列舉了。

從六西格瑪的角度來說,本該服從正態分布的製程數據沒有服從正態分布,那一定是出現了異常變異,此時為了提高良率、改善品質,應該儘快識別出異常變異的來源,並將其消除。

當然,異常變異的產生、識別及改善,絕非一篇文章能解釋的清楚。接下來,我們繼續以數據分布為切入點,介紹幾種常見的不服從正態分布的製程數據的產生原因。

數據這個熊樣,發生了什麼?

一、正偏

簡介

:正偏是最為常見的異常分布類型之一,其概念指的是右側數據明顯偏多並出現拖尾,而左側則基本不存在拖尾。

舉例:正偏數據是製程過程中非常常見的情況,例如如下的電芯內阻分布:

產生原理:對正偏分布的分析,其重點在於 「為何出現了很多數值偏大的點」。上文對此已有了介紹:當過程的波動都在控制範圍之內時,過程的波動一般會對稱的影響輸出;但是當出現了異常波動,例如對於內阻而言的虛焊和焊穿,則都是會造成內阻增加,從而讓輸出不再對稱,引發正偏。

數據特點:從大方向上看,我們很容易讓內阻偏高,但卻很難做出來內阻很低的電池;我們很容易讓電池自放電偏大,卻很難做出來自放電偏小的電池;我們很容易做出來低容電池,但是想讓電池容量比設計值高10%,則幾乎沒有可能。因此,我們可以將內阻的上限、自放電的上限、容量的下限,稱為數據的 「可惡化側」,一組製程數據,除了測試異常外,一般都是向自己的 「可惡化側」 產生偏態。

改善:教科書般的改善方式是通過控制圖的持續監控,第一時間識別出出現異常變異的數據,並現場查找原因。但這一方法對於鋰電容量、自放電等異常卻不適用,因為電池做到檢測工序,前工序的一一生產順序早已混的一塌糊塗,控制圖已經不能繼續使用了。

另外一種方法,可以找到多個異常數值最大的電芯拆解(例如內阻最高的電芯、自放電最大的電芯),從中可以比較容易的找到幾個異常的原因,然後再針對性的進行改善。

而對於異常數據不是特別大、分布尚未離群的產品而言(如本例中內阻為22.2毫歐的電芯),很難界定其到底是屬於異常產品還是合格品的正常波動,所以分析的價值要小很多。

二、負偏

簡介

:左側數據明顯偏多並出現拖尾,同時右側數據相對於左側偏少。

舉例:最常見的負偏數據,莫過於電池的容量分布了:

產生原理:負偏及正偏分布,是最為常見、同時也是最為棘手的問題,因為其數據產品偏態的原因,往往是同時發生了多個異常,而每個異常的比例又不高,一些低容電芯,前工序甚至乾脆沒有產生 「不合格的製程指標」,而僅僅是恰巧同時發生了 「塗布偏上限、輥壓偏下限(從而造成壓實過大)」  多個極端情況的疊加而已。

因此,即便前工序都是100%的合格品,做到後工序,不合格產品亦或是明顯偏離正態分布的產品,還是會有出現的概率。

改善:由於偏態數據產生的複雜性,因此對其的改善也難以一蹴而就。從總的方向來看,設計方面要留有足夠的餘量,這樣即便過程產生波動,也不至於造成對輸出的非對稱影響。

製程方面,要保證穩定,穩定的含義並不是指 」過程數據全部在規格限內「,同時也要求製程數據的均值與目標均值接近,不能出現一批偏上限、一批偏下限的情況,因為後者很容易造成多個工序疊加後的不良。

只要設計餘量充足,製程能力較高且比較穩定,過程中就不會產生過多的特殊變異,從而讓前工序波動對檢測指標的影響一直保持在 「影響程度不大,且左右對稱」 的程度,並保證檢測指標的正態性及合格率。

三、雙峰

簡介

:「雙峰」實際上並不是一種對數據分布分布形狀的標準描述,原則上應該視第二個峰到底是偏大還是偏小,將其列入至正偏或者負偏的範疇。但是由於雙峰的產生原理與上面介紹的正偏、負偏有差異,因此將其單獨列出。

舉例:前文提到的自放電分布,就屬於雙峰的典型例子:

產生原理:雙峰的產生,說明過程中產生了引發大量產品特徵均值異常漂移的特殊變異。例如原材料批次間的巨大差異,生產環境及條件的顯著變化等。與傳統正偏或負偏相比,雙峰的特點是異常數量非常多、與正常產品數量達到了一個量級,從而二者「並駕齊驅」,產生雙峰。

數據特點:從上面實際的數據可以發現,異常峰的產品數量要少於正常峰,另外更重要的是,異常峰的標準差一般也會大於正常峰。也就是說,當發生異常時,不僅異常產品的均值會有顯著變化,產品標準差也會變大。

改善:異常峰產生的原因,往往只有一個,因此只要將其識別並改善,就容易消除雙峰。由於異常峰的產品比例一般很高,因此主要從原材料、生產測試環境、工藝變更這些可能引發產品大批量異常的大方向進行尋找,個別設備的差異、生產參數的偶爾波動,一般不至於產生雙峰這一異常。

改善了雙峰,並不一定會同時消除其它一切特殊變異,因此一些少數量的正偏異常可能被雙峰掩蓋,當雙峰消除後,這些正偏異常會重新顯現,並繼續困擾工程人員。

拓展:當異常峰與主峰的距離產生變化時,雙峰的樣式也會發生變化,下面用minitab自動生成一些不同距離的雙峰數據,供大家參考:


四、高峰度

簡介

:「峰度」是描述數據形狀的一個物理量之一,當峰度過大時,數據相對於正態分布而言,會顯得「中間數據過多、雙肩位置數據過少」,感性來看的話,數據擬合曲線會更為細長。

舉例:下列的電壓分布,均值附近位置的概率密度明顯高於正態分布擬合曲線,而兩邊的概率密度又與正態分布擬合曲線差不多,是典型的高峰度數據分布。

產生原理:高峰度其實可以看成是 「均值相等、方差差異大」 的雙峰重疊情況,例如上圖中的電壓分布,其實是兩個正態分布的重疊情況:

與雙峰不同的是,高峰度數據分布的異常峰均值與主峰接近,但方差要大上數倍。單純來料批次差異改變的一般都是均值、惡化標準差的幅度沒有這麼大,根據文武的經驗,高峰度的異常峰一般由測試環境的大幅變化或不同組別產品混批次造成。

數據特點:對於高峰度異常數據,一般會出現在 「受測試環境影響比較大,偏高偏低都容易出現」 的數據中。文武曾見過電壓、自放電數據出現這一異常,因為電壓受溫度影響比較大,環境出現波動時更容易 「上躥下跳」。

改善:乍一看,高峰度數據相對於正態分布而言,1σ至2σ之間的 「肩部」 數據少了,而±1σ的 「頭部」 數據更多了,數據分布更集中了,似乎不需要改善。但實際上,高峰度數據的主要問題不在於頭部數據多了,而在於異常峰的過大波動。將其消滅,製程能力將大幅提高。

五、低峰度

簡介

:高峰度是指數據分布比正態分布擬合曲線更「瘦」,低峰度則是指數據分布比正態分布更「胖」:低峰度數據均值區域概率密度低於正態分布,而肩部數據的概率密度又顯著高於正態分布。

舉例:下列的容量分布,均值位置的數據明顯更為扁平,是典型的低峰度分布。

產生原理:對於低峰度數據分布而言,其很大可能是由多個「均值差異大、標準差接近」的正態分布疊加而成,如下所示:

數據特點:對於低峰度數據分布的分析,要特別注意其左右兩側數據的遞減幅度是否一致。若像本例中,左右兩側數據遞減幅度一致,則說明不同正態分布的差異主要為均值,而標準差沒有惡化,過程 「只是漂移、而沒有變差」 ,分析方向上要往塗布面密度波動、測試溫度波動等這類 「主要造成均值變化」 的角度去突破。

而如果數據在 「可惡化側」 發生了惡化,既數據明顯發生了正偏(K值、內阻等)或負偏(容量等),則說明此時數據不僅產生了漂移、還發生了惡化。以容量為例,會同時造成其均值和標準差變化的參數包括壓實過高、保液量過低、負極過量不足等。

改善:如果發現左右兩側數據概率密度遞減速度接近,則將主要精力集中於識別出多組數據間均值差異大的原因。以上述容量分布為例,造成多組容量分布均值差異的原因,最大的可能性在於塗布時多卷極片的敷料重量均值差異過大,當這幾卷極片的電池混在一起後,就出現了低峰度數據分布。

如果發現數據在可惡化側產生了偏態,則要重點考慮那些會同時造成造成均值漂移和標準差變大的原因。當然哪些因素會僅僅造成均值的漂移、哪些會同時造成標準差的惡化,是長期經驗的積累,遇到具體問題時需要具體討論。

六、刀鋒

簡介

:這並不是一種 「教科書」 式的數據分布,該數據的一側概率密度很低、像刀鋒一樣,另一側則有拖尾現象。

舉例:一批電池由於導電劑加少而發生了高內阻,數據符合刀鋒分布的樣式。

產生原理:與前面的幾種分布不同,刀鋒型數據的產生無法用幾個正態分布的簡單疊加來解釋。以上述導電劑加少造成的內阻偏高為例,數據左側的低內阻電芯的數量很少、從而產生了刀鋒形狀;右側則由於導電劑加少、一點點的異常波動都會讓內阻顯著增加,從而數據又嚴重正偏。

對於這類異常,一般是產生了根源的設計、製程問題(例如本例的導電劑加少了),讓數據徹底偏離了正態分布的樣式。

改善:數據出現了刀鋒型分布,一定是發生了與設計相關的根本性變異(正常的導電劑添加量,不至於造成如此程度的正偏+不對稱,這種基礎的研究,索尼三十年前就做完了),因此,主要從設計端或與設計相關的製程工序排查異常產生的原因。

七、鋸齒

簡介

:直方圖的條柱成有規律的異常凸起。

舉例:一批電池的內阻在製作直方圖後,出現了這種「詭異」的情況:

產生原理:產生鋸齒形的一種常見原因,是測量工具的分辨力(最小刻度,例如千分尺的分辨力為1um,萬分尺為0.1um)不夠,能夠讀出的不同數值太少,而直方圖的橫坐標組數又太多,最終產生了鋸齒狀。

但是對於上面的詭異數據而言,測量系統是電壓內阻分選儀,其分辨力0.01毫歐一定是足夠的,那又為何會產生這種情況呢?

改善:經過對原始數據的分析文武發現,雖然測量工具的分辨力是足夠的,但是由於產品的數量太多了,而minitab又是通過數據量來自動給出橫坐標組數的,數據量很大時,橫坐標組數就會非常多,從而造成數據成鋸齒狀。只要手動將橫坐標組數減少,就可以得到正常的分布圖。

結語

雖然我們無法直接通過數據分布類型來解決實際問題,但是對正態分布產生原理及異常分布產生原理的研究,可以幫助我們找到進一步分析和解決問題的方向,從而大幅加快我們解決問題的速度。

相信大家實際遇到的問題,遠比文武本文介紹的複雜的多。各位的寶貴經驗,也歡迎在文末或微信群裡留言討論。

本文授權轉載自:知行鋰電,作者:中德睿企業管理諮詢 文武齊龍老師

相關焦點

  • 測量值不服從正態分布該怎麼辦?
    在統計過程控制中,為什麼數值不服從正態分布,如果不服從正態分析,我們又該怎麼處理?問:在統計過程控制的活動中,計量型特徵值不服從正態分布是怎麼回事?答:正態分布是我們基於樣本信息,對其背後虛構的總體中數值的分布情況進行描述用的,當樣本數據證明背後的總體不服從正態分布時,我們應該先考慮數據的來源。1、在統計過程控制中,為什麼特徵值不服從正態分布?
  • 正態分布的常用數據 - CSDN
    #尋找真知派#如上一篇文章所述,樣本所屬總體服從正態分布是數據分析和數據挖掘等數據處理的重要前提。如果我們採集的樣本並不能確認其總體是否服從正態分布,那麼數據處理的結果就是不可靠的。因此,對樣本數據進行正態分布檢驗十分必要。
  • 正態分布及其應用
    ,最終趨向於圖3「中間高,兩邊低」的「鍾型」曲線,我們將這條曲線稱為正態分布密度曲線,簡稱正態曲線。對稱軸所在的位置正是數據的平均值,用字母μ表示,例如我們的平均身高等。對比圖4中的兩條正態曲線,我們可以看出虛線對應的平均值更大。
  • 「學生的成績一定要服從正態分布」,這是我在大學聽到最狗的話
    我本來是明白這個問題的,結果昨天,我終於知道問題的答案了,原來大學生的成績必須服從正態分布,咱們一直都活在被正態分布支配的世界裡。什麼是正態分布?通俗來說,成績服從正態分布的意思是,大部分人都處於不上不上的分數水平,高分只能有那麼兩三個人。甚至有的學校必須要求老師強制掛掉排名最後的幾位同學,哪怕他們考得並不差。
  • 數據正態分布的意義 - CSDN
    什麼是正態分布關於什麼是正態分布,早在中學時老師就講過了。通俗來講,就是當我們把數據繪製成頻率直方圖,所構成曲線的波峰位於中間,兩邊對稱,並且隨著往兩側延伸逐漸呈下降趨勢,這樣的曲線就可以說是符合數學上的正態分布。由於任何特徵的頻率總和都為100%或1,所以該曲線和橫軸之間部分的面積也為100%或1,這是正態分布的幾何意義。
  • 副教授懟教務辦改低學生分數服從正態分布要求 校方回應
    據中南大學官網信息,上述吳姓教師系中南大學軟體學院特聘副教授,澳大利亞蒙納什大學助理教授,IBM算法工程師,主要研究方向包括無線網絡、軟體工程、大數據研究、醫療信息學。  「我是老師,不是行政辦考核的工具。18級軟體工程的孩子們,我很喜歡!答卷很好,我不可能給地方!什麼分數要服從正態分布,抱歉,我只在意學生!同學們喜歡可以擴散。」
  • 成績必須服從正態分布,中南大學教師怒懟教務辦,網友反應一邊倒
    成績必須服從正態分布,中南大學教師怒懟教務辦,網友反應一邊倒 現在,有很多大學要求,學生的成績必須服從正態分布。注意,不是大學成績「呈現為」正態分布,而是「要求」教師打出的成績實現正態分布。如果學生成績不符合正態分布,教師將無法錄入成績,這一規定令無數學生與教師苦不堪言。
  • 副教授懟教務辦要求「改低學生分數服從正態分布」,中南大學調查
    據中南大學官網信息,上述吳姓教師系中南大學軟體學院特聘副教授,澳大利亞蒙納什大學助理教授,IBM算法工程師,主要研究方向包括無線網絡、軟體工程、大數據研究、醫療信息學。 「我是老師,不是行政辦考核的工具。18級軟體工程的孩子們,我很喜歡!答卷很好,我不可能給地方!什麼分數要服從正態分布,抱歉,我只在意學生!同學們喜歡可以擴散。」
  • 偏度與峰度的正態性分布判斷
  • 一文搞懂「正態分布」所有重要知識點
    從名字說起為什麼叫「正態分布」,也有地方叫「常態分布」,這兩個名字都不太直觀,但如果我們各取一字變為「正常分布」,就很白話了,而這正是「正態分布」的本質含義,Normal Distribution。它太常見了,基本上能描述所有常見的事物和現象:正常人群的身高、體重、考試成績、家庭收入等等。這裡的描述是什麼意思呢?
  • 關於正態分布和貝塔分布的案例介紹
    打開APP 關於正態分布和貝塔分布的案例介紹 賈恩東 發表於 2020-10-12 11:25:57 正態分布 正態分布,是一種非常常見的連續概率分布,其也叫做常態分布(normal distribution),或者根據其前期的研究貢獻者之一高斯的名字來稱呼,高斯分布(Gaussian distribution)。正態分布是自然科學與行為科學中的定量現象的一個方便模型。
  • 第五章 正態分布與正常值範圍估計--第一節 正態分布及其性質
    第五章 正態分布與正常值範圍估計 第一節 正態分布及其性質   一群變量值可能用平均數描述集中的位置,用變異指標描述離散情況,而頻數表則把變量值的分布描繪得更具體。為了直觀還可把頻數表畫成直方圖。如第四章中曾將7歲男童坐高的頻數分布繪成圖4.1。
  • 如果數據分布是非正態的怎麼辦?用切比雪夫不等式呀!
    因為無論是正態分布的性質還是表達式都非常的簡潔:它的均值(mean)、中值(median)和眾數(mode)都相同只需要用兩個參數就可以確定整個分布所以問題在哪呢?這看起來都挺棒的啊,有什麼問題嗎?問題是通常是,你可能會找到特定的數據集分布,這些分布可能不滿足正態性,即正態分布的性質。但由於過度依賴於常態假設,大多數業務分析框架都是為處理正態分布數據集而量身定做的。假設你被要求檢測來自某個流程(工程或業務)的一批新數據是否有意義。所謂「有意義」是指新的數據是否屬於它的「預期範圍」,或者在它的「預期範圍」之內。
  • 幾種分布概述(正態分布/卡方分布/F分布/T分布)
    ),若隨機變量X服從一個數學期望為μ、方差為σ^2的高斯分布,記為N(μ,σ^2)。其概率密度函數為正態分布的期望值μ決定了其位置,其標準差σ決定了分布的幅度。我們通常所說的標準正態分布是μ = 0,σ = 1的正態分布。當μ=0,σ=1時,正態分布就成為標準正態分布N(0,1)。概率密度函數為:
  • 智商有正態分布效應很正常,不正常的是學習成績也有正態分布效應
    智商有正態分布效應,這很正常,但不正常的是學習成績也有正態分布效應。所謂的正態分布,意思就是普通人佔據了絕大多數,傻子和天才都是極少數。作為天生的因素,正態分布是可以理解的,但是後天的教育導致的成績,仍然呈正態分布,這就讓人無法容忍了。我個人親身的體會,在當時我們縣有兩所中學A和B,A的分數線高出了B很多,基本只收中考前500名的學生,B只收剩下的。
  • 徹底理解正態分布——強大的數學分析工具
    每個試圖進入強大的數據科學世界的人都會遇到正態分布。在這篇文章中,我將以一種非常清晰的方式解釋它到底是什麼,我們如何解釋它,以及為什麼它作為一個每個數據科學家都必須意識到的概念具有巨大的重要性。什麼是正態分布?
  • 規定「學生成績必須服從正態分布」
    中南大學吳嘉老師怒懟教務辦規定「學生成績必須服從正態分布」?中南大學要求老師對學生的成績必須服從正態分布。請問這樣的做法真的好嗎?吳嘉老師站出來發聲我們發現許多的學校明確要求學生學業成績必須符合正態分布。
  • 高考數學:次壓軸題新題型——概率之正態分布型!2019重點題型!
    高考數學:次壓軸題新題型——概率之正態分布型!2019重點題型!正態分布的應用,如隨機變量在某一區間取值的概率,一般以解答題的形式出現.解題時注意對相關概念的理解和相關公式的應用.a,b(a<b),隨機變量X滿足P(a<X≤b)=φμ,σ(x)dx,則稱隨機變量X服從正態分布,常記作N(μ,σ2).如果隨機變量X服從正態分布,則記為X~N(μ,σ2).
  • 正態分布 線性回歸 - CSDN
    採用最小二乘法進行線性回歸時,需要滿足特定的條件:正態性:一定範圍內,給定任意x值,對應的y均服從正態分布獨立:即誤差項間不存在相關,一般時間序列數據會存在自相關線性:因變量和自變量有線性關係同方差性:即模型誤差項的方差相等。
  • 相關知識考點:標準正態分布
    1概率密度函數  當μ=0,σ=1時,稱X服從標準正態分布,記作X~N(0,1)。  服從標準正態分布的隨機變量記為U,它的概率密度函數記為。  若X~N(μ,σ2),則~N(0,1)。  實際中很少有一個質量特性(隨機變量)的均值恰好為0,方差與標準差恰好為1.一些質量特性的不合格品率均要通過標準正態分布才能算得,這一點將在後面敘述。  2標準正態分布表  標準正態分布函數表,它可用來計算形如「」的隨機事件發生的概率,記為。  正態分布N(0,1)的分位數。