在統計過程控制中,為什麼數值不服從正態分布,如果不服從正態分析,我們又該怎麼處理?
問:在統計過程控制的活動中,計量型特徵值不服從正態分布是怎麼回事?
答:正態分布是我們基於樣本信息,對其背後虛構的總體中數值的分布情況進行描述用的,當樣本數據證明背後的總體不服從正態分布時,我們應該先考慮數據的來源。
1、在統計過程控制中,為什麼特徵值不服從正態分布?
一般的,我們用樣本的直方圖去推斷總體中數值的分布情況,如果量具的解析度相對於過程變差而言不夠,則測量出的數值不同數量太少,會影響到對背後總體分布模型的推斷,此時,就會出現不服從正態分布的情況。如下圖所示。
當量具的解析度足夠去分辨特徵值變差時,如果此時數值不是正態分布。
在通常的QC7大手法培訓時,告訴大家,要看直方圖是不是有分層,是否有左傾或右傾趨勢,是否有孤島型等,這些方法都幫助去查找為什麼數值結果不是正態的原因,我們這裡不做詳細展開說明。
對於統計過程控制的數據,通常是按照時間次序抽取的樣本測量得到的數值,通常可以用單值運行圖,去觀察數據,查找為什麼數據不符從正態分布,往往能得到更多信息。如下圖所示:
要強調一點,並不是所有的特徵值理論上就應該是服從正態分布,現實生產過程中,有很多不服從正態分布的實例,下面列一下
單邊公差,一側界限為0的特性
鑑於物理原因,分布是不對稱的(如上面第一張圖)
實例: 表面測量 (粗糙度),失圓度, ...
過程有某種趨勢
經典實例:工具磨損(如上面第二張圖)
特性的「非隨機變差」
自然的原材料易受特殊原因的變差
供應商無法提供均一的品質(如上面第三張圖)
工具更改造成的波動,...
對於這些過程,不服從正態分布是它們固有的特點。我們追求「能力」滿足要求或者追求過程要「受控」,並不是為了追求數值符合正態分布,我們的目的是為了追求特性值儘可能一直靠近目標值「built to nominal」。
當我們知道過程是由於上面這些原因,導致特徵值不服從正態分布,過程是按預計的時間分布模型來生產數據,非正態分布是可以接受的。當然,如果有些特徵值理論是應該符合正態分布,但在過程改進初期,對過程中的關健影響因素沒有透徹了解而導致結果不符合正態分布,這時通常會要求儘可能去調查了解原因,儘可能去改進並讓過程"受控"。
2、非正態分布如何計算過程能力/性能?
對於非正態分布如何去計算過程能力或過程性能呢?
能力分析是建立隨機採樣的結果上,獲取關於過程表現,以及對未知總體的信息,通常這些分析是基於總體分布已知的情況。對於總體分布模型的推斷,需要先預設一個默認的分布,通過假設檢驗的方法,如果樣本不足以拒絕,就會接受該分布模型,而對於默認分布模型的選擇可以根據測量特徵值的類型來選取,如下圖所示:
當然,關於默認分布模型的選擇,在不同公司根據自身的理解,有不同的標準。
一旦分布模型選擇好了,基於ISO22514國際標準的百分位數法,就可以同樣計算這些過程的能力指數了,這些分析通常可以藉助專業的軟體來自動執行。
3、總結
當在統計過程控制中,發現數值非正態分布時,我們需要從樣本數據本身出發,去尋找非正態分布的原因,第一個想到的就是測量量具的解析度是否具有足夠的,如果量具的解析度都不夠,是不足以去區分測量過程的變差,並建立合理的分布模型的。另一個方面,可以從測量值的時間系列中獲取過程關於時間的表現信息,如果過程是按預計的模式生成的數據,只要過程是受控,不是正態分布也是可以接受的。當然,如果過程的表現不受控,則需要去調查原因,並做出改進。
我們進行過程控制,進行能力分析的目標是為了確保過程的輸出儘可能一直靠近目標值,並不是為了追求正態分布,當實際過程是受控,但測量數值經證明不符合正態分布時,我們可以用不同的分布模型去匹配現實中的數據,默認分布模型不同公司有不同的選擇,通常報告能力指數時,應該把這些信息同時報告給客戶。