數據收集篇之十二: GR&R中的ANOVA問題答案

2021-01-18 製造學習聯盟

前集回顧:

6 sigma數據收集篇之11: MSA的這兩張圖你會看嗎?


上一篇問題是由公眾號裡的一個朋友提出的,其實很早以前我就關注過這個問題,但一直沒有做過深入的探究,畢竟我培訓過的絕大多數學員對此不會深究。另外在GR&R分析中通常不太關注ANOVA,一般都是直接看方差分量的大小和比例。另一方面也是我對此沒有答案,所以撰文求助。參見《問題徵解:MSA的ANOVA分析問題》


在留言中,啟明先生提出到《試驗設計與分析》中尋找答案,為我指出了方向,秦波老師明確要考慮SOV的思路,這給了我很大的啟發,於是我翻開了手頭王萬中的《試驗的設計與分析》(不是啟明先生推薦的那本書)。看書期間看到了Simon的長留言,請允許我拷貝在此:

    「為什麼minitab和jmp算主效應的F值是比上交互作用MS?是因為MSA是隨機效應模型,理論上交互作用的MS期望包含了重複性MS的期望,主效應MS的期望又包含了交互作用MS的期望,所以如果主效應MS比的是重複性MS,F值顯著,你並不能判斷到底是因為主效應顯著還是交互作用顯著,所以比交互作用MS比較好。第二為什麼AIAG那個例子用的是主效應MS比上重複性MS?因為雖然交互作用MS的期望一定包含(大於)重複性MS的期望,但在實際中我們是拿樣本算出來的各個MS去估計各個MS的期望,所以有時候會出現樣本算出的交互作用MS小於重複性MS的情況,這時候算主效應的F值用主效應MS比上重複性MS更精確。最後總結一下,在隨即效應模型裡面算主效應F值,如果樣本交互作用MS大,用它,如果重複性MS比交互作用MS還大,用重複性MS。」

    Simon先生的說法讓我茅塞頓開,結合書中的描述,我認為已經找到了答案。

    在此向啟明先生、秦波老師、Simon先生表示誠摯的感謝,雖然我們從未謀面,但你們的認真且專業的回覆給了我非常大的幫助。當然財物上的感謝就沒有了,畢竟我這個公眾號也是不賺錢的。

    下面談談我探究的結果。

    測量系統分析是一個集合了非常多統計方法的試驗設計方法,幾乎所有我們所學的統計方法在其中都有應用。偏倚的顯著性採用比較分析(通常稱假設檢驗),偏倚的線性採用回歸分析,穩定性採用控制圖分析,重複性則採用方差分析,而且還是隨機效應的SOV分析。另外別忘了,測量系統分析是一種試驗設計——它並不是基於過程數據的分析方法,而是需要事先進行周密設計和計劃的試驗。

    有意思的是,如此複雜的一個統計工具居然是我們學習六西格瑪時首先要學的,而其中用到的方法並沒有事先引入。如果在學習之前沒有學過這些知識,在理解上就會面臨很大的困難。很多人在後面逐漸學到相關的方法時才會有似曾相識或恍然大悟的感覺。

    一般老師在講授這一部分內容時也會有些無奈,既不能不作解釋,也不能過多解釋,大多情況下會告訴學員以後會學到原理,這裡大家先學會使用即可。但這樣會使學員領會不深,把握不準,實際應用時也會遇到各種各樣的困難。知道這一點,大家就會理解為什麼藍皮書要將測量系統分析放到假設檢驗、回歸分析、變異源分析之後了。

    談了這麼多背景,現在進入正題。下面描述的原理主要來自華東師範大學王萬中教授主編的《試驗的設計與分析》第二章,就是這一本。

    首先要解釋一個重要的概念,即固定效應模型和隨機效應模型。在書中是如此解釋的:

    如果因子A的a個水平和因子B的b個水平是根據試驗者的主觀意圖在試驗前就指定好的,並且在試驗過程中得到很好的控制,這種情況下的統計模型稱為固定效應模型。……,檢驗結論只適用於試驗所使用過的因子A的各個水平和因子B的各個水平,而不能推廣到試驗未使用過的水平。

    如果因子A和B的水平都很多或有無限多個,而參與試驗的A的a個水平是從因子A的全部可能的水平的總體中選取一個容量為a的隨機樣本,B的b個水平是從因子B的全部可能的水平的總體中選取一個容量為b的隨機樣本,這種情況下的統計模型稱為隨機效應模型方差分量模型。……,對隨機效應模型作統計分析所得到的結論是相對於因子A的全部水平和因子B的全部水平而言的,而不管它們在試驗中是否被使用過。

    在GR&R中,通常默認採用隨機效應模型。但在實際試驗過程中,則經常會違背這個模型的要求,比如特意挑幾個較熟練的檢驗員,或者隨便找幾個有空的檢驗員,這就違背了隨機抽樣的原則,分析的結果是有偏的。有時某種特性的測量只有3個檢驗員,屬於固定因子,但仍以隨機模型來分析。甚至有的時候檢驗員不夠,隨便拉個人來湊數。還有的特性測量屬於在線自動測量,在分析時明明只有重複性,但為了湊上再現性還有硬拉上幾個人來裝模作樣地測一下。這些都是MSA中常見的問題,在做的時候要儘可能避免。

    以下內容沒學過SOV的可能有點難懂,學過的一眼就能看明白了。

   設試驗中因子A隨機抽樣a個水平,因子B隨機抽樣b個水平,兩因子各水平組合下重複m次試驗,總試驗次數為abm次。A因子的第i個水平與B因子的第j個水平組合下的第k次試驗的結果記作yijk,i=1,…,a,j=1,…,b,k=1,…,m。這是一個隨機效應模型。

   試驗的線性統計模型是

其中μ為總均值;τi =μi-μ為A因子第i水平下均值與總均值之差,服從N(0,στ2);βj=μj-μ為B因子第j水平下均值與總均值之差,服從N(0,σβ2);(τβ)ij為交互效應,服從N(0,στβ2);εijk為隨機誤差,服從N(0,σ2)。

   在此模型下,任一觀察值的方差是

式中右邊各方差稱為方差分量

   方差分析需要檢驗的假設是

    此假設可以轉換成這樣

    跳過離差平方和的分解過程,各因子的期望均方為

    看到這裡,估計大家已經明白計算F值時為什麼要除以交互效應了。各因子的主效應均包含交互效應,如果是主效應除以隨機誤差,則交互效應會影響主效應顯著性的判斷,因此除以交互效應是合理的。在H01、H02、H03分別成立時,則

三個F應該接近於1,而拒絕域是右側單尾的。

   對於固定效應模型(具體模型不再贅述,各位可查閱相關的書籍)而言,各因子的期望均方為

因子的期望均方中並沒有包含交互效應,因此對於固定效應模型來說,F值都是除以隨機誤差。

   從前面的描述中可以看出,兩個因子的期望均方要大於等於交互效應,交互效應的期望均方要大於等於隨機誤差。實際應用中會出現與此不一致的現象,這是隨機抽樣造成的。通常在交互作用不顯著時,將其併入隨機誤差,也就是Simon所說的第二點。



製造學習聯盟經典線下公開課:


報名熱線:Linda (15995705366)

Linda微信二維碼如下

<如果喜歡我們的文章,記得關注我們喲>


相關焦點

  • 數據收集篇之十九: GR&R在公差帶內均勻取樣?老師,你不能這麼教!
    問題是什麼叫代表生產過程?這個問題不搞清楚,就不知道如何取樣。手冊中下面兩段就對此做出了說明。我不準備針對每一種說法進行討論,就針對這個均勻取樣的說法做一個深入分析看了下面的圖,相信你就一眼看出在公差帶內均勻取樣的荒謬之處。
  • R語言中的t-test和ANOVA
    方差分析(analysis ofvariance,簡寫為ANOVA)是生產和科學研究中分析試驗數據的一種有效的統計方法
  • 常用數據分析方法:方差分析及實現!
    這個問題就是單因素方差分析的問題, 具體解決方法後面會說, 首先先由這個例子弄清楚幾個概念:試驗指標:方差分析中, 把考察的試驗結果稱為試驗指標, 上面例子裡面的「索賠額」。這也是方差分析的目標, 故把問題轉換成了比較不同水平下試驗指標的均值差異。顯著在這裡的意思是差異達到的某種程度。基於上面的分析, 我們就可以把方差分析也看成一個檢驗假設的問題, 並有了原假設和備擇假設:那麼這個假設檢驗的問題怎麼驗證呢?
  • 宇宙第一速度是多少 螞蟻莊園今日答案7月8日
    宇宙第一速度是多少 螞蟻莊園今日答案7月8日時間:2020-07-08 07:49   來源:今日頭條   責任編輯:毛青青 川北在線核心提示:原標題;宇宙第一速度是多少 螞蟻莊園今日答案7月8日 宇宙第一速度是多少?以上是螞蟻莊園7月8日的問題,答對可以領取官方提供的每天一份的180g小雞飼料。
  • 戰艦少女r弗萊徹任務完成攻略 弗萊徹級收集攻略
    導 讀 弗萊徹任務,指的是戰艦少女r遊戲中的收集弗萊徹級驅逐艦之後獎勵弗萊徹號,新版本裡弗萊徹要改造了,所以來看看相關任務攻略吧。
  • 「R」層次聚類和非層次聚類
    ❝原英文連結:https://www.rpubs.com/dvallslanaquera/clustering[1]❞層次聚類 (HC)在這個分析中,我們將看到如何創建層次聚類模型。目的是探索資料庫中是否存在相似性組,並查看它們的行為。
  • j in gr uof anya n種-靜若繁言【秦氿】官方福利未刪減閱讀
    Research shows that the average person listens with only 25 percent efficiency meaning there's a lot we're letting j in gr uof anya n種,靜若繁言/j in gr uof anya n種,靜若繁言/j in gr uof anya n種,靜若繁言/j in
  • 醫學統計與R語言:雙因素重複測量方差分析(Two-way repeated measures ANOVA)
    56     50    6928 28 treatment     51     52    7059 59   control     57     64    71輸入2: library(tidyr)longrma <-  gather(rma,key=time,value=score,-id,-group)longrma
  • 一團糟的數據做方差分析,幸好還有Wilcox的robust ANOVA(R統計專用)
    現在我明白了,他們是「臣妾做不到」,因為實際收集到的數據往往是一團糟的,做同樣的測試有人認真做有人瞎做,有天才也有低能兒,最後你發現數據有缺失的,有高或低得離譜的,更麻煩的是在不大的樣本裡,有些數據就是不符合正態分布,或者缺乏方差齊性、圓性等,導致經典的統計方法如ANOVA無法使用。
  • 數據可視化之R語言
    R中有四大框架用於產生圖形,基本圖形,網格,格子和ggplot2.1.條形圖條形圖可以通過graphics庫中的barplot函數實現,也可以通過lattice包的barplot函數實現,我們使用RSADBE包中的數據進行舉例(1)> library(RSADBE)> data
  • 整理了一些自己可能會用到的R包~20210125更新
    更新於2021年1月25號gtable生信菜鳥團 公眾號分享的文章 R包:gtable包用於處理ggplot2圖像ggrgl畫三維圖 在 微生物生信 看到的推文 ggrgl:用ggplot做3D圖表rayshader公眾號有人留言說這個包做ppt很好用,我查了一下,大體看了一眼幫助文檔
  • ...Infogr.am宣布已幫助製作信息圖100萬張,推出結合Excel使用的...
    去年5月的時候,我們第一次介紹了Infogr.am這個製作信息圖的可視化工具,它提供模塊化的製作方式和豐富的精美模版,讓普通用戶也能只用簡單的幾步製作出自己的信息圖。才過了短短一年多,Infogr.am就在今天迎來了一個不小的裡程碑,目前已有超過100萬張信息圖在它的平臺上被創建。 根據Infogr.am聯合創始人Uldis Leiterts的說法,Infogr.am現在已經有50萬用戶,每月會有10萬張新信息圖的產出。而這些內容每月會被三四百萬的獨立訪客看到,訪客數還正以每月25%的倍速增長。
  • 一個成功的數據分析師的職業生涯
    數據分析師做什麼?數據分析員收集,處理和執行數據的統計分析,即使數據以某種方式或其他方式有用。它們幫助其他人做出正確的決策,並優先處理已收集的原始數據,以便使用某些公式和應用正確的算法使工作更輕鬆。如果你對數字,代數函數充滿熱情,並喜歡與其他人分享你的工作,那麼你將成為數據分析師。
  • 面向自然語言和多步推理問題,新型問答數據集HotpotQA面世
    選自GitHub作者:楊植麟、齊鵬、張賽崢機器之心編譯參與:路近日,來自斯坦福、CMU 和蒙特婁大學的三名中國學生推出了新型問答數據集 HotpotQA,該數據集面向自然語言和多步推理問題。懷揣著同樣的疑問,我們對目前主流的問答系統 (question answering (QA) system) 以及相關的大規模數據集 (large-scale QA dataset) 進行了調研,結果稍顯悲劇:對於目前主流的問答數據集(例如斯坦福的 SQuAD 數據集 [1]),問題的答案基本都在單一文檔的單一(或連續的)句子中,並且這類問題大多可通過對問題和單一文檔使用類似關鍵詞匹配
  • 方差分析常見問題匯總,你想知道的都在這裡
    本文以SPSSAU系統為例,針對方差分析的常見問題進行匯總說明。關於方差分析的分析思路及相關操作可閱讀連結文章:SPSSAU:全流程總結方差分析,只看這篇就夠了。①問題一:t檢驗與方差分析的區別?②問題二:方差分析是否需要滿足正態性?方差檢驗一般需要進行正態性檢驗,但方差檢驗對數據的正態性的有一定的耐受能力,只要數據近似正態即可接受。如果數據嚴重不正態,則可使用非參數檢驗。
  • r語言 做wald檢驗_r語言wald檢驗怎麼做 - CSDN
    這是在Logistics回歸中被坑過,在predict時解決了將newdata用dataframe形式傳入的問題後,總是報錯說變量數不對(一方面可能fit 時有問「glm傳參數data可能沒傳好」,另一方面newdata的dataframe可能需要轉置一下)。R語言的向量、矩陣、數據框、數組、列表等等,有點煩人,和我之前的C語言系列思維差別太大。
  • 《尼爾機械紀元》個體數據怎麼收集 個體數據全收集攻略
    導 讀 《尼爾機械紀元》中有非常多的個體數據供玩家來收集,很多玩家不知道這些個體數據都可以在哪裡收集,下面為大家帶來了《尼爾機械紀元》個體數據收集攻略,一起來看看吧
  • R語言:單因素重複測量方差分析(One-Way Repeated Measures ANOVA )
    anova(am2)
  • R 語言之數據分析「Resampling」
    在總結回歸分析和方差分析的時候 ④R語言之數據分析「初章」,我總是會在模型的建立之前提到「統計假設」,在模型建立之後進行「假設檢驗」,原因想必大家都能理解,就是因為這些「統計假設」是我們模型建立思想的基礎,是支撐我們模型正確性的「必要條件」。但是,不可否認的是,這些「必要條件」最終會成為我們「數據分析」的局限,讓我們對「不滿足條件的數據集」束手無策。