【文章作者 Sweller 蔡偉旭譯】
由於工作記憶負荷對認知負荷理論的重要性,測量這種負荷一直是研究人員的高度優先事項。雖然可以通過預測實驗結果證明對理論的有效性的支持,但是另外提供對認知負荷的獨立測量是有用的。在本章中,我們描述了用於測量認知負荷的各種方法,以及它們在過去30年中的發展情況。
認知負荷的間接測量
在認知負荷理論的早期,認知負荷不是直接測量的。基於檢驗問題解決和學習之間的關係的實驗結果假設,幾種技術用於間接評估認知負荷。
計算模型
對認知負荷理論的初步研究集中在作為學習策略的問題解決的低效率上。假設高問題解決搜索導致比低問題解決搜索更大的工作記憶負荷。在Sweller及其同事在20世紀80年代進行的一系列實驗中,證明了需要相當多的問題解決搜索的學習策略導致了較差的學習成果,而不是採用遠遠少於問題解決搜索的策略。為了解釋這些結果,Sweller(1988)認為,因為使用一些問題解決的啟發式方法導致了不必要的問題解決搜索,強加了高額外的認知負荷。相比之下,減少問題解決搜索的過程被假定為可以減少認知負荷。
理論表明問題解決搜索確實增加了由計算模型表示的認知負荷。 Sweller(1988)使用生產系統模型來比較高搜索策略和低搜索策略,發現更高的搜索需要更複雜的模型來模擬問題解決過程,對應於在工作記憶中保存和處理更多的信息。類似地,Ayres和Sweller(1990)使用生產系統模型來模擬多步幾何問題的問題解決解決方案提供了證據表明高搜索策略比更簡單的策略需要更多的工作記憶資源。
計算模型提供的間接證據限制了它們作為認知負荷的指標的使用。然而,在認知負荷理論框架內,計算模型是第一次嘗試提供一定程度的獨立證據,認知負荷是教學設計中的一個重要因素。他們是認知負荷理論起源的一個重要因素。
獲取期間的績效
在認知負荷理論的這個早期階段,在獲取或學習階段期間的績效指標也用於支持觀察到的效果的認知負荷解釋。由於沒有直接的量度,Chandler和Sweller(1991,1992)認為教學時間可以用作度量認知負荷。理論上認為,如果學生被要求使用提高認知負荷的策略學習一個主題,那麼認知負荷的這種增加將在學習階段影響績效。不僅將通過測試分數指示未來績效受到影響,而且還將影響獲得期間的績效。早期的研究支持這個論點(見Owen&Sweller,1985; Sweller,Chandler,Tierney,&Cooper,1990; Sweller和Cooper,1985)。還發現在預期的高認知負荷條件下獲得期間的錯誤率更高(參見Owen和Sweller,1985; Sweller&Cooper,1985)。增加的認知負荷可能對學習時間和獲取任務的準確性產生負面影響。
問題解決中的錯誤率
錯誤率也被用於識別問題中的認知負荷的差異。 Ayres和Sweller(1990)表明,由於在這些點上的高工作記憶負荷,學生經常在特定點處在幾何域中的問題求解時產生誤差。在後來的研究中,Ayres(2001)證明錯誤率在需要順序計算的數學任務上有所不同。高錯誤率對應於決策處於其最大強度的位置,其中許多變量需要考慮。雖然這兩個研究調查問題解決而不是教學程序,他們提供了額外的證據,錯誤率可用於確定工作記憶的需求。
認知負荷的主觀測量
最初,認知負荷的理論考慮被用於預測教學有效性,主要通過認知負荷的間接測量,如錯誤率和學習時間,如上所述。隨著認知負荷理論的發展和更多的教學效果被確定,對認知負荷的更直接測量的需要變得明顯。例如,Chandler和Sweller(1991)和Sweller和Chandler(1994)指出了認知負荷直接測量方法的缺乏。 Paas(1992)打破了僵局,他通對認知負荷的主觀測量發展提供了重大突破。
心理努力的主觀測量
基於由Bratfisch,Borg和Dornic(1972)開發的以前的儀器,Paas(1992)推斷學習者能夠內省在學習和測試期間投入的心理努力的量,並且這種「努力的強度」可以被認為是認知負荷的「指數」(第429頁)。 Paas,Tuovinen,Tabbers和van Gerven(2003)後來將精神努力的定義改進為「認知負荷的方面,認知負荷是指實際分配以適應任務強加的要求的認知能力:因此,它可以被認為反映了實際的認知負荷「(第64頁)。
使用從非常非常低的心理努力(1)到非常非常高的心理努力(9)的9點Likert量表,要求學習者在學習和測試周期中的各個點評估他們的心理努力。 Paas(1992)比較了假設提高或降低認知負荷的教學程序,發現自我評估的心理努力和測試表現之間的匹配。執行低認知負荷的教學設計的學習者具有優越的學習結果,並且將其心理努力評價低於被假執行高認知負荷的設計的學生。
Paas和vanMerriënboer(1994)的後續研究再次證明了Paas的研究結果(1992)。此外,Paas和vanMerriënboer(1994)也通過心率的光譜分析收集生理測量數據。然而,與自評量表相反,生理測量不能檢測治療組之間的差異,並且只能區分精神上無活性和活動期。表明主觀評分比生理測量更敏感和幹擾更少。而且9分制量表是高度可靠的(參見Paas,vanMerri?nboer,&Adam,1994)。
難度的主觀測量
這些早期試驗的主觀測量的成功導致其他人採用主觀尺度作為認知負荷的量度。然而,許多研究者要求學生評價他們發現學習任務有多困難或容易,而不是使用術語心理努力。例如,在一系列實驗中,Marcus,Cooper和Sweller(1996)證明,主觀的困難度量根據任務的元素交互水平而顯著變化。此外,Ayres(2006a)發現,主觀難度測量可以檢測任務中元素交互性的變化。
無論所使用的措辭(精神努力或困難程度),簡單的主觀評定量表,或許令人驚訝地被證明是可用於區分由不同教學過程施加的認知負荷的最敏感的量度。它已廣泛用於確定第IV部分中討論的各種教學程序施加的相對認知負荷。 Paas等人(2003b)記錄了超過25項使用1992年和2002年之間的認知負荷的主觀測量的研究。從那以後有了更多的研究。
主觀評分的變化
Van Gog和Paas(2008)指出,心理努力和困難程度可能是不同的結構在考慮後果時。一些初步研究調查兩種尺度之間的差異支持這種觀點(Ayres&Youssef,2008)。問一個學生他或她找到一個任務有多難,這與詢問完成任務花費了多少精力不同。雖然這兩個措施經常相關,但困難程度並不總是與努力程度匹配。例如,非常困難的問題可能對一些學習者要求過多以至於他們不能做出任何實際的努力。
除了測量的潛在差異,van Gog和Paas(2008)還確定了收集心理評定作為進一步變化的時間。 Paas和vanMerri?nboer(1994)使用了學習者解決測試問題後收集的心理努力措施。相比之下,許多其他研究人員在採集(教學)階段完成後收集了數據。這兩種策略不一定是可比的,並且可能產生不同的結果。在討論效率措施時,將討論這些一些差異。
主觀測量的一致性
儘管有這些不同的程序,但是在通過認知負荷理論(也參見Moreno,2004; vanMerri?nboer,Schuurman,De Croock,&Paas,2002)預測的匹配績效數據中,困難程度或精神努力的主觀測量具有很少的差異或矛盾。然而,在一些研究中,儘管在績效測試中存在組間差異,但在主觀測量之間沒有發現統計學上的顯著差異(參見Cuevas,Fiore,&Oser,2002; Hummel,Paas,&Koper,2004; Kester,Kirschner, Merri?nboer,2005)。還有一些研究,其中基於主觀測量存在認知負荷差異,但是對績效測試沒有組治療效應(Homer,Plass,&Blake,2008; Van Gerven,Paas,vanMerri?nboer,Hendriks,&Schmidt,2003)。在Kalyuga,Chandler和Sweller(2004)中,三個實驗中的每一個產生不同的結果:認知負荷差異,沒有測試效應;認知負荷差異和相應的測試效應;沒有認知負荷差異,但具有測試效果。可行的是,在一些特定的條件和材料下,不會發生預期的匹配。當然,當考慮任何統計上確定的效果時,不可避免地會存在匹配的失敗。主觀評級量表和測試績效之間的相關性不夠完美。儘管偶爾存在不一致,主觀測量產生了深刻的影響,並且為提供證據支持認知負荷理論提供了有用的工具。
效率測量
基於Paas(1992)的自我評價量表,Paas和vanMerri?nboer(1993)開發了一種效率測量,其將精神努力與任務績效指標相結合。 Paas和vanMerri?nboer認為,考慮學習的認知成本是很重要的。即使兩種不同的教學方法可能產生相同的學習成果,但是實現這些水平的績效的努力是一個重要的考慮。如果一個教學策略產生與另一個策略相同的績效,但是所花費的認知資源較少,則該第一策略更有效。效率(E)使用下式計算:
其中ZPtest表示標準化(Z分數)測試分數,ZEtest表示在測試期後收集的標準化心理努力分數。該公式基於從點到線(在這種情況下為y = x)的垂直距離的數學計算。效率差異可以通過簡單的圖形表示來描述(見圖6.1)。當績效和精神努力的Z分數相等時,E的值為零,如圖1所示。 6.1由對角線(y = x)表示。該線上的所有點等於E = 0,而線上方的點(E> 0)表示有效學習並且指向低於線(E <0)的無效學習。 Paas等人(2003b)進一步解釋說,高教學效率是由於高的任務績效和低的心理努力(圖中的區域H),而低的教學效率來自低的任務績效和高的心理努力(圖中的區域L)。
在對效率測量的回顧中,van Gog和Paas(2008)記錄了在1993-2007年期間,超過30個認知負荷理論相關的研究使用了效率測量。然而,如上所述,van Gog和Paas(2008)也指出,收集精神評級的方式有所不同,這些變化影響效率測量,因為精神評級是效率公式的組成部分。 Van Gog和Paas認為,這些不同的方法測量了不同類型的效率。使用在測試績效之後收集的心理努力評級,測量獲取認知結構(如模式)的學習後果,而使用採集後測量,指示培訓效率。
我們同意,學習效率可能是一個良好的圖式獲取和自動化的指示器。 如果學習者已經獲得了新的圖式,並且可以用更少的努力使用它們,則圖式獲取可以被認為是魯棒的,即使教學方法更苛刻。 然而,教學效率具有重要作用,因為它顯示了學習過程的有效性,這是第四部分討論的認知負荷影響的關鍵考慮。 知道遵循教學設計是多麼困難或容易是認知負荷理論的關鍵。 儘管在方法上有這些差異,但是在測試中計算訓練效率和使用學習信息的效率是重要的,並且可以提供與教學設計相關的重要信息。
計算效率的問題
儘管其廣泛使用,Hoffman和Schraw(2010)已經確定了與教學效率計算相關的一些問題。在效率評價中,因為它基於績效和努力的標準化分數之間的差異(差異),Hoffman和Schraw將Paas和vanMerri?nboer的原始模型歸類為偏差模型。他們認為,很難解釋減去兩個概念上彼此不同的變量的意義。他們指出,它類似於減去個人智力和體重的z分數。可能很難知道得到的分數究竟是什麼。
Hoffman和Schraw還指出,由於z分數是標準參考的,因此效率測量只能基於組間數據,因此不能用於比較個體效率。另一方面,他們還建議,如果比較整體的差異,則比較個體效率的問題不是問題。如第四部分所示,在認知負荷理論的大部分下進行的大多數研究完全側重於整體群體差異,因此個體比較並不是一個問題。作為偏差模型的替代,Hoffman和Schraw描述了兩種其他方法的優點(1)基於績效和主觀評級的比率的可能性模型(例如,Kalyuga和Sweller,2005; Kalyuga,2008b;更多細節見第13章)和(2)基於概率比的條件似然模型。
Hoffman和Schraw並不貶低偏差模型,他們認為不同的模型適合不同的研究目標。如果目的是調查績效和努力得分排名之間的差異,那麼Paas和vanMerri?nboer的偏差模型具有優點。然而,基於Hoffman和Schraw分析,績效和主觀評級(似然模型)的比率計算非常簡單,並且可以用於確定單獨的效率測量。這些個體測量可以容易地組合以提供在比較整體處理效果時必不可少的組效率。我們期望未來的研究更好地利用似然模型。
通過輔助任務衡量認知負荷
上述主觀測量是用於測量認知負荷的最常用的工具。然而,評估工作記憶負荷的傳統方法是結合主任務(雙任務方法)使用輔助任務(參見Britton&Tesser,1982; Kerr,1973)進行測量。第二個任務要求學習者進行額外的認知活動,這是輔助學習或解決問題的主要任務。例如,學習者可能被要求以特定方式響應作為輔助任務的特定聲音以及學習如何解決一類數學問題作為主要任務,如果主任務施加了沉重的認知負荷,則輔助任務的績效降低。相比之下,主任務上較低的認知負荷可導致輔助任務的績效提高。
通常,輔助任務是非常不同的,並且比主任務需要更少的工作記憶資源;然而,Sweller(1988)創造了這種格式的替代品。 Sweller認為,要求學生通過解決問題涉及兩個過程:(1)解決問題,主要任務和(2)從經驗中學習,輔助任務。換句話說,當學習者把解決問題作為主要任務時,這可能會干擾學生的問題,學生將其視為輔助任務。問題越複雜,對它的了解越少。基於特定第二任務的經驗證據,包括記住公司和前述問題的解決方案支持這個論點。旨在減少與解決問題相關聯的認知負荷的教學過程增加了關於先前問題的信息量。
在更傳統的使用輔助任務中,Marcus等人(1996)研究了元素交互性,特別是與僅作為文本呈現的相同信息相比,圖如何可以減少元素交互性。在這項研究中,使用了兩種類型的輔助任務,學習情節構成每種情況下的主要任務。在一個實驗中,輔助任務正在識別在學習情節期間隨機呈現的音調。聽到這個聲音,學習者不得不通過按下腳踏板來響應。響應時間被用來衡量如何認知地要求主要任務,指示認知負荷。在第二個實驗中,輔助任務是記住在學習期間呈現的兩位數字。在這種情況下,使用二次任務的回憶的準確性作為認知負荷的測量。對於這兩種類型的次要測量,發現匹配學習成果的顯著結果。使用圖表和低元素互動材料導致更好的學習成果和更強的二次任務績效。因此,支持認知負荷解釋。
Chandler和Sweller(1996)也採用了雙重任務的方法來表明,第二個任務,回憶一封信,受到教學模式的影響。對於這個輔助任務,兩個單獨的字母,由音調提示,在採集期間在計算機屏幕上分開8秒。學生需要記住第一封信,同時記住第二封信。結果表明,意在減少認知負荷的優越學習策略導致在輔助任務的更高的分數。此外,在學習材料元素交互性高的時候,僅發現教學策略和次要測量的顯著差異。對於低元素互動性的材料,更多的工作記憶資源可用於克服無效的學習策略,因此輔助任務的績效不受影響。關於問題解決任務,與學習任務相反,Halford,Maybery和Bain(1986)和Ayres(2001)使用輔助任務方法證明了高元素交互性與相應高的工作記憶負荷相關聯。
通常,輔助任務是非常不同的,並且比主任務需要更少的工作記憶資源;然而,Sweller(1988)創造了這種格式的替代品。 Sweller認為,要求學生通過解決問題涉及兩個過程:(1)解決問題,主要任務和(2)從經驗中學習,輔助任務。換句話說,當學習者把解決問題作為主要任務時,這可能會干擾學生的問題,學生將其視為輔助任務。問題越複雜,對它的了解越少。基於特定第二任務的經驗證據,包括記住公司和前述問題的解決方案支持這個論點。旨在減少與解決問題相關聯的認知負荷的教學過程增加了關於先前問題的信息量。
在更傳統的使用輔助任務中,Marcus等人(1996)研究了元素交互性,特別是與僅作為文本呈現的相同信息相比,圖如何可以減少元素交互性。在這項研究中,使用了兩種類型的輔助任務,學習情節構成每種情況下的主要任務。在一個實驗中,輔助任務正在識別在學習情節期間隨機呈現的音調。聽到這個聲音,學習者不得不通過按下腳踏板來響應。響應時間被用來衡量如何認知地要求主要任務,指示認知負荷。在第二個實驗中,輔助任務是記住在學習期間呈現的兩位數字。在這種情況下,使用二次任務的回憶的準確性作為認知負荷的測量。對於這兩種類型的次要測量,發現匹配學習成果的顯著結果。使用圖表和低元素互動材料導致更好的學習成果和更強的二次任務績效。因此,支持認知負荷解釋。
Chandler和Sweller(1996)也採用了雙重任務的方法來表明,第二個任務,回憶一封信,受到教學模式的影響。對於這個輔助任務,兩個單獨的字母,由音調提示,在採集期間在計算機屏幕上分開8秒。學生需要記住第一封信,同時記住第二封信。結果表明,意在減少認知負荷的優越學習策略導致在輔助任務的更高的分數。此外,在學習材料元素交互性高的時候,僅發現教學策略和次要測量的顯著差異。對於低元素互動性的材料,更多的工作記憶資源可用於克服無效的學習策略,因此輔助任務的績效不受影響。關於問題解決任務,與學習任務相反,Halford,Maybery和Bain(1986)和Ayres(2001)使用輔助任務方法證明了高元素交互性與相應高的工作記憶負荷相關聯。
然而,使用輔助任務更有優勢。主要優點是他們可以在任務期間提供幾乎連續的認知負荷測量,而主觀測量法僅指示任務完成後的總認知負荷。在下一節討論,將介紹生理測量,它可以提供更準確的測量瞬時認知負荷。
據我們所知,尚未使用輔助任務計算測量效率。沒有理由不計算。Hoffman和Schraw(2010)討論的所有效率衡量標準,一旦認知負荷值標準建立,就可以使用輔助任務像使用主觀評級一樣來輕鬆計算。
認知負荷的生理測量
Paas和vanMerri?nboer(1994)比較了主觀測量與心率的頻譜分析,得出結論,主觀測量顯示更多的潛力。在隨後的十年中,認知負荷理論研究人員進行了很少的隨訪生理研究。然而,在最近的時期,人們對這些措施的重新出現了興趣。認知突起反應是已經測試的一種策略。 Van Gerven,Paas,vanMerri?nboer和Schmidt(2004)引用Kahneman和Beatty的工作(1966),認為瞳孔大小可能與記憶負荷有關。使用需要工作記憶負荷有差異的一系列任務,發現對於瞳孔擴張根據增加的工作記憶水平的增加而增加。然而,還發現突起反應策略可能具有年齡限制,因為老年參與者沒有在一些認知任務上顯示這種相關性。
評論者提倡使用諸如功能磁共振成像(fMRI,參見Paas,Ayres,&Pachman,2008; Whelan,2007)和腦電圖(EEG,參見Antonenko,Paas,Grabner&van Gog,2010)來測量認知負荷,這種提議與更複雜的技術的發展相吻合。生理測量方法可能有相當大的優點的證據已經開始出現。例如,Antonenko和Niederhauser(2010)在一項研究超文本學習的研究中使用了主觀測量法和腦電圖測量。使用心理努力量表作為主觀測量法量表,並且EEG捕獲α,β和θ腦波節律。績效分數表明,使用超文本引線(引入文本連結節點在一起)導致比使用沒有引線的超文本具有更好的學習成果。雖然沒有心理努力測量沒有發現組間差異,使用彩虹文本引線的組alpha,beta和theta測量值顯著較低。結論是超文本導致認知負荷降低,但只有EEG測量足夠敏感以顯示這種差異。在討論主觀方法的失敗時,Antonenko和Niederhauser認為EEG方法的一個優點是它反映了各種類型的負荷,如瞬時,峰值,平均,累積以及總體負荷,而主觀測量可以僅測量總負荷。(關於認知負荷的時間方面的更多信息,參見Xie&Salvendy,2000)
Van Gog,Rikers和Ayres(2008)也討論了認知負荷瞬時測量的優點。 Van Gog 等。區分在在線方法(諸如在學習和測試期間可以收集的眼睛跟蹤和心率監視)和離線數據(例如僅在活動完成之後可以在不中斷任務的情況下集主觀測量)。在過去幾年中,對認知負荷理論和多媒體教學環境的研究使用眼動跟蹤來進一步了解認知過程(見van Gog&Scheiter,2010)。一些證據也已經出現,眼睛跟蹤可以用於測量認知負荷的波動。 Underwood,Jebbert和Roberts(2004)發現,文本和圖片的不同組合需要不同水平的認知處理,這與眼睛注視的相應變化相匹配。總的來說,有人認為,眼睛長時間的注視反映更多的認知處理。因此,眼睛跟蹤數據具有顯著的優點,因為它不僅指示學習者聚焦注意的位置,而且指示多久,因此意味著認知負荷的相應變化。
另一個顯示出潛力的在線策略是使用語言複雜性的指標。雖然本質上不是生理的,但語言複雜性具有生理學措施的許多特徵,包括在學習和測試任務的同時在線使用的能力。 Khawaja,Chen和Marcus(2010)認為隨著任務難度的增加,詞彙密度降低。這種效果在一個有叢林火災事故管理團隊的研究中得到了證明。隨著叢林火災任務變得更具挑戰性,包括意外事件的發生,操作團隊的語音模式改變,根據任務複雜性變得不那麼密集。因此,語言複雜性的度量可能是另一個有用的在線的認知負荷的指標。
在不祥的開始之後,可替代主觀測量的認知負荷測量指標(如生理指標)正在獲得相當大關注。一些技術是有希望的,但是確定當前的研究重點是否會產生可靠的結果還為時過早。在過去,生理測量已被證明不足以表明認知負荷理論使用的教學設計的所產生的認知負荷差異。目前試圖找到足夠敏感的生理測量是否能夠成功仍有待觀察。
測量不同類型的認知負荷
在識別不同類別的認知負荷之後(參見Sweller,vanMerri?nboer,&Paas,1998),基於認知負荷的理論預測變得更加複雜。不是僅僅使用總認知負荷來論證為什麼教學設計會或不會有效,研究人員開始在制定他們的假設時區分認知負荷的類別。因此,在過去十年中,對不同類型的認知負荷的單獨測量引起廣大關注。
理論上,假設內在和外在認知負荷增加了總的認知負荷,通過實驗方法區分內在和外在認知負荷是一件簡單的事情。在教學實驗中,如果內在認知負荷保持恆定,但外來認知負荷在教學條件之間變化,則主觀評定量表所指示的認知負荷測量的任何差異必定是外在認知負荷的引起的。類似地,通過保持外在認知負荷恆定和不同的內在認知負荷,任何測量的差異即是內在認知負荷的差異。 Ayres(2006a)在第一次測量內在認知負荷的嘗試中使用了這個邏輯。
使用問題解決任務Ayres(2006a)要求學生完成一系列需要連續計算的代數問題。由於學生以前沒有提供任何額外的指導已經接受這些任務的教學,Ayres推理說,由於教學因素的外在認知負荷是不變的。在以前的研究中,Ayres(2001)發現,學生根據計算的位置展示具體的錯誤概況。一些計算在元素交互性上比其他計算更高,導致在那些點的錯誤率更大。在Ayres(2006a)的研究中,當學生完成每個問題時,他們被要求評估他們如何容易或困難地發現每個計算。結果表明難度等級和錯誤模式之間的一致匹配。通過他們的主觀評級,學生實際上能夠識別問題內的元素交互性(內在認知負荷)的顯著差異。他還發現,具有更多領域特定知識的學生比知識較少的學生能夠更好地通過其評級來識別內在負荷的差異。最有可能的情況是專業知識使學生更深入地反映每個計算中涉及的內部過程和負荷等級而得到更準確地結果。即使具有高水平的領域專業知識的學生幾乎沒有錯誤,他們仍然能夠區分元素交互水平。在這項研究中,沒有嘗試提供不同類別的認知負荷的單獨測量。相反,外在認知負荷保持恆定,因此負荷的任何差異可以被認為是由於內在負荷引起的。
DeLeeuw和Mayer(2008)使用了一種混合的方法,包括主觀測量和輔助任務,以調查不同的儀器是否可以分別測量內在的,外在的和相關認知負荷。 DeLeeuw和Mayer認為內在認知負荷可以通過增加多媒體課程和外在負荷中的解釋性句子的數量,通過改變由相同的口頭和書面文本組成的冗餘材料來操縱。對轉移任務的績效被認為是對相關認知負荷的衡量。採集了三個測量認知負荷的指標:對輔助任務(在課程期間的顏色的背景變化)的響應時間,在課程期間採集的主觀心理努力評級和在課程之後得到的主觀難度評級。在兩個實驗中,發現輔助任務對冗餘操作(外部負荷)最敏感,心理努力評級對句子複雜性(內在負荷)的變化最敏感,並且難度評級對轉移成功的差異最敏感。在轉移測試中獲得高分的學生被假定投入更多的精力投入,而那些得分低的學生投入不夠。
這些結果表明,不同的測量方法可以利用不同的過程和顯示不同的敏感性。然而,可能有一些疑問,使用的三種方法是否可以區分不同類型的認知負荷。不清楚的是為什麼輔助任務應該對外在認知負荷比心理努力評級更敏感,或者為什麼心理努力評級應該對內在認知負荷特別敏感。此外,我們懷疑轉移績效是否必然是相關負荷的量度。此外,需要注意的是,根據當前的公式,相關認知負荷僅僅是由內在元素相互作用施加的負荷量的反映,因此不獨立地貢獻總負荷。然而,有趣的是,這些不同的測量方法根據操縱的性質產生不同的結果。很少有其他研究(其他實例參見Cierniak,Scheiter,&Gerjets,2009b; van Gerven等,2003)在同一研究中同時使用了主觀評級和認知負荷的輔助任務測量。
在試圖測量認知負荷的不同方面,一些研究者已經受到稱為NASA任務負荷指數(NASA-TLX,Hart&Staveland,1988)的多維尺度的影響。 NASA-TLX包括六個子量表,用于衡量與完成任務相關的不同因素:(1)精神需求(需要多少精神和知覺活動),(2)身體需求(需要多少體力活動?)(3)時間要求(具有多大的時間壓力),(4)績效(你認為你在實現實驗任務設定的目標上有多成功?)(5)努力(你在完成任務期間付出的精神上的和身體上的努力程度)和(6)挫折水平(任務期間感覺到的不安全,沮喪,激怒,壓力與安全,內容和放鬆程度)。通過組合六個子量表來實現心理負荷的總體測量。
在最近對其使用的反思中,Hart(2006)指出,NASA-TLX量表主要用於側重於接口設計和評估的研究,包括自動化和決策輔助設備的影響。此外,與航空使用的原始設計一致,許多研究集中在空中交通管制和其他航空活動。相比之下,認知負荷理論研究者集中在學習環境,並經常通過選擇僅僅一些子量表,以及改變項目的措辭來修改測試工具。為了測量不同的認知負荷類別,Gerjets,Scheiter和Catrambone(2006)從NASA-TLX中選擇了三個項目(參見Gerjets,Scheiter,&Catrambone,2004)。他們是「任務要求」(完成學習任務需要多少精神和體力活動),「努力」(參與者如何努力工作來理解學習環境的內容)和「操縱需求」參與者必須投入很多精力來操縱學習環境)。 Gerjets 等人(2006)認為,這些項目中的每一個可以分別對應於內在的,相關的和外在的負荷。來自操作實例的複雜性的研究的結果表明,與測試績效數據有廣泛的一致性。換句話說,具有最高學習成果的團體報告最低的認知負荷。然而,沒有相關證據表明三種測量對應於所提出的不同類型的認知負荷。
在研究認知負荷的測量方法的更多差異中,還存在將項目的措辭與不同類型的負荷所表示的概念相一致的趨勢。例如Cierniak 等(2009b,第318頁)使用了諸如「你的學習內容有多難?你在學習材料有多難?你在學習中集中了多少?「措辭的選擇是為了將」學習內容「與內在負荷聯繫起來,並將」與材料的學習「與外部負荷聯繫起來。有人認為,集中反映了對學習相關過程的關注,因此代表了相關負荷。在這項研究中,發現認知負荷測量和績效數據之間的顯著匹配。
然而,有時測試績效和認知負荷測量之間的匹配與理論預測不一致。 Gerjets,Scheiter,Opfermann,Hesse和Eysink(2009)使用了更多的措辭。學生被要求評價「領域的難度」(預期的內在認知負荷)和「他們在理解示例時所付出的努力」(預期的相關認知負荷)。對於外部負荷,使用了兩個項目:「區分重要和不重要的信息」和「評估與環境處理的難度」。然而,這項研究沒有找到認知負荷測量和學習成果之間的預期匹配。
在測量不同類型的認知負荷的心理測驗嘗試中的上述不一致是不可預料的。認知負荷的類別之間的心理測量差別要求學習者指示他們正在經歷的認知負荷是否是由於特定類別的認知負荷。我們懷疑學習者(特別是新手)是否能夠做出必要的區分。例如,當試圖學習一些新概念時,學習者可能能夠準確地指示他們找到任務困難的程度。他們可能不太準確地將其困難歸因於材料的內在性質或提供材料的方式。在大多數情況下,除非他們知道相關的替代教學程序,例如本書第四部分討論的教學程序,否則學習者可能不能理解教學程序如何改變。如果學習者不熟悉教學設計原則,他們不能表明他們正在經歷的難度水平是由於教學設計不足還是由於他們所處理的信息的自然複雜性。在這些情況下,設計用於指示認知負荷是否歸因於一個類別而不是另一個類別的心理測量程序可能失敗(Kirschner,Ayres,&Chandler,2011)。
有一種心理測量的認知負荷類別的替代方法。隨機對照實驗,改變一個類別,同時保持另一個恆定提供內在和外在類別的認知負荷的獨立性的一個很好的指標,同時指示相關的教學後果。由於相對內在或外在認知負荷可以如第四部分所討論的通過實驗確定,我們不能使用心理測量手段確定認知負荷類別的影響是否是關鍵的。
本章概述了研究人員用於測量認知負荷的主要方法。它描述了在認知負荷理論的早期階段,間接方法如錯誤率,任務完成時間和計算模型被用來作為評價指標。各種教學效果可以通過認知負荷的波動來解釋。這些間接測量與績效測試分數結合使用加強了理論。當Paas(1992)提出一個單一的心理努力主觀測量時,發生了間接測量的顯著變化。這種測量及其導數(難度標度)以及教學效率的測量已經用於許多研究中,並且是認知負荷理論的發展中的非常有用的工具。在大多數情況下,主觀測量已經提供了支持所有認知負荷理論效應的協作證據。然而,主觀評級量表不提供實時數據。它們僅提供事件後的認知負荷的指示,因此不能用於在學習或解決問題期間確定認知負荷的變化。能夠提供實時數據的替代措施是使用輔助任務。
輔助任務的使用頻率低於主觀評定量表,因為它們往往更具幹擾性,需要更複雜的實驗條件,並且通常需要更複雜的設備。輔助任務的優勢,即他們在學習和解決問題過程中測量認知負荷的能力,也是一個缺點。它們可能難以使用。相反,主觀評級量表可以在學習或問題解決發作之後立即呈現,並且通常需要不超過約30秒來管理。然而,輔助任務已經成功地用於認知負荷理論研究以顯示預測的認知負荷變化。確定認知負荷(例如眼睛跟蹤)和生理學方法(例如使用EEG數據)的其他同時和連續方法已開始作為潛在測量方法出現,但仍處於測試的早期階段,但仍然被證明有效。
總之,已經使用多種方法來測量認知負荷。心理努力或困難的主觀測量已經到最多的使用,並且已經非常成功地使用。它的一個偉大的優勢是,它很容易使用,並且非常不引人注目。相反,主觀測量法用於測量不同類型的認知負荷的嘗試不太成功。鑑於我們需要區分認知負荷的類別,我們嚴重懷疑心理測量技術能否有意義地區分這些構造,特別是在研究新手的學習時。已經有使用適當的實驗設計的實驗證明替代方案存在。