[RAC交互 X 阿里巴巴設計] 挑戰熟知,人機互動系統工作效率的定量測量

2021-02-18 互動設計小站

商業設計做得久了，大家一定見過很多這樣的理論和說法：「重要信息一定要放在左上角」；「文字14號最適合閱讀」；「最適合閱讀的行寬是60~75CPL（character per line）」等等。一直以來，這些理論從用戶體驗的學術圈流傳到商業設計圈，商業設計師們大都口耳相傳，一般很少，或基本沒有機會去驗證這些理論是否準確。直到最近，阿里巴巴安全體驗設計需要對一套業務系統的人機互動效能進行優化，而衡量這套系統效能的重要指標便是工作人員對信息的讀取和綜合判斷速度。那麼既然提到了人類對信息的讀取速度，首先我們想到的便是上述的那些理論。比如字體和字號，文字顏色和文字的背景顏色，字間距和行間距，以及文本寬度和布局等等是否會影響到閱讀的速度。有些從一些文獻中可以找到直接結論

中文的基礎閱讀速度：大約562~622wpm （word per minute），實際跳讀速度可能遠快於這個水平 @《論中文的閱讀速度》廖建橋,張萬山，1996

字體和字號，文字顏色和背景顏色對閱讀速度的影響：分欄與字色在閱讀指標和眼動指標上交互作用均不顯著 @《字色與分欄對英文閱讀影響的眼動研究》孫玉婷，2016

字間距和行間距對閱讀速度的影響：在增大空格的條件下，平均注視時間最短，向前眼跳幅度最長，表明增大字間空格在一定程度上減少了視覺擁擠。但是其他眼動指標並未體現增大空格的促進作用，可能是由於在增大字間空格條件下，增加了句子呈現的物理長度，使得注視點個數增多，因此產生了注視點與注視時間的權衡，所以在整體閱讀時間上並沒有表現出更大促進作用 @《漢字空間格大小對青年和老年人閱讀的影響》，2020；在一定字號範圍內，不同字體大小的閱讀速度無顯著差異 @《眼動對中文閱讀速度的影響研究》2007

分欄與閱讀速度的關係：在單欄閱讀時，受試者會指向屏幕，但在三欄閱讀時很少這樣做，這表明受試者在單欄閱讀時很難保持自己在文本中的位置 @《THE EFFECTS OF MULTIPLE COLUMN ONLINE TEXT ON READING SPEED, READING COMPREHENSION, AND SATISFACTION》 RyanBaker，2002

根據以上論文，我們大致可以判斷文字字體，字號和間距可能對閱讀速度（或視覺搜索速度）的影響不大，而文本寬度和排列情況對於信息輸入效率的影響則沒有找到基於中文環境的明確結論。所以我們決定在優化系統效能的開始階段，首先通過試驗，確定文本寬度對閱讀效能的影響情況。並通過後續一系列試驗，逐漸沉澱出一套對人機互動系統工作效率定量測量的方法。在這篇文章中，主要目的是以這次試驗為實例，分享一些我們現在使用的定量試驗設計方法和分析思路。

試驗設計

1. 試驗目標

確定在23英寸顯示器，放縮倍數100%，1920*1080解析度，中文環境下，100%全寬度文本，50%寬度文本，25%寬度文本對視覺搜索效率的影響情況。

（1）n位被試同時進行A，B，C三組測試；

（2）ABC三組測試每組20道試題，ABC具有不同的樣式，分別對應100%，50%，25%的文本寬度。

ABC三組中的每道試題由紅色文字的結論，和黑色文字的描述組成。被試需要根據黑色文字描述判斷紅色文字的結論是否與描述一致，如果一致，則選擇『對』選項，反之選擇『錯』，之後點擊提交按鈕提交。

這些試題參考了小學五年級閱讀理解，對於正常被試而言沒有理解障礙，同時，紅色的結論完全出現在黑色描述之中，用來輔助被試將閱讀行為轉化為視覺搜索行為。每組試驗題目難度和文字長度基本相同，內容不重複。

（3）針對n位被試，ABC三組的試驗打亂次序進行，防止順序效應對試驗結果造成的影響。也就是被試1，試驗順序ABC，被試2，試驗順序ACB...依次類推。

（4）試驗除了統計視覺搜索速度相關的指標外，也希望對造成視覺搜索速度差異的因素進行觀察，故部分試驗組也會採集相應的眼動數據。採集和統計到的數據以下表進行記錄：

被試樣本數n的確定

樣本數的確定目前在商業設計領域以經驗數量為主，通常定量測試選擇人數在15~40人之間。

本次試驗希望摸索一種完全定量的模式，所以希望較為準確地對樣本數進行估計。由於想定會使用對平均值的T檢測進行ABC三組試驗數據兩兩之間差異度的顯著性分析，所以在試驗前使用了G-power軟體對試驗樣本數n進行了估計。

其中參數設定如下：

1.Test family=t test

2. Satistical test（統計方法）=Correlation：Point biserial model（點二列相關，這個目前不是很懂...）

3. Type of power analysis（統計功效分析類型）=Compute required sample size...（樣本數n，置信度α，檢測力power，效應量ρ，已知其中三個可以求另外一個，這裡就是在求解樣本數）

4. Tail（s）=Two（雙尾T檢測）

5. Effect size（ρ）=0.8（試驗前一般可分別根據經驗取值0.2，0.5，0.8，當預計兩組間試驗數據差異較大時，使用較大的數值，但不能超過1，在這裡先憑經驗取值0.8，後續可根據實際試驗數據對ρ進行校正）

6. α = 0.05（置信度95%，也就是95%的情況下可以拒絕原假設h0，h0=兩組數據無顯著性差異）

7. Power=0.8 （經驗取值檢測力0.8，在後續試驗中可以對這個參數進行修正，本次試驗沒有進行修正）

在上述參數設定下，Total sample size = 7，也就是需要7個人就可以得到置信度95%之下兩組數據是否存在差異的結論，看起來這個樣本數是偏小的，但不妨礙我們先開始試驗。

試驗數據分析

首先，對七位同學進行了試驗，每位同學都參加了ABC三組測試。

試驗結果如下：

從平均值看，三個試驗組的平均值不同，全寬組用時最長，1/4寬度組最短。

但我們是否可以就此得出結論，和屏幕等寬的文本視覺搜索速度最慢，屏幕1/4寬度的文本視覺搜索速度最快呢？

顯然是不可以的，因為平均值的差異有可能是由隨機誤差或系統性誤差造成的，所以接下來我們用平均值的T檢測對三組數據間兩兩之間是否存在顯著性差異進行分析。

我們使用Excel內置的「t-檢驗：平均值的成對二樣本分析」進行分析：

A-B組之間：

其中P單尾=0.2，P雙尾=0.4，明顯差異不顯著（P雙尾小於0.05時差異顯著，P越小表示就越顯著）。也就是A-B組之間的差異可能是由於隨機誤差，或系統性誤差造成的。類似的，又進行了B-C組與A-C組差異性的檢測，同樣差異不顯著（篇幅所限，數據就不展示了）。

但這很有可能是由於樣本量過少造成的，因此，我們可以根據先導試驗得出的標準差對樣本數進行校正：

此時ABC三組平均值分別為：287，251，241，標準差分別為79，63，33，使用效應量計算器計算：

此時的Effect size（ρ）=0.24，相應的，計算得出的樣本數為：

n=131，但這個樣本數已經超出我們預期的成本（包括時間成本）太多了，因此雖然我們決定繼續增加被試進行試驗，但同時決定邊試驗邊對數據進行顯著性觀測，如果依然沒有很高的顯著性出現，說明試驗因素（也就是文本寬度）的效應量實在太小，在低樣本數時不足以觀測出顯著結果，同時也說明這個因素實際上對視覺搜索的效率並沒有太大影響。

將樣本數n擴大至17人時（剔除一組異常數據後），結果如下：

A組所用平均時長依然最長，C組快於B組。再次對平均值進行兩兩T檢驗：

A-B組之間：

其中P單尾=0.22，P雙尾=0.45，差異依然不顯著。

此時對應的效應量已經小於0.2，對應的樣本量n超過500+，也就是需要進行500人級別的試驗才有可能出現顯著性差異（或依然沒有顯著性，只能說明『不顯著』的結論置信度更高），說明文本寬度對於人類視覺搜索速度基本沒有影響。對於業務而言，提高效率可能需要另想辦法。

我們考慮被試在參與ABC三組混合試驗時，有可能會因為順序的原因產生閱讀速度差異，於是我們又把A出現在第1，2，3次測試，B出現在第1，2，3次測試，C出現在第1，2，3次測試所用的時間分別進行了對比：

t檢測結果A-B組之間相對差異大一些，P單尾=0.07，P雙尾=0.15，但依然不顯著。

試驗結論和眼動儀觀測結果

在當前能接受的樣本範圍內，對於一定字數（相對較少字數）的文本，文本寬度因素下，視覺搜索效率並沒有顯著性的差異。

想要通過優化文本寬度進而對界面使用效率進行優化的想法可實現性較低。

通過現場對被試的訪談，可以得出被試進行B，C組測試時體感較舒適，如果增加題目字數，加長試驗時間，增加試驗題目，結果可能有所不同。但個人認為，基於試驗結果，文本寬度這個因素對於小字數文本的視覺搜索或者說閱讀而言不是十分重要的因素，也可能說明人類對於此類因素的適應能力較強。

為此，在進行基於時間的定量測試之外，也對前幾組被試進行了眼動儀試驗，視圖觀察出文本寬度對被試視覺搜索模式的影響，以及這種模式是否是造成人類對於文本寬度具有較強適應能力的原因。

如前文所述，我們對每個被試，在ABC三組測試中，每組測試執行了20個任務。所以在眼動試驗中，我們使用自研的用戶體驗分析工具DEEP EXPERIENCE將這20個任務經由眼動儀測定的眼動情況進行了疊加，以試圖觀察出被試在該種文本寬度下的視覺搜索模式。

在如下圖所示的多任務眼動疊加視圖中，上方的圓圈為多任務觀察次序的疊加，其中紫色表示最先觀察的位置，黃色表示最後觀察的位置，圓圈的半徑表示注視時長；下方的每一條條狀圖表示完成一個眼動任務的所有眼動動作，其中實心方塊的長度表示注視（Fixation）時長，方塊之間的連線長度則表示兩次注視之間的眼跳（Saccade）時長（注意不是眼跳距離）。

某被試在測試組A（文本寬度為屏幕寬度）中的視覺搜索模式：

同一被試在測試組B（文本寬度為1/2屏幕寬度）中的視覺搜索模式：

同一被試在測試組C（文本寬度為1/4屏幕寬度）中的視覺搜索模式：

從圖中可以看出，眼動儀試驗可能部分解讀了文本寬度對視覺搜索效率影響不大的原因。

儘管ABC三組之間的眼跳距離有所不同，但注視和眼跳所用的時間基本沒有差別。

也就是當文本寬度加大時，眼跳距離雖然明顯增加，但一般理論普遍認為的，在進行更長距離的眼跳之前的注視（Fixation）將花費更長準備時間的現象在試驗中並不明顯，反之，被試以更快的眼跳速度進行了掃讀，最終造成所用的視覺搜索時間和其他幾種文本寬度沒有顯著差異。

這可能說明，人類在進行限定的字數範圍內的視覺搜索時具有較強的適應能力，搜索的效率對於文字的排列並不敏感。

定量測量方法的總結

交互系統效率一般來講沒有絕對的好與壞，通常需要進行對照試驗。

在對照試驗中，對於樣本數的確定一般來講是比較頭疼的問題，除了適用經驗被試數的情況之外，可以採用預試驗的方法，通過對效應量的逐步修正進而確定適合的被試數，或者儘快中止沒有顯著結果的試驗。

對於試驗組之間的試驗結果數據是否具有顯著性差異，可以用方差檢測或t檢測進行驗證，使用何種檢驗方式，在試驗設計階段就要加以考慮，樣本數的確定也與使用的檢驗方式相關。

對於眼動測試而言，試驗過程中的準備工作和試驗結果的處理工作（Segment和Scene拆分）需要花費大量時間，在試驗的一開始就要有充分的思想準備。

以上，就是我們在對交互系統進行量化試驗中獲得的一些經驗，不論對於試驗設計，還是過程中對變量的控制，還是統計學分析方法，都還處於起步階段，有任何問題，希望讀者多多指正。

想了解和學習更多交互知識, 可以加入我們的學習討論社群哦~

更多精彩

[RAC交互 X 阿里巴巴設計] 挑戰熟知,人機互動系統工作效率的定量測量

相關焦點

人機互動的內容有哪些_人機互動主要研究什麼

阿里巴巴和清華大學成立聯合實驗室推動人機互動研發 |新京報財訊

Rokid副總裁向文杰:人機互動的終極形態是腦機交互

不一樣的「注意力」:人機互動注意力的測量指標與利用

新興+潛力:卡內基梅隆大學人機互動設計專業

前景專業|人機互動(HCI)

人機互動簡述,一起來了解人機互動的世界!

下一場革命性的人機互動方式會是什麼?

嵌入式人機互動界面研究與實現

百度發布AI互動設計新成果:人機互動越來越「有意思」

互動設計是什麼?深入分析互動設計專業,附全球互動設計院校推薦

不一樣的「注意力」:人機互動注意力的測量指標與利用

人機互動作品集,一定要展現技術嗎?

藝術設計:探索適合老年人的交互方式

華安鑫創:人機互動圖形設計業務獲得較快發展

視聽整合:人機互動界面的新方向

人機互動中的一個重要問題:認知負荷測量

智能經濟時代人機互動三大趨勢

交互作用

人機互動院校選擇篇:喬治亞理工大學

[RAC交互 X 阿里巴巴設計] 挑戰熟知,人機互動系統工作效率的定量測量

相關焦點

人機互動的內容有哪些_人機互動主要研究什麼

阿里巴巴和清華大學成立聯合實驗室 推動人機互動研發 |新京報財訊

Rokid副總裁向文杰:人機互動的終極形態是腦機交互

不一樣的「注意力」:人機互動注意力的測量指標與利用

新興+潛力:卡內基梅隆大學人機互動設計專業

前景專業|人機互動(HCI)

人機互動簡述,一起來了解人機互動的世界!

下一場革命性的人機互動方式會是什麼?

嵌入式人機互動界面研究與實現

百度發布AI互動設計新成果:人機互動越來越「有意思」

互動設計是什麼?深入分析互動設計專業,附全球互動設計院校推薦

不一樣的「注意力」:人機互動注意力的測量指標與利用

人機互動作品集,一定要展現技術嗎?

藝術設計:探索適合老年人的交互方式

華安鑫創:人機互動圖形設計業務獲得較快發展

視聽整合:人機互動界面的新方向

人機互動中的一個重要問題:認知負荷測量

智能經濟時代人機互動三大趨勢

交互作用

人機互動院校選擇篇:喬治亞理工大學

阿里巴巴和清華大學成立聯合實驗室推動人機互動研發 |新京報財訊