原創 Synced 機器之心
機器之心分析師網絡
作者:仵冀穎
編輯:Joni Zhong
本文將探討人機互動中的注意力問題。
本文我們關注注意力(Attention)問題。在這裡,我們談到的注意力與大家非常熟悉的機器學習中的注意力模型(Attention Model,AM)不同,本文討論的是人機互動中的注意力問題。
人機互動中的這種注意力也被稱為是用戶的關注焦點(User's focus Of Attention)。人機互動中的注意力是構造社交機器人(Social Robot)的重要問題,也在普適計算和智能空間等人機互動應用中起到非常重要的作用,因為在這些應用中,必須能夠持續的監控用戶的目標和意圖。
通過引入並有效測量注意力,能夠改進人機互動的方式、效率和效果。一般認為,主要通過眼睛注視(Eye gaze)和頭部姿勢動態(Head)等來確定注意力 [1]。針對這些測量指標,研究者需要結合機器視覺和其他傳感技術,測量和計算交互中的注意力指標,並且利用這些指標對機器人的行為進行控制。另一方面,這些指標也可以作為衡量社交機器人或者機器人輔助治療中的效果。
本文首先介紹了一種用於社交機器人的人機互動方法,該方法根據目標人當前的視覺注意力焦點來吸引和控制目標人的注意力,從而建立人和機器人之間的溝通渠道。這也是社交機器人中注意力的最直接的研究和應用。此外,本文還介紹了兩個在人與機器交流場景中的注意力應用,一是將注意力應用於在線教育效果的評估,另一個是在機器人增強治療中開發自閉症兒童的聯合注意力(Joint Attention,JA)。
一、Supporting Human–Robot Interaction Based on the Level of Visual Focus of Attention
論文地址:https://ieeexplore.ieee.org/abstract/document/7151799
在社交機器人的構造過程中,為了使機器人能夠在服務應用程式或協作工作場景中與人類進行有效的交互,應該將這些機器人視為社會參與者,並表現出社會智能和意識。本文提出了一種智能的社交機器人工作方法,能夠根據目標人的視覺注意力水平(Level of visual focus of attention,LVFOA)吸引目標人的注意力,並建立與目標人的交流通道。
作者認為 VFOA 是機器人能夠有效吸引注意力(用戶關注點)和啟動互動的一個重要線索,因為:1)它有助於理解人在做什麼,2)它表明關注目標客體是誰(誰在看誰)。本文使用視覺線索,例如注視模式(Eye gaze),以及目標人的任務背景來識別 VFOA 及其水平。
1. VFOA 介紹
人們一般都會傾向於注視他 / 她感興趣的目標物體 [2],為了描述參與人機互動任務的目標人的注意力情況,本文定義了視覺注意力(Visual Focus of Attention,VFOA)為三維表示的注視方向(gaze direction)。而具體任務 Ti 定義為:Ti(T={閱讀、寫作、瀏覽、觀看繪畫)},其中,i=1...4,Ti 是屬於有限組可視目標 Li 的元素,而 Li 就是由不同任務的不同目標對象組成。例如,L1={book},L2={notebook},L3={display,keyboard,mouse} 和 L4={paintings},分別用於閱讀、寫作、瀏覽和查看繪畫任務。作者定義了當目標人從指定的目標對象轉移其 VFOA 時如何度量其注意力的喪失,還定義了如何測量目標對象參與任務時 VFOA 的持續時間。
本文對 18 名參與者(14 名男性,平均年齡 28 歲,標準差 4.9)完成四項任務的過程進行了錄製:閱讀(4 名參與者)、寫作(4 名)、瀏覽(6 名)和觀看繪畫(將注意力集中在室內的一幅畫上,4 名)。給參與者發出的指令是要求他們集中精力完成任務。每個人閱讀、寫作、瀏覽和觀看繪畫的平均任務完成時間分別為 9 分鐘、9 分鐘、8 分鐘和 8 分鐘。
為了測量 VFOA 的持續時間,作者觀看錄製的視頻數據,並手動標註(使用暫停和重新開始)參與者在沒有失去注意力的情況下對任務產生一致結果的時間段。當受試者將當前的 VFOA 轉向另一個方向時,就會出現注意力喪失的情況。對於閱讀和寫作,參與者分別在「翻頁」和「停止寫作」時失去注意力。對於閱讀、寫作、瀏覽和觀看繪畫的任務,分別檢測到 14 次、10 次、9 次和 12 次注意力的喪失情況。根據這些情況的持續時間,估計得到了每個任務的 VFOA 時間跨度(見表 1)。
表 1. VFOA 持續時間(分鐘)
2. 本文方法介紹
本文所提出的方法如圖 1 所示。在啟動交互模塊(見圖 1(a)的左側部分),機器人識別並跟蹤目標人的 VFOA。如果它們最初是面對面的,機器人會產生一個感知信號,並與目標人進行眼神接觸。否則,機器人會試圖通過識別目標人當前的任務來吸引目標人的注意力。機器人檢測當前 VFOA 的水平,直到時長達到 T_s(T_s 為預先設置的用於表示 VFOA 持續的最大時間跨度的參數)。圖 1(b)給出了這一方法的具體執行步驟。機器人在時間 t 使用低級或高級的 VFOA(取決於目標人的當前任務),根據目標人的移位 VFOA 的觀察情況來生成吸引注意力(Attention attraction,AA)信號(弱或強)。
圖 1.(a) 本文提出的方法的抽象視圖;(b) 本文方法的基本步驟。
圖 2. 頭部方位分為五個角區域,其中使用的人臉圖像來自遠 GTAV 人臉資料庫 [3]。
由圖 2,本文作者將一個人的視野(Field of View,FOV)分為中心視野和周邊視野,具體包括下面三個分區:
中心視野(Central Field of View,CFV):這個視野位於人類視野的中心。該區域設置為 30° 的錐形區域(圖 2 中為 75° 至 105°);
近周邊視野(Near Peripheral Field of View,NPFV):定義為 CFV 區兩側 45° 扇形區域。在 CFV 的右側(圖 2 中為 30° 到 75° 之間),該區域被定義為右側近周邊視野(RNPFV),而在左側(圖 2 中為 105° 到 150° 之間),該區域被稱為左側近周邊視野(LNPFV);
遠周邊視野(Far Peripheral Field of View,FPFV):這個視野存在於人視野邊緣的兩側,具體包括右側遠周邊視野(RFPFV)和左側遠周邊視野(LFPFV)。
如果在 CFV/LNPFV/RNPFV 中檢測到 VFOA,則機器人會產生頭部轉動動作(微弱信號)。如果檢測到的 VFOA 在 LFPFV 或 RFPFV 中,則機器人產生搖頭動作(強信號)。當機器人成功吸引目標人的注意時,通信信道建立模塊(圖 1(a)的右側部分)嘗試與目標人建立通信信道。機器人決定了注意力轉移的程度,並向目標人發出一個感知信號,表明它想和她 / 他交流。機器人通過眨眼完成眼神交流。
2.1 視覺注意焦點的識別及其水平
本文重點關注的是:持續的注意力(Sustained Attention)和集中或轉移的注意力(Focused or Shifted Attention)。集中注意力或轉移注意力是由刺激或意外事件所導致的瞬時反應,而持續的注意力則是由任務決定的。本文根據視覺信號(Visual Cues)和注視模式來衡量 VFOA 及其水平。
1)獲取視覺信號。一是,使用視覺機器的 faceAPI 來檢測和跟蹤目標人的頭部姿勢 h_p。二是,使用光流特徵檢測頭部運動 h_m [4]。三是,重疊面窗口:如果檢測到一個面部並且與最近的頭部運動窗口重疊,h_m 大於 50%,則認為檢測到重疊的面部窗口 o_f(o_f=1)。檢測到重疊面窗口就意味著目標人把臉轉向了機器人。本文使用 Viola-Jones AdaBoost-Haar-like 人臉檢測器檢測人臉 [5]。
2)注視模式分類。一個人的注視模式表明了他 / 她感興趣的對象。一般來說,人類的注視模式分為三種。當一個人在沒有任何特定任務的情況下觀看場景時,也就是說,當她 / 他「只是看到」場景時,就發生了自發的觀看(Spontaneous Viewing)。當一個人帶著特定的問題或任務(例如,她 / 他可能對博物館中的某一幅畫感興趣)觀看場景時,會出現任務或場景相關的觀看(Task or Scene-Relevant Viewing)。當受試者不太注意自己在看什麼,而是在關注一些「內心的想法」時,就會出現思維觀察的取向(Orientation of Thought Viewing)。本文討論的是前兩種注視模式,使用 SVM 進行兩類注視模式的分類處理。
圖 3. (a) 檢測到的頭部及其在圖像中的位置。(b) 提取人臉特徵點。(c) 基於人臉特徵點的眼睛區域估計。(d) 檢測到眼睛區域內的虹膜中心。
為了得到注視模式 Gp,本文考慮了頭部在圖像中的平移運動和虹膜在眼睛中的位置變化。圖 3 給出了本文實驗定位人頭部的過程。首先定位到頭部區域,之後利用 ASM 找到面部特徵點,最後定位到虹膜中心。令 H_0 表示初始頭部位置,E_t 為第 t 幀的眼睛注視位置(眼睛中相對虹膜位置)。T_Ht 表示來自 H_0 的頭部運動的平移矢量,則第 t 幀的注視點 Q_t 確定如下:
Gp={Q_0,Q_1, ...,Q_L−1} 表示 L 幀的注視模式。圖 4(a)示出了觀看場景中的特定點(任務或與場景相關的觀看)的人的注視模式,並且在圖 4(b)中示出如何觀看三個不同點(自發觀看)。
圖 4. 注視模式:(a)與任務或場景相關的觀察;(b) 自發觀看。
通過對注視模式的重心進行歸一化處理,從注視模式數據中提取特徵向量。假設 C_m 是重心,r_t 是從 C_m 到注視點 Q_t 的歐氏距離:
其中,t=0,1, ...,L−1。接下來,將距離值 r_t 按降序排序,並構造分類器的特徵向量。使用 SVM 進行分類。
為了進行訓練,作者收集了注視數據,並構建與場景相關的、自發觀看的注視模式的訓練數據。SVM 模型能夠將注視模式分類為自發觀看(spontaneous viewing)S_l 和任務或場景相關觀看(task or scene-relevant viewing)T_l。
最後,通過識別目標人物所參與的任務來確定任務上下文(Task Context)。給定一個視頻序列,提取每幀的方向梯度(HOG)特徵直方圖 [6]。將 HOG 特徵組合為 10 個連續的幀來構建 HOG 特徵模式 HOG_P:
其中 F_0 和 F_i 分別是第一幀和第 i 幀的 HOG 特徵。
在識別出目標人的任務(或當前 VFOA)後,接下來,使用任務的相關上下文線索來識別注意力水平。對於每個任務,本文使用任務相關的 VFOA 跨度(T_s)來確定機器人應該等待多長時間或者機器人應該在怎樣的時間周期內與目標人交互。此外,還定義了一些特定任務的線索來確定注意力的水平。以閱讀 reading 為例,使用翻頁率 P_t 和傾斜角度偏差來測量 LVFOA。而這些特定任務的線索的位置是根據人的身體的相對位置來確定的,本文應用的是文獻 [7] 中給出的人體跟蹤系統。
2.2 持續視覺注意力的集中程度
根據語境線索和注視模式,VFOA 水平分為低水平和高水平。當注意力水平降低時,系統假設檢測到 VFOA 丟失。對於不同的任務,注意力水平檢測如下:
S_l 表示自發觀看。如果檢測到自發觀看,則假定此人對某項任務沒有特別注意,即,表示檢測到低注意水平。對於閱讀和寫作任務,除了頭部姿勢的改變外,本文還考慮了「翻頁」(Pt)和「停止寫作」(Ws)等行為來檢測低注意水平。對於上式來說,如果特定的頭部姿勢變化且穩定性大於或等於 3 幀,則相應任務的注意力水平較低。否則,表示注意力水平較高,當前的注意力集中在任務上。
2.3 注意力集中 / 轉移的檢測
焦點 / 注意力轉移分為兩個階段。首先,為了吸引目標人的注意力,機器人從持續的 VFOA 中檢測出焦點 / 轉移的注意力。第二,在發送 AA 信號後,機器人需要檢測到焦點 / 轉移的注意力。
注意力從持續性 VFOA 轉移:為了發起禮貌的社交互動,機器人應該根據目標人當前持續的 VFOA 去吸引他 / 她的注意力。在引起注意後,機器人檢測到目標人移位的 VFOA。根據環境因素和目標人的心理焦點,持續性 VFOA 可分為五個區域之一:CFV、LNPFV、LFPFV、RNPFV 和 RFPFV。利用頭部姿態的平移角度來檢測移位的 VFOA 區域。
對機器人的注意力集中 / 轉移:對機器人的注意力集中 / 轉移的檢測是機器人與目標人進行目光接觸的重要線索。如果機器人和目標人沒有面對面,那麼機器人會發送一些 AA 信號,等待她 / 他的注意力朝向目標。當目標人轉移注意力或將注意力轉向機器人時,就要求機器人能夠檢測到對機器人的注意力集中 / 轉移。為了進行成功的眼神交流,機器人將注意力集中 / 轉移的程度分為三級:低、中、高。機器人向目標人發送一個 AA 信號,並逐幀分析輸入的視頻圖像,以檢測目標人是否正在向其移動。如果目標人正從她 / 他當前的注意力焦點轉向機器人,那麼在頭部周圍會檢測到一些相鄰的 h_m 窗口。聚焦 / 移位 VFOA 的級別按如下分析進行分類。
當除了頭部運動之外沒有檢測到其他視覺線索時,可以假設集中 / 轉移的注意力水平較低:
其中,N_hm 表示後續幀中出現連續的頭部運動的窗口數量,o_f 表示是否檢測到重疊窗口(檢測到為(1),未檢測到為(0)),(h_p)^ p 是頭部姿勢的估計平移角度,N_fs 是檢測到重疊窗口後在後續幀中的面部穩定性檢測結果。
如果在相鄰的頭部運動區域內通過重疊的面部窗口檢測到頭部運動,則注意力水平為中等:
當成功檢索到視覺線索並穩定下來時,注意力水平較高:
對應於上述三個公式,當能夠滿足公式右側全部條件時,表示檢測到對應的注意力水平。檢測到的注意力水平將用於隨後的意識生成,並進行成功的眼神交流。
2.4 基於視覺注意焦點的初始互動
在禮貌的社會交往中,人們通常會先抬起頭來,或是轉頭朝著想與之交流的人,再進行後續的交流。然而,如果目標人對某項任務的注意力集中度很高,作為人類就會嘗試使用一些更有力的動作(例如多次轉頭、揮手、走近對方並轉頭,使用聲音等)來吸引對方的注意力。我們當然希望社交機器人也能做到這樣。
在本文的研究中,機器人會監測目標人 VFOA 的程度及移位的 VFOA 區域,以選擇適當的控制訊號。當持續性 VFOA 注意力水平較低且移位的 VFOA 位於 CFV/LNPFV/RNPFV 區域時,機器人會選擇頭部轉向動作發出弱信號。當持續性 VFOA 注意力水平較低且移位的 VFOA 位於 LFPFV/RFPFV 區域時,機器人會使用搖頭動作。在持續 VFOA 注意力水平較高且需要吸引目標人注意力的情況下,機器人還會採用搖頭動作。
本文使用搖頭動作作為一個很強的 AA 信號,因為物體的突然運動會引起人們的注意。如果一個人處於一個看不到機器人動作的位置,機器人的非語言行為所產生的視覺刺激不會影響到他 / 她。因此,本文不考慮移位的 VFOA 在 FOV 區域之外的情況。
2.5 建立溝通渠道
為了建立一個交流通道,機器人需要讓目標人注意到它正看著她 / 他。機器人應該能夠通過一些動作(例如面部表情、眨眼或點頭)來表達它的這個意識。本文通過眨眼來產生這種意識,因為眨眼是形成一個人印象的最重要的線索之一。機器人通過完成眨眼的動作,能夠使目標人感受到他 / 她正在被機器人注視。
如果機器人成功地吸引了目標人的注意,或者她 / 他注意到了機器人的動作,她 / 他就會將目光轉向機器人。當她 / 他看著機器人的臉時,機器人能認出她 / 他的臉。在檢測到目標人的面部穩定性後(即 FAH=1),機器人開始眨眼睛大約三次(1 blink/s),以建立一個通信通道。眨眼動作是通過快速關閉和打開 CG 圖像的眼瞼產生的,並通過 LED 投影儀顯示在機器人的眼睛上。
3. 實驗分析
本文在兩個不同的機器人場景中驗證所提出的方法。
3.1 靜態機器人頭部交互
本文在一個靜態機器人的頭部位置實現了基於目標人 VFOA 水平的人機互動場景。實驗的目的是驗證本文提出的交互系統會造成較少的幹擾,並且在她 / 他參與某項任務時能夠更成功地啟動與目標人的交互。具體實驗平臺見圖 5 所示。該系統包括頭部檢測與跟蹤、態勢識別、身體跟蹤、人臉檢測、眨眼、搖攝裝置控制單元、VFOA 檢測和轉移 / 集中注意力檢測模塊。
圖 5. 靜態機器人實驗平臺
參與者被要求注意自己的任務,並戴上帶有音樂的耳機,以避免被機器人做出動作時所產生的聲音幹擾。本文用兩個攝像機捕捉所有的互動。圖 6(a)為實驗環境。圖 6(b)給出了本文系統應用於兩種機器人行為的成功率。雙尾 Z 比例檢驗(Z=3.837,p<0.001)表明,本文所提出的機器人 IACR(87.5%,24 次試驗中吸引目標參與者注意力 21 次)明顯優於對比基線系統 SACR(33.3%,在 24 個實驗中,8 次引起目標參與者的注意)。在眼神接觸階段,兩組間無顯著性差異。這可能是由於眼神接觸成功與否取決於 AA 階段的成功率。
3.2 博物館場景中的 Robovie-R3
文章最後給出了另外一個實驗,構建了一個位於博物館內的參觀者和機器人之間的交互場景。假設一個參觀者在博物館裡觀察畫作,參觀者會把注意力集中在某一幅畫上。機器人位於遠離畫作的地方,因此,它不會干擾參觀者的移動和注意力。當機器人檢測到參觀者的高水平注意力時,它會對參觀者的頭部方向進行分類,以選擇機器人應該從哪一側或哪個位置開始交互。機器人將參觀者的頭部定位分為五個角度區域:LFPFV、LNPFV、CFV、RNPFV 和 RFPFV。然後,機器人選擇合適的運動路徑和位置來啟動交互(見圖 7)。
圖 7. 機器人的交互位置:(a)當在 LNPFV 區域檢測到訪客的注意方向時,機器人選擇左側的交互路徑;(b) 當在 RNPFV 區域檢測到訪客的注意方向時,機器人選擇右側的交互路徑。
將六幅畫(P1–P6)掛在同一高度的牆上(見圖 8(a))。這些畫被放置在不同的地方,讓參與者從一個固定的站立位置將 VFOA 固定在一幅特定的畫上。一個 USB 攝像頭(位於畫作(P3)的頂部,用於檢測訪客的凝視和頭部方向。P2、P3 和 P4 分別放置在 LNPFF、CFV 和 RNPFV 區域。將 Robovie-R3 眼睛(見圖 8(b))替換為計算機圖形生成的用於注視通信的投影眼睛(見圖 8(c))。為了確認參觀者能夠與機器人進行眼神接觸,在機器人頭部下方放置了一個 USB 攝像頭(見圖 8(d))。在交互場景中,每個參與者被要求站在一個固定的位置,她 / 他的目光和頭部方向可以在畫作中自由的移動,最後,他 / 她會將注意力固定在圖片 P2、P3 或 P4 上(見圖 9)。
圖 9. 實驗場景的快照
實驗中採用兩種方法,方法 1(M1):機器人根據參觀者的注意力方向選擇運動路徑,與參觀者進行面對面交流;方法 2(M2):在 LNPFV 或 RNPFV 區域,機器人從參觀者注意力方向的相反方向出現。實驗要求參觀者為每種方法填寫一份問卷(在互動之後)。這項測量是一個利克特評分(Likert scale):1(強烈反對)到 7(強烈同意)。問卷有兩個主觀問題:問題 1(Q1):在互動開始時,你有沒有感覺到你和機器人有眼神接觸?問題 2(Q2):你認為機器人的方法對啟動交互有效嗎?
對於問卷 Q1(見表 1),當訪問者觀看圖片 P2 時,兩種方法(M1 和 M2)之間的差異具有統計學意義(Z=−2.831,p<0.01)。對於圖片 P4,兩種方法之間的差異也具有統計學意義(Z=−2.609,P<0.01)。對於圖片 P3,兩種方法(M1 和 M2)之間沒有顯著性差異。因此,為了在交互啟動過程中成功的進行目光接觸,當參觀者分別觀看圖片 P2 和 P4 時,機器人應選擇左側和右側的運動路徑。當參觀者看到圖片 P3 時,機器人可以選擇左側或右側的運動路徑進行眼神接觸。
表 1. Q1 的問卷結果
表 2. Q2 的問卷結果
對於問卷 Q2(見表 2),當參觀者觀看照片 P2 時,Wilcoxon 符號秩檢驗顯示出顯著差異(Z=−2.836 和 p<0.01)。對於圖 P4,差異也具有統計學意義(Z=−2.687,p<0.01)。對於 P3 圖,沒有發現顯著性差異。因此,為了啟動一個交互場景,當參觀者分別看到圖片 P2 和 P4 時,機器人應該選擇左側和右側的運動路徑。當參觀看到圖片 P3 時,機器人可以選擇左側或右側的運動路徑。
4. 文章小結
本文提出了一種智能的社交機器人工作方法,該方法從人機互動的注意力角度出發開發了一種機器人工作模式,它可以吸引目標人的注意力,並根據她 / 他的 LVFOA 與她 / 他建立一個交流渠道。該方法能夠有效地啟動與目標人的互動過程,吸引目標人的注意力,並建立與目標人的溝通渠道。
作者認為,當前的系統在實際應用中還存在以下問題:
首先,它需要環境中的攝像頭來觀察人們的注視模式。這在博物館場景中是可以接受的。但是,在一些對環境聲音有要求的場景下就無法應用。現在的機器人移動時會發出很大的噪音。如果它們移動,它們會引起人們的注意並中斷他們的工作。在本文的實驗中,要求參與者戴上帶有音樂的耳機來減輕這些噪音的影響。然而,如果這種機器人能像人類一樣安靜地移動,它們可以移動到更容易用車載攝像頭觀察目標人的位置,則會具有更大的應用價值。
其次,本文使用了一個恆定值(T_s)作為持續 VFOA 的最大時間跨度。這是當人們沒有表現出他們的低注意力水平或者機器人無法檢測到他們的低注意力水平時,機器人將等待的最大時間跨度。在這之前,人們往往表現出較低的注意力水平。因此,如果我們把這個值設置得足夠大,就像我們在實驗中所做的那樣,就不會有嚴重的問題。然而,如果能根據情況調整持續 VFOA 的最大時間跨度,實際應用效果會更好。
二、Predicting Engagement in Video Lectures
論文地址:https://arxiv.org/pdf/2006.00592.pdf
本文談到的注意力也與上文不同,本文關注的是公開的教育資源(Open Educational Resources ,OERs))在線學習過程中學習者觀看課程的注意力集中的程度。這裡,「人機互動」指的是學員(人)與機器播放的課程(機)之間的交互情況。在在線學習場景中,一般認為能夠使得學習者高度集中注意力的課程,是更為適合該學習者的課程。經典的 OERs 問題更關注個體用戶(學習者)的參與度,而本文的目標是建立模型以找到情景無關的(即基於人群的)參與度特徵,這是一個很少研究的問題。
在 OERs 問題中,學習者參與度是一個比受歡迎程度 / 瀏覽次數更可靠的衡量標準,比用戶評分更為豐富,已經證明是衡量學習成果的關鍵組成部分,即:較好的參與度可以增加取得更好學習成果的可能性。本文作者深入探討了建立基於人群的教育參與度預測模型。
1. 研究背景情況
隨著在線學習平臺的普及,越來越多的開放教育資源(OERs)面世。近年來大規模的教材創作對教育資源的自動管理提出了新的要求。在 OERs 的背景下,這意味著需要能夠自動尋找和推薦符合學習者目標的材料,從而最大限度地提高學習效果。作者認為,實現上述目標主要有兩個途徑:情景化參與(Contextualised Engagement)和情景無關性參與(Context-Agnostic Engagement)。本文探討的是後者,本文研究了情景無關性參與所涉及的特徵。這將作為構建整合的教育推薦系統的第一步,為將情景化和情景無關的特徵結合提供了可能。
由於相關的研究工作很少,為了在在線教育平臺中部署研究模型,本文作者提出了以下研究問題:
RQ1:如何編碼情景無關性參與?
RQ2:基於跨模態語言的特徵對預測視頻講座的參與度有多有效?
RQ3:是否包含模態規範性功能能使性能顯著改善?
RQ4:影響情景無關性參與的特點是什麼?
RQ5:預測基於人群的參與比研究個性化參與更有用嗎?
RQ6:我們能否假設一個共同的基礎模型來預測不同知識領域的參與度?
在此基礎上,本文完成了以下主要工作:
結合心理測量學文獻,研究了重新定義用戶參與信號的方法(RQ1)。
提出了兩組易於自動化預測參與度的特徵(基於情景無關的質量文獻和視頻特定特徵的跨模式特徵),並評估了它們(RQ2 和 RQ3)預測性能的差異。
構建了一個大型視頻講座數據集,並評估了所提出的參與信號和特徵集(RQ2-4)的性能。
比較了跨模態特徵,分析了單個特徵在預測模型中的影響(RQ4)。
將本文的基於人群的參與方法與個性化的類似方法進行比較,以證明其有用性(RQ5)。
比較了將視頻講座分為兩個不同的知識領域:STEM(如技術、物理和數學講座)與其他領域(如藝術、社會科學和哲學講座)的參與模式。
本文使用的數據來自一個流行的 OERs 資料庫,視頻講座 Net(VLN),地址如下:www.videolectures.net,並從其中選擇了研究人員在同行評審會議上演示的視頻集合。
本文使用的特徵包括:
授課時長(Lecture Duration),因為較短的視頻一般更具吸引力;
分塊(Chunking),即演講是否被分成多個部分;
描述授課類型(Type of Lecture)的一組指標變量,如教程、研討會等;
演講者速度(Speaker Speed),使用每分鐘平均講詞量來衡量;
沉默期率(Silence Period Rate,SPR),它是使用視頻記錄中表示沉默的特殊標記計算出來的。具體而言,SPR 計算如下:
其中,t 是屬於第 l 講的標記 t (l) 集合中的標記,N 為標記 t 的類型,D 為標記 t 或講座的持續時間,I () 是指示函數。
2. 具體任務分析
2.1 量化參與度(RQ1)
本文關注的參與度是一種隱性用戶反饋。本文用來量化參與度的主要指標是標準化參與 / 觀察時間(Median of Normalised Engagement/Watch Time,MNET)的中位數,MNET 被認為是參與教育材料的黃金標準 [8]。為了使 MNET 標籤在 [0;1] 範圍內,將 MNET 的上限設置為 1。作者在最初的數據分析中發現,VLN 數據集中的 MNET 值遵循對數正態分布,在這種分布中,大多數用戶通常在較小的時間閾值後會放棄觀看講座。假設這可能是因為需要一些時間來決定內容是否與學習者相關。超過這個閾值的用戶看起來更投入,因此離開率顯著降低。為了解決這個問題本文使用 Log 變換來轉換接合信號。最終標籤,即對數中位數標準化參與時間(Log Median Normalised Engagement Time,LMNET)計算如下:
2.2 機器學習模型(RQ2)
為了學習根據參與度對視頻講座進行排名,本文使用逐點排序模型來評估效果。回歸算法在實值空間中預測目標變量,這使得它們能夠根據預測創建觀測值的全局排名。此外,還使用了核函數評估了參與度預測的性能。引入核函數,能夠有效捕獲數據中的非線性特徵。本文使用徑向基函數(Radial Basis Function,RBF)。本文使用的回歸算法包括嶺回歸(Ridge Regression,RR)和支持向量回歸(Support Vector Regression ,SVR)。
此外,本文還評估了兩種算法(常規算法、RBF 核)、核嶺回歸(KRR)和核支持向量回歸(KSVR)的核化版本的性能。基於這些評估,能夠了解模式中是否存在非線性特徵,從而有利於完成預測任務。在上面討論的所有四個模型中,本文使用標準縮放,因為這些模型並不是尺度不變的。L2 正則化用於防止過度擬合和多重共線性。由於在先前的工作中,基於集合技術的方法也表現良好,本文也使用隨機森林回歸(RF)方法來評估其預測能力。該模型還能夠捕捉非線性模式。
2.3 特徵重要性分析(RQ4)
本文使用 SHapley 加法解釋(SHapley Additive exPlanations,SHAP)來進行特徵重要性分析。SHAP 是一個模型無關的框架,它量化了特徵對模型預測的影響。SHAP 通過為每個預測的每個特徵計算一個形狀值,估算了複雜模型族的特徵重要性 [9]。通過將預測數據點的所有形狀值繪製在形狀摘要圖中,可以確定每個特徵對預測結果的影響。通過計算每個特徵 f 的平均絕對形狀(Mean Absolute SHAP,MAS)可以對特徵影響進行定量分析。具體地,MAS 計算如下:
其中,N 是觀察次數。
3. 實驗分析
本文通過對兩個特徵集進行 5 次交叉驗證來完成對不同機器學習模型的評估。不同機器學習模型在不同參與量化方法下的性能見表 1。添加視頻特定功能時的性能見表 2。本文的實驗是使用 scikitlearn、textatistic 和 SHAP 的 Python 包實現的。
Python 代碼和所使用的資料庫已公開:https://github.com/sahanbull/context-agnostic-engagement
表 1. 基於 5 倍交叉驗證和交叉模態特徵的具有標準誤差的參與預測模型的成對精度(Pair.)和 Spearman 秩相關係數(SROCC)
3.1 RQ1 任務實驗結果:分析參與度、瀏覽次數和平均星級評分之間的關係
本文所使用的 VLN 數據源中也有考慮不同的講座課程內容子集的平均星級評分(顯式反饋)。值得注意的是,我們只能獲得平均星級評級,而不是每個觀察員的個人評級或測量數量。圖 1 中給出了平均星級 vs MNET 的結果和瀏覽次數。SROCC 接近於零,這主要是因為講座數量多、收視率高,但參與度低,而且觀看人數也不多。作者測試了所考慮的 4 個不同版本的參與度(原始版本、清潔版本、標準化版本和比較版本)的相關性,但都取得了相似的結果,SROCC 接近於零。作者從圖 1 得出結論:瀏覽量、評分和參與度確實代表了非常不同的信息。
圖 1. 散點圖,顯示了(i)瀏覽量與 MNET 之間的關係,(ii)視頻講座的平均星級與 MNET 之間的關係,(iii)平均星級與瀏覽量之間的關係,以及 Spearman 的等級相關係數(SROCC)。
3.2 RQ1-2 任務實驗結果:測試不同機器學習模型和參與信號的交叉模態特徵
作者提出了四種比較精確的定量方法(原始版本 LMNET、 清潔版本、標準化版本和比較版本),並對這四種方法進行了比較。這個實驗的目的是驗證在給定所提出特徵的前提下,哪個輸出目標變量更容易預測。表 2 給出了這些結果,以及在基於 5 倍交叉驗證的標準誤差界下,每個機器學習模型獲得的成對精度(Pair.)和 Spearman 秩序相關係數(SROCC)。精度值越大,模型的性能越好。這些結果表明,原始 LMNET 可能是最合適的目標標籤,特別是在建立預測原始 LMNET 的模型時,所提出的特徵似乎更有用。
作者從表 2 中得出另外一個觀察結論是:KRR 和 KSVR 模型的性能優於線性模型。這表明,數據集中可能存在非線性的關係,而引入核函數可以更好地捕捉到這些非線性特徵。
表 2. 通過使用基於內容的功能與基於內容的 + 視頻特定功能的 RF 模型的 5 倍交叉驗證,實現標準誤差的成對準確度。
3.3 RQ3 任務實驗結果:研究情態特徵對跨學科領域的影響和比較
表 3 的結果用於驗證:當僅限於特定主題的比較(屬於同一主題領域的講座對)時,如何提高成對準確度。在多數情況下,教育推薦系統需要在屬於同一主題領域的一組資源中進行選擇。表 3 還顯示了在專門使用跨模態功能集和添加視頻規範化功能時性能的差異。添加視頻功能可使性能提高約 2%。這一結果表明,雖然可以在不同的實際場景中復用特徵提取器,但當處理跨模態的特徵時,性能就會受到影響。
表 3. 通過使用基於內容的功能與基於內容的 + 視頻規範功能的射頻模型的 5 倍交叉驗證,實現標準誤差的成對準確度。
3.4 RQ4 任務實驗結果:研究與材料長度有關的參與度分布
在這一小節的實驗中,作者重點研究講座的長度如何影響參與度預測。首先,作者給出了視頻講座中總字數的分布(圖 3),這與講座視頻的長度直接相關。根據觀察到的多模態分布,作者將講座視頻分為兩組,少於 5000 字的短講座和長講座(見圖 4 中的參與度分布)。作者認為,對於長時間的講座,觀看時間的百分比往往較短。圖 4 中的 MNET 分布表明,與短講座相比,長講座的目標值分布更偏向於 0,這表明學習者較不傾向於觀看長視頻片段。這很可能是由其它一些超出了可測量特徵範圍的因素造成的,例如有限時間長度內的可用性和學習者的注意力持續時間短等。
圖 3. 視頻講座字數分布
圖 4. 短期和長期講座的參與標籤分布
4. 文章小結
這篇文章聚焦的是一個較少提及的研究領域,作者提出了一個情境無關的參與預測模型,該模型有助於改善教育推薦系統的效果。在不斷推出在線學習內容的情況下,所提出的預測模型估計了將這些學習內容展示給學習者的吸引力,即這些學習內容將如何影響學習者的注意力。通過使用這個模型可以更好地平衡與學習者滿意度相關的風險和獲取有效的新學習內容的機會。此外,本文提出的情景無關的模型可以以不同的方式與其它應用於在線學習的個性化系統集成。
作者提出,為了進一步改進模型,未來的工作主要關注三個問題:
1)包含更複雜的特性。向模型中引入更為複雜的特徵,例如權威性(Authority)和主題覆蓋率(Topic Coverage)等,可能能夠進一步改進模型的效果。
2)在跨模態方面,可以考慮更多關注基於內容理解的特徵,如話題連貫性和論據強度等。在特定的視頻前端,甚至可以融合主持人的生動性、音質和敘事品質等特徵。
3)關於模型的泛化能力,可以使用更大的視頻講座數據集和文本數據集評估跨模態特徵集的有效性,從而提高特徵集的可信度。同樣,也應進一步考慮使用非英語語言的數據集。
三、Developing Joint Attention for Children with Autism in Robot-Enhanced Therapy
論文地址:https://link.springer.com/article/10.1007/s12369-017-0457-0
本文討論的是社交機器人的一個醫療類的應用,即對於患有自閉症(Autism Spectrum Disorder,ASD)的孩子提供機器人輔助的增強治療。造成自閉症的主要心理因素之一是缺乏與互動夥伴的共同注意力(Joint Attention,JA)。社交機器人在自閉症兒童的幹預中具有重要的應用價值,尤其是在針對諸如共同注意力 JA 等技能時。之前關於兒童自閉症的研究顯示,自閉症兒童在接受機器人互動訓練後確實能夠改善他們的 JA 表現。基於這一研究結論,本文作者認為,在機器人輔助下實施的幹預措施有可能成為有效的 ASD 兒童 JA 技能訓練和幹預的措施。
因此,本文的主要研究目的是探討自閉症兒童的 JA 表現是否依賴於機器人在治療過程中使用的社交線索(Social Cues)。本文主要考慮了三種不同類型的社交線索:頭部方向(head orientation),指示( pointing)和口頭指令( vocal instruction)。作者認為,機器人使用的社交線索越多,兒童的表現就會越好。此外,本文利用了歐盟 Dream 項目(https://www.dream2020.eu/)開發的 NAO 機器人,研究了機器人強化治療與標準人類治療是否具有相似的模式。
1. 研究內容介紹
共有 11 名兒童參與了這項研究,但只有 5 名兒童符合納入標準,即:(1)基於 DSM-5 的自閉症診斷,(2)根據自閉症診斷觀察量表(ADOS)進行診斷確認的,(3)在執行目標行為方面存在明顯的困難的。所有的兒童都是從自閉症特蘭西瓦尼亞協會(Cluj Napoca,羅馬尼亞)招募的,這是一個為自閉症兒童提供專門服務的中心。參與測試的兒童的資料見表 1。
表 1. 受試者情況描述
本文的實驗採用了經典的單病例替代治療設計 [10]。單病例替代治療設計可以為治療手段的幹預效果提供嚴格的實驗評估,以及具有以下幾個基本特點:(1)確定基線測量值;(2)連續和重複測量依賴變量;(3) 獨立變量操作;(4)針對同一受試者隨時間複製幹預效果。單病例替代治療設計提供了對一個受試者比較兩種治療方案的可能性。因此,在一個基線時期內,兩個治療方案(A 和 B)以交替(隨機)順序進行,從而完成對一個或多個行為影響的觀察。分別繪製出每種幹預措施的效果數據,以給出每種治療效果的直觀表示。
在受試的各個階段,兒童都直接與機器人 / 人類互動。在機器人增強治療(robot-enhanced treatment,RET)條件下,機器人坐在桌子上,而基線測量(baseline measurement,BM)和標準人類治療(standard human treatment,SHT)條件下,治療師坐在桌子後面的椅子上,具體見圖 1。
圖 1. 實驗環境:兒童、互動夥伴(機器人 / 人類)和調解人
在房間的右側,操作員使用「Wizard of Oz」範式控制機器人的動作。在所有的任務中,都有調解人作為第三者參與交互,他的任務是在參與交互的夥伴(機器人或人類)和孩子之間進行協調以及提供必要的提示。攝像機和傳感器放置在實驗室機器人後面的位置,以捕捉孩子與機器人 / 人類互動時的面部表情、凝視和動作。
「Wizard of Oz」機器人實驗,意思是受試者與被認為是自主的計算機系統進行交互,但實際上是由看不見的人操作或部分操作。
本文按照離散實驗的方式完成任務,這是自閉症早期幹預計劃中常用的方法。這種方法主要針對訓練幾種技能以及在這幾種技能的基礎上隨後教授更複雜的行為。這種方法的特點是:教學環境是高度結構化的,行為被分解成離散的子技能,並以多次、連續的實驗方式來呈現;通過明確的提示,教孩子對夥伴所發出的辨別性刺激做出反應。
按照單例實驗設計,每個孩子都會經歷以下的實驗場景。
基線測量(BM),大約 6 到 8 次測量,直到達到一個穩定的基線水平。
機器人強化治療(RET),約 8 個療程。
標準人治療(SHT),約 8 個療程。
RET 或 SHT,具體取決於哪種治療方法對孩子的效果更好,大約 4 次治療。
每個療程持續約 10 分鐘,每天都會重複進行這些療程。RET 和 SHT 之間的順序是隨機的,以避免在實驗中出現順序效應。基線的療程是在與治療師的互動中進行的,這部分實驗滿足了離散實驗的要求。對孩子進行測試,在沒有明確的提示、提示消退或後援的情況下,驗證他們是否會對夥伴發出的辨別性刺激做出反應。JA 任務的結構包括:指示(instruction)、反應(response)和結果(consequence),具體見表 2。
表 2. JA 任務結構
實驗中所產生的的所有變量均使用用於對行為動作編碼的 Elan - 語言注釋器(4.5 版)進行人工編碼 [10]。變量只在任務過程中進行評估,而不需要在介紹或演示階段進行評估。對於兒童對指令的反映情況,依照表 3 中給出的行為網格進行評估。
表 3. 評估 JA 表現的行為網格
本研究使用的是由 Softbank Robotics 開發的人形機器人 NAO [11]。NAO 高 58 釐米,重量為 5 公斤,運動自由度為 25 度。它配備了豐富的傳感器陣列,2 個攝像頭,4 個麥克風,聲納測距儀、2 個紅外發射器和接收器、1 個慣性板、9 個測距儀,以及觸覺傳感器和 8 個壓力傳感器。NAO 的設備還包括 LED 燈、兩個揚聲器以及具有特定語言的語調和語速的語音合成器。
為了分析數據,本文使用了一個綜合非參數測試(Friedman)比較了每種類型會話(BM、SHT、RET)在三種提示條件(看、看 + 指示、看 + 指示 + 口頭指令)下的表現。與第一篇文章類似,本文也使用 Wilcoxon 符號秩檢驗進行兩兩比較,以確定產生具有統計學意義的性能差異的條件。最後,本文還計算了一個參數效應大小指標(Cohen's d),以量化這些條件之間的差異。
2. 實驗分析
作者在原文中,分別給出了參與受試的 5 名兒童的實驗結果,我們在這篇文章中以第一名兒童的結果作為示例進行分析。對於這名兒童,BM 中的綜合非參數(Friedman)檢驗顯示在三種提示條件之間存在顯著差異,chi^2(2)=14.77,p=.001。隨後,採用 Wilcoxon 符號秩檢驗對這一效應進行了兩兩比較,結果表明,頭部定向(head orientation)比指示方法(pointing)得分低,Z=−2.56,p=.011,Cohen d=−4.55,而得分最低的是指示(pointing)+ 口頭指令(vocal instruction),Z=−2.59,p=.010,d=-4.55。指示(pointing)與指示(pointing)+ 口頭指令(vocal instruction)的方法之間無顯著性差異,p>0.05。
SHT 的結果也相似,綜合非參數(Friedman)檢驗顯示三種類型的提示有顯著差異,chi^2(2)=15.08,p=.001。兩兩比較表明,頭部定向(head orientation)情況下的得分明顯低於指示方法(pointing),Z=−2.60,p=.009,d=−9.22,以及指示(pointing)+ 口頭指令(vocal instruction),Z=−2.59,p=.010,d=−4.68。指示(pointing)與指示(pointing)+ 口頭指令(vocal instruction)之間無顯著性差異,p>0.05。
此外,RET 也給出了類似的實驗結果,綜合非參數(Friedman)檢驗顯示三種類型的提示有顯著差異,chi^2(2)=7.53,p=.023。頭部定向的得分低於指示方法,Z=-2.53,p=.012,d=-2.59,而指示 + 口頭指令,Z=-2.38,p=.017,d=-3.71。在 RET 條件下,指示與指示 + 口頭指令的方法比較無顯著性差異(p>0.05)。
圖 2 給出了這個參與者的實驗結果,而表 4 給出了針對該實驗結果的統計分析。
圖 2. 第 1 名參與者在激勵類型和會話類型上的 JA 表現(X 軸表示受試者在 JA 任務中得到的分數;Y 軸表示會話數)。
表 4. 第一位受試者接受不同指令後的綜合結果和效果大小對比(Cohen's d)。
3. 文章小結
在針對 ASD 兒童的治療中,有很多種不同的方法都可以用於定義兒童和社交機器人之間的互動 [12],本文主要使用的是 JA 相關的任務,即兒童參與到任務中並在整個會話過程中保持對解決問題的注意力。
本文給出了一個詳細的實驗並對結果進行了分析。本文的研究結果表明,指示(pointing)是 ASD 兒童參與 JA 活動的一個重要線索,因此,指示(pointing)可以用於改進自閉症兒童 JA 技能的機器人增強幹預。作者認為,由本文的研究結論可以推斷,機器人的互動遵循著與人類互動相似的模式,而指示(pointing)是吸引自閉症兒童的關鍵因素。
四、本文小結
本文關注了人機互動中的注意力問題,結合在社交機器人中的應用,具體探討如何通過注意力的方式建立人和機器之間的溝通渠道,以改進機器 / 機器人與人類的交互效果。
本文詳細介紹了一篇根據視覺注意力焦點來吸引和控制目標人注意力的技術分析文章,此外還介紹了兩個實踐中的應用,一是在線教育效果評估,另外一個是針對自閉症兒童的機器人輔助治療。
近兩年,社交機器人的研究及應用逐漸退火,研究層面對類似問題的關注也逐漸減少。如何令機器人真正像人一樣思考和交流,關注「注意力」也許是一個很好的切入點。
參考文獻
[1] Stiefelhagen, R Waibel, A, Modeling focus of attention for meeting indexing based on multiple cues,IEEE TRANSACTIONS ON NEURAL NETWORKS,2002,https://www.onacademic.com/detail/journal_1000011496569999_01e2.html
[2] M. Hayhoe and D. Ballard, 「Eye movements in natural behavior,」 Trends Cognitive Sci., vol. 9, no. 4, pp. 188–194, 2005.
[3] F. Tarr´es, (2013, Mar.). 「GTAV face database.」 [Online]. Available: http://gps-tsc.upc.es/ GTAV/ ResearchAreas /UPCFaceDatabase /GTAVF aceDatabase.htm
[4] S. S. Beauchemin and J. L. Barron, 「The computation of optical flow,」 ACM Comput. Surv., vol. 27, no. 3, pp. 433–467, 1995.
[5] P. A. Viola and M. J. Jones, 「Robust real-time face detection,」 Int. J. Comput. Vision, vol. 57, no. 2, pp. 137–154, 2004.
[6] N. Dalal and B. Triggs, 「Histograms of oriented gradients for human detection,」 in Proc. IEEE Comput. Soc. Conf. Comput. Vision Pattern Recog., 2005, pp. 886–893.
[7] Y. Kobayashi and Y. Kuno, 「People tracking using integrated sensors for human robot interaction,」 in Proc. IEEE Int. Conf. Ind. Technol., Ann Arbor, MI, USA, Mar. 14–17, 2010, pp. 1597–1602.
[8] P. J. Guo, J. Kim, and R. Rubin. How video production affects student engagement: An empirical
study of mooc videos. In Proc. of the First ACM Conf. on Learning @ Scale, 2014.
[9] S. M. Lundberg and S.-I. Lee. A unied approach to interpreting model predictions. In Advances in Neural
Information Processing Systems. 2017.
[9] Barlow DH, Hayes SC (1979) Alternating treatments design: one strategy for comparing the effects of two treatments in a single subject. J Appl Behav Anal 12(2):199–210
[10] Lausberg H, Sloetjes H (2009) Coding gestural behavior with the NEUROGES-ELAN system. Behav Res Methods 41(3):841–849
[11] Gouaillier D, Hugel V, Blazevic P, Kilner C, Monceaux J, Lafourcade P, Maisonnier B (2009) Mechatronic design of NAO humanoid. In: Robotics and automation, 2009. ICRA』09. IEEE international conference on 769–774. IEEE
[12] Anzalone SM, Boucenna S, Ivaldi S, ChetouaniM(2015) Evaluating the engagement with social robots. Int J Soc Robot 7(4):465–478
分析師介紹:
本文作者為仵冀穎,工學博士,畢業於北京交通大學,曾分別於香港中文大學和香港科技大學擔任助理研究員和研究助理,現從事電子政務領域信息化新技術研究工作。主要研究方向為模式識別、計算機視覺,愛好科研,希望能保持學習、不斷進步。
關於機器之心全球分析師網絡 Synced Global Analyst Network
機器之心全球分析師網絡是由機器之心發起的全球性人工智慧專業知識共享網絡。在過去的四年裡,已有數百名來自全球各地的 AI 領域專業學生學者、工程專家、業務專家,利用自己的學業工作之餘的閒暇時間,通過線上分享、專欄解讀、知識庫構建、報告發布、評測及項目諮詢等形式與全球 AI 社區共享自己的研究思路、工程經驗及行業洞察等專業知識,並從中獲得了自身的能力成長、經驗積累及職業發展。
原標題:《不一樣的「注意力」:人機互動注意力的測量指標與利用》
閱讀原文