近年來,隨著人工智慧的蓬勃發展,機器智能在不斷進步,機器視覺、語音識別、動作控制等領域實現了重大突破,並開始廣泛滲透到金融、客服、醫療、無人駕駛等行業。當前,雖然有許多關於大腦對多模態信號敏感性的研究,但視聽整合視角下人機互動的相關研究相對較少。本文試探索視聽整合新方法,開發人機互動界面的新潛能。
人類智能和人工智慧是智能時代的兩個主要力量,人工智慧是指用機器去實現所有目前必須藉助人類智慧才能實現的任務,本質是基於學習能力和推理能力的不斷進步,模仿人類思考、認知、決策和行動的過程。在實現人工智慧的道路上,人機互動必不可少。人機互動指人與計算機之間使用某種對話語言,以一定的交互方式,為完成確定任務的人與計算機之間的信息交換過程,包括人通過輸入設備給計算機輸入信息、計算機經過運算再通過輸出設備給人提供信息反饋等方面內容。
迄今為止,人機互動界面的發展大致經歷了三個階段:命令行界面(Command-Line Interface,CLI)、圖形用戶界面(Graphical User Interface,GUI)、自然用戶界面(Natural User Interface,NUI)。NUI的出現為人工智慧與用戶體驗帶來了質的進化,未來的發展趨勢傾向於自然交互模式,人機、環境的和諧交互將使它們處於自然融合的狀態。自然的人機互動操作環境,能帶給人們身臨其境的感受。但現有人機互動的模式仍然停留在舊交互模式的階段,無法滿足當前人機互動方式多種多樣的局面。
目前的多模態人機互動以自然用戶界面為主。自然用戶界面主要分為六大類:語音識別、觸控螢幕、手勢識別、眼動追蹤、觸覺和腦機接口。人機互動界面的方式越來越豐富,技術越來越精湛。伴隨著虛擬實境、人工智慧等新技術發展為新一代人機互動平臺,為構建視聽觸覺多模態有機融合的人機互動系統提供了豐富的可能。虛擬實境環境下視聽觸覺多通道人機互動有三個基本特點:首先是沉浸感。具有高逼真度、高沉浸感,可實時控制視聽觸覺多通道激勵信號。其次是交互性。構建及時的人機信息雙向交互機制,實現對大腦狀態的實時觀測與適當幹預。最後是想像性。跨越時間和空間障礙,發揮人類智能無邊的想像力。通過虛擬實境作為新一代人機互動的媒介,多模態交互系統變得愈加豐富。
早期的信息加工系統觀點認為,認知系統加工的信息是抽象的符號,即信息通過各種感覺器官從外界進入認知系統時從模態化的信息轉換成為統一的模態信息。而多模態交互系統,旨在通過使用基於識別的技術,支持對自然發生的人類語言和行為形式的識別。近期的研究表明,人類在表徵外部世界時往往依賴於各自感覺器官的模態化信息。正如多感覺整合(multisensory integration,MSI)所指,個體將來自不同感覺通道(視覺、聽覺、觸覺等)的信息相互作用並整合為統一的、連貫的和有意義的知覺過程。多感覺整合能彌補單通道信息的匱乏及不確定性,有助於人們更迅速而準確地進行認知判斷。例如,冗餘信號效應(redundant signals effect,RSE)相比單通道(視覺或聽覺)刺激,個體對同時呈現的多感覺通道刺激的反應更快速更準確。
在多模態交互過程中,如何將視、聽、觸、嗅等多通道信息完美整合起來,並完成機器與人的自然交互一直是人機互動界面設計的難題。隨著當前人機互動所涉及的模態越來越豐富,各個模態存在相互影響,也存在相互分離,視聽整合理論觀點在人機互動領域的重要性也日益凸顯。
視聽整合(audiovisual integration)是一種典型的多感覺整合過程,在與他人面對面交流時,個體會整合視覺和聽覺信息以更好地進行信息交流。McGurk效應是一種典型的視聽整合現象,指的是特定發音的視覺刺激與特定發音的聽覺刺激同時呈現時,個體可能產生全新感知的現象(例如,「ga」的唇部發音動作和「ba」的聽覺刺激同時呈現,人們可能會感知到另一個全新的音節「da」),這表明視覺信息會對聽覺感知產生影響。研究者們認為,McGurk效應是視聽整合的結果,因此,McGurk效應發生率可以作為視聽整合強弱的指標。
以往有關視聽整合腦機制的研究發現,顳上溝(superior temporal sulcus,STS)在語音和非語音的高階段視聽整合處理中具有重要作用,理解人類在視聽整合過程中大腦的運行機制,更加有利於人機互動設計與發展。尤其是對於殘障人士(如無法操作滑鼠)用戶,結合視聽整合的掃描輸入大大提升了該用戶群體的體驗度與參與度,降低用戶的認知負荷,提升人機互動的真實感、沉浸感。
試想一下在未來的社會中,人類在工作與生活中,只需要一個手勢、一個眼神乃至一個想法就可以實現自己需要的操作。這樣的人與機間的「自然交互」,就像人與人之間的對話一般,而通過按鍵、旋鈕、觸控屏等輸入界面操作的傳統方式,或許將會在未來的自然交互中被淘汰。2017年11月,中國科技部宣布了首批國家新一代智能開放創新平臺名單:依託百度公司建設自動駕駛國家新一代人工智慧開放創新平臺,依託阿里雲公司建設城市大腦國家新一代人工智慧開放創新平臺,依託騰訊公司建設醫療影像國家新一代人工智慧開放創新平臺,依託科大訊飛公司建設智能語音國家新一代人工智慧開放創新平臺。如今,我們已經可以看到非常成熟的以語音交互、面孔識別和動作控制為主的交互方式,科大訊飛的語音單通道識別率甚至已經達到90%。阿里未來酒店中精準的面孔識別技術讓客戶僅憑刷臉就可以享受所有服務,不用再攜帶房卡以及身份證件。
人類所接收的信息中有97%是來自視覺和聽覺的,視覺和聽覺作為人類最主要的感知通道,總是不斷地接受外界複雜環境的刺激輸入。真實世界交互往往是多模態的交互,人和人之間有語言交流、眼神交流,也會有身體姿態的表現,由於這些感覺噪音的存在,我們的大腦會將視聽線索進行整合來避免單通道信息的不確定性。視聽整合中,聽覺通道提供了更好的時間解析度,視覺通道提供了更好的空間解析度,當兩者產生整合時,會提供比聽覺或視覺通道更大的時間和空間解析度。未來的人機互動可立足於此,以更貼近人—人之間自然交互的行為特徵作為用戶界面的設計原則。
(作者單位:西北師範大學心理學院、甘肅省行為與心理健康重點實驗室)
來源:中國社會科學網-中國社會科學報 作者:周愛保 田喆 謝珮
歡迎關注中國社會科學網微信公眾號 cssn_cn,獲取更多學術資訊。