從視覺到聽覺,語音技術的感官革命

2020-12-14 獵雲網

【獵雲網(微信號:)】2月17日報導(編譯:羅彬傑)

編者註:本文的作者Nithya Thadani是RAIN公司的執行長,該公司專注於語音策略、設計和開發。

「閉上眼睛,聽我的聲音。」這是冥想教練對剛開始練習冥想的人說的話。當我們需要集中注意力的時候,我們會關閉視覺輸入,讓我們的大腦來完成工作。

感官上的抑制可以從深層次上解放我們的思想。一些人類最偉大的創造者,從John Milton(英國文學史上偉大的六大詩人之一)到Ray Charles(美國靈魂音樂家),在失去視力後反而迸發出強大的精神創造力,證明了即使是最豐富的精神體驗也不需要我們的主要感官參與。視覺刺激的缺失可以打開認知可能性的世界,我相信這一真理支撐著人類與技術、人類彼此之間以及與世界的交互方式上發生的重大感官革命。

在我們進入一個新的十年之際,我們的集體經驗比以往任何時候都更加直觀。我們日日夜夜都盯著屏幕。在社交媒體上,我們越來越多地使用照片和視頻,在寫作時也常常限制文字和字數。

雖然視覺能力在我們的進化中處於核心地位,對引導我們在現實世界中活動很有幫助,但它在某種程度上已經成為影響我們注意力的致命弱點。大型網際網路公司經常利用我們的眼睛來捕捉和維持我們的注意力,在很多情況下,它們還會顛覆我們的思維。

設備和數字媒體帶來的危害已經不是什麼秘密了。作為消費者,我們時長會感覺脖子僵硬,注意力分散,當我們遠離電子設備時(或使用電子設備時)還會感到焦慮。事實上,許多正在打造令人上癮的數字產品的科技行業領袖,往往是對自身風險最敏銳的觀察者,這導致他們採取先發制人的行動,保護自己的親人免受科技潛在負面影響的侵害。

作為一名領導者,我的公司每天都與最大的科技公司合作,因此無論是在工作中還是在家裡,我都是這種緊張關係的直接受害者。多虧了我的智慧型手機,我的女兒比我想像的更接近她幾百英裡外的曾祖母。與此同時,當我們只有幾英尺遠的時候,這個設備拉開了我和她的距離。

因為我在語音技術領域工作,因此家裡有很多語音助手——Alexa、谷歌助理、Siri等等。雖然出於職業原因,我可能是一個超級用戶,但我並不是唯一一個這樣做的人。據估計,到2022年,超過一半的美國家庭將擁有語音助手。

在過去的兩年裡,我觀察到我的家人和朋友與語音技術互動的方式與基於屏幕的媒體有一種奇怪而深刻的不同。我女兒仍然經常與語音助手打交道,但語音不會像屏幕那樣擾亂我的家庭。儘管行動裝置和平板設備在設計上是個性化的,因此更加容易把人孤立起來,但聲音卻天生具有包容性和參與性。

我的女兒在做拼圖遊戲或和她的弟弟玩耍的同時,可以讓語音助手播放一首歌或翻譯一個西班牙語單詞。同樣地,如果她問了一個我回答不了的問題,我的新辦法是找個語音助手陪她。語音技術並沒有把我吸進設備的數字流沙中,而是像一張蹦床,把我彈回到現實世界。我的女兒不再是孤立的,我也不再是孤立的。

這些觀察讓我開始思考:是什麼導致了我們在使用語音優先技術和屏幕優先技術時產生如此巨大的差異?

基於屏幕的技術之所以讓人上癮,是因為視覺在我們感官層次中的地位

我們先來看看是什麼讓行動裝置從根本上分散了人們的注意力。不僅僅是屏幕的存在,事實上,許多語音設備也有屏幕,其中最重要的就是我們的手機。它是屏幕在設備的用戶體驗和我們作為用戶的感官層次中所扮演的角色。「屏幕優先」體驗,即屏幕是輸入和輸出的主要形式,會分散用戶注意力,因為視覺輸入是複雜的,而人類也不斷進化為更多地從視覺中獲取信息。

這是一種與生俱來的需要。人類的生存依賴於我們理解他人的能力。我們總是試圖通過解讀他人的情緒、舉止和行為來理解動機和意圖。大部分的社會感覺輸入是視覺的(這也解釋了為什麼65%的交流是非語言的)。甚至從出生開始,嬰兒觀察和識別人臉的能力就比獲取大多數其他信息要早得多。

屏幕優先設備利用了這種條件反射,想盡辦法有條不紊地把我們的注意力吸引過去。推送通知的設計目標是利用我們大腦的執行功能,尤其是「自下而上」的大腦信號,它優先於我們有意識選擇關注的事情。這種反應是條件反射性的,很難克服。其結果是表面上所謂的生產力提升和多任務處理的興起。

分散注意力會阻礙創新,而創新正是技術所追求的

事實是,大多數成年人無法應對分心這個問題。大約98%的人一次只能處理一條以上的信息。在不同的任務之間切換會消耗我們大腦40%的時間。工作效率和心理健康並不是注意力分散的唯一受害者。它還存在著更大的危害。

這種大腦的削弱對我們作為創造者,也就是我們複雜的創造過程有著深遠的影響。偉大的思考來自於讓我們自己沉浸在信息和刺激中,然後有意識地從這些信息和刺激中抽身而退,給大腦時間去思考和建立那些需要的聯繫。這就是為什麼我們一些最好的想法會在半夜出現。然而,為了做到這一點,信息必須被「保存到」我們大腦中。任務轉換會阻礙我們處理和保存信息的方式,不可避免地會阻礙大腦建立深層聯繫的能力。想想看:那些曾經遠離科技來建立這些聯繫的時刻)比如遛狗、排隊、上廁所等),現在常常被智慧型手機或其他屏幕設備佔據。具有諷刺意味的是,技術正威脅著推動它自身發展的東西——創新。

那麼語音在這一切中屬於哪一部分呢?就其本質而言,語音技術提供了一個強大的機會,可以改變我們與技術之間支離破碎的關係。

語音在兩個方面更快

在英語中,說的速度是打字的三倍。向語音助理提問要比輸入搜索欄查詢快得多。這被廣泛認為是語音的殺手級應用場景之一。許多公司已經在利用這一優勢為運營和員工帶來口頭輸入的高效體驗。

證明語音更有效率的另一半原因是我們的聽覺。我們的聽覺反應也更快,它的反應時間比視覺反應時間快4倍,這意味著我們用耳朵處理信息的速度比用眼睛快得多。

因此,語音的輸入和輸出都更快。在使用語音時,我們不僅可以更快地處理信息,還可以降低新信息競爭我們的注意力並存儲到大腦記憶中的風險。

這並不是說語音和語音引導的體驗不能吸引人。讓我們看一個簡單的例子,比如,閱讀或聽一個故事。當視覺形象不是我們關注的焦點時,我們就會在腦海中創造和想像人物和故事。我們的大腦負責翻譯和解釋詞語,以及詞語背後的含義。我們創造了自己的心靈影院。播客和翻頁器可以通過釋放我們的想像力的方式,強有力地捕捉和維持我們的注意力,而不需要移動像素來引起視覺上的吸引。吸引人不一定意味著上癮。

感官革命:將我們的意識重心從視覺轉移到聽覺

語音技術有潛力通過將我們與所有技術的關係推向後臺,從而改變和加強我們與這些技術的關係。

它不是一個閃亮的新物體或設備,而是一個基礎設施。它將讓我們更好地控制我們與技術打交道以及合理使用我們寶貴的認知資源。想像一下使用語音計算通勤的工作效率吧。語音技術還能重新點燃朋友和家人之間持續的、面對面的親密關係。當我們把意識的重心從視覺轉移到聽覺,並給自己時間去自由和不受阻礙地思考時,所有這些思考的結果都會浮出水面。

如果我們的工作方向是對的,語音技術將成為催化劑,讓世界更智能,而不是讓我們更笨。它能讓技術隱形,同時推動人類聯繫向前發展。我們還有很長的路要走。但這是一種我們都可以支持的願景。

相關焦點

  • 從視覺到聽覺,語音技術實現感官革命
    打開APP 從視覺到聽覺,語音技術實現感官革命 獵雲網 發表於 2020-03-31 10:57:51 基於屏幕的技術之所以讓人上癮,是因為視覺在我們感官層次中的地位。 我們先來看看是什麼讓行動裝置從根本上分散了人們的注意力。不僅僅是屏幕的存在,事實上,許多語音設備也有屏幕,其中最重要的就是我們的手機。它是屏幕在設備的用戶體驗和我們作為用戶的感官層次中所扮演的角色。
  • 探究雞尾酒會效應:視覺是如何影響聽覺體驗的
    多項聲學研究表明,你眼睛觀看角度決定了視覺空間注意的方向,但它同時也會自動影響你的聽覺空間注意力。研究人員正在研究視覺對語音清晰度的影響。在12月7-10日舉行的美國聲學學會第 179 次會議上,來自波士頓大學的 Virginia Best 介紹了她的工作,以確定雞尾酒會效應(cocktail party effect)在眼位對聽覺的影響。Best 表示:「我們的主要動機是直覺,在這些情況下,眼球的位置可能尤其重要,因為那裡存在大量的精力充沛和信息掩蓋。
  • 從一個動人故事到一場感官騙局|沉浸式反視覺交互遊戲概念設計
    根據美國哈佛商學院有關研究人員的分析資料表明,人的大腦每天通過五種感官接受外部信息的比例分別為:味覺1%,觸覺1.5%,嗅覺3.5%,聽覺11%,以及視覺83%。顯而易見的一點是我們對遊戲的認知主要來自視覺途徑。想像一下,如果把你的雙眼蒙住,你還能玩某一款遊戲嗎?答案應該是否定的。
  • AIoT技術論壇:從3D視覺、語音技術的機會,到測試測量的難點和挑戰
    AIoT技術論壇:從3D視覺、語音技術的機會,到測試測量的難點和挑戰 李彎彎 發表於 2020-12-14 17:18:31 2020年12月4日,由全球專業的電子科技媒體舉辦的
  • 我愛家教:如何運用感官記憶
    我愛家教:今天跟大家分享如何運用感官記憶。每個發育健全者的記憶倉庫裡都有5個「進貨員」:眼睛、耳朵、鼻子、舌頭和皮膚,由此產生五種感覺:視覺、聽覺、嗅覺、味覺和觸覺。摸到象腿的盲人說大象像個圓柱,摸到象身的盲人說大象像堵牆壁,摸到象尾的盲人說大象像根鞭子,這是為什麼呢?因為他們喪失了視覺能力,只靠觸覺,便不能得到完整的形象。 感官健全的人,他們感官的敏銳程度也是不一樣的。
  • 耳聽不虛:聽覺學習者的最強大腦是這樣練成的
    由於不涉及到眼球的來回運動,大腦對於信息的處理只能通過即時反應,在理解的深度和準確度方面不如紙質或電子屏幕閱讀。另外,聽書的語音信號是連續傳遞的,除非文本章節或段落之間留有時間間隔或者音樂,否則大腦「中場休息」的時間很少,會感到很累,尤其是聽那些深奧的內容,或者自己尚不精通的語言。
  • 4D電影,如何調動你的感官?
    從2D到3D整個電影的發展史,都可以看作人們對影視娛樂項目不斷追求「逼真」的縮影。1895年,法國盧米埃爾兄弟發明的「活動電影機」,讓膠片拍攝的影像在銀幕上「動」了起來,實現了拍攝影像「從靜到動」的飛躍。由此,電影開始了百年的發展史。15年後,發明大王愛迪生將影像和聲音結合在了一起,從而發明了有聲電影。這樣,人們在視覺刺激之餘,又有了聽覺刺激,這使得感官效果大為提升。
  • 抓住寶寶的感官敏感期,重視「感官飢餓」,養出耳聰目明的孩子
    ,也能理解到感官敏感期對孩子的重要性,所以我們就要幫助孩子在六歲之前這個重要階段幫孩子建立敏感的感官,不要讓孩子患上感官飢餓的毛病。聽覺接下來就是聽覺方面的練習了,這個也是很簡單的訓練,家長可以多準備一些聲音,比如樂器系列的,動物系列的等等,然後一一放給孩子聽,讓孩子聽這些聲音都是什麼東西,這樣就可以很好的鍛鍊孩子的聽力。
  • 寶寶的感官會感到「飢餓」?面對感官飢餓期,父母要如何把握?
    李女士的孩子今年四歲了,正是上幼兒園的時候,過了一段時間,老師找到李女士,表示她的孩子感官比較弱,比如,在用餐的時候,其他的孩子能夠很快的嘗出味道,而李女士的孩子總要過一段時間才嘗到。李女士表示,自己的孩子從小就體弱多病,因此,會格外的看著孩子,不讓孩子受傷。
  • 視覺、聽覺、嗅覺、味覺、觸覺,五感香檳品鑑體驗
    視覺 聽覺 嗅覺 味覺 觸覺 品鑑其實是這五種感官的結合,所有的這些感覺會綜合作用並影響大家對所品鑑酒款的認知。
  • 「聯覺人」的感官世界竟如此神奇?
    聯覺英文名稱為Synesthesia,是各種感覺之間產生相互作用的心理現象,即對一種感官的刺激作用觸發另一種感覺的現象,在心理學上被稱為「聯覺」現象。2、常見的聯覺有哪些?。2種感官字母--顏色聯覺;符號--味覺聯覺;聲音--顏色聯覺(聽到聲音看見五彩顏色的彩帶飄在空中);聲音--味覺聯覺;3種感官時間--空間--情感聯覺3、「色聽」聯覺是最常見的一種聯覺。
  • 聯覺,一種令人驚訝的感官能力
    如何不被牽涉到各種情境中?如何與這些被所有感官捕獲的情感分離?‖感覺過敏或各種感官的強烈感知感覺過敏指的是強烈的感官能力(五種感官能力)。資優者具備的視覺、聽覺、味覺、嗅覺能力,以及運動覺能力(觸覺) 遠遠超過常人。 超群的視力立體感和對照更明顯。
  • 騰訊多媒體實驗室商世東:天籟技術讓人工耳蝸語音清晰度和可懂度...
    騰訊多媒體實驗室高級總監商世東作為騰訊旗下頂尖的音視頻通信和處理研發團隊,騰訊多媒體實驗室致力於實時音視頻通信、音視頻編解碼前沿算法研究、音視頻國際標準、計算機視覺圖像處理、端到端音視頻質量評測基於此,騰訊多媒體實驗室聯合國內最大的人工耳蝸廠商之一——諾爾康(Nurotron)一起展開相關討論和研究,經過長達半年的技術驗證,從架構上最終確定了「手機伴侶+人工耳蝸」的聯合解決方案,通過多種技術的優化和整合,實現了語音清晰度和可懂度提升40%的效果。經過提升後的信號,傳遞給人工耳蝸後,可以極大改善聽障人士的聽覺體驗,讓聽障人士在「聽得見」的基礎上「聽得清、聽得真」。
  • 小豬佩奇、變形金剛、小馬寶莉等一眾IP 帶你進入全新感官世界
    人們通過感官來認識世界,也通過感官來造就世界。而所謂的感官也就是「五感」——視覺、聽覺、嗅覺、味覺和觸覺。日常生活中,「五感」的互通與交織帶給我們獨一無二的體驗。佔領五感即佔領全部,重塑五感即重塑世界。
  • 17機位+4K轉播,足協杯決賽將進一步提升感官感受
    今年足協杯決賽的轉播將採用了17機位的4K HDR轉播系統,配合5.1環繞聲技術,提供了一個「沉浸式」的視聽體驗。通過17臺全4K HDR的攝像機加上超高速攝像機、三維索道飛貓、網口攝像機、斯坦尼康等特種設備使用,從時間、空間兩個維度展現了決賽中兩隊的拼搏精神,呈現出一場力與美的賽事;HDR技術更是模仿人眼的視覺特性,在下午3點的比賽中,將冬日蘇州奧體的一抹陽光生動的呈現在熒幕上;遍布整個球場的28支話筒,將球員呼喊聲、踢球效果聲、觀眾加油聲、現場環境聲等原汁原味的收錄下來,為2020年中國足球的收官之戰增添上了聽覺盛宴的感官感受
  • 臺灣電視新聞「感官主義」現象研究
    [7]一般來說,新聞的感官主義主要指新聞中具有故事性的內容呈現方式,例如報導中出現犯罪、暴力、天災、事故等,使用有趣的、引人同情的、引發驚嚇或好奇心的形式來呈現。 由於電視新聞的特殊性質,其對視覺元素的重視較其他傳統媒體更加自然和迫切。曾有心理學家研究顯示,從感知的整體來看,人類對外界的感知有60%來自於視覺。
  • 孩子到了聽覺敏感期,父母如何訓練孩子
    原來小寶寶們在剛出生的時候,視覺和聽覺就存在,但是功能器官卻都不夠完善,視覺只能夠分別黑與白、明與暗,而聽覺也只能夠分辨出安靜與吵鬧。在幾個月之後,小寶寶們的聽覺器官就發育到一定程度,這個時候他們就能夠比較清晰地聽到一些聲音了,這個時候他們也開始進入聽覺敏感期。
  • 作業幫羅亮:基礎音視頻服務和AI視覺語音是直播課技術兩大核心
    此外,直播技術也是我們的核心技術之一。我們用了將近一年半的時間搭建了一套自己的直播體系,在今年的免費直播課中也發揮了應有的作用。直播課的兩大核心:基礎音視頻服務和AI視覺語音技術後疫情時代對教育科技提出了更多要求和挑戰。比如,如何滿足更多形式的授課方式、如何更好地提升整個課程的互動效果、如何真正有效地提升學習的效果。
  • 新一波感覺統合(觸覺、聽覺和視覺)訓練模塊或方法
    第二聽覺訓練:①聽覺反應:兒童俯臥於軟墊,老師用口令、哨子等不同發聲工具發出信號,兒童以此為信號完成規定動作,如起立、坐立、跑等,提高聽覺感受能力和反應速度。②Smartfit聽動練習:兒童站在距離Smartfit訓練牆前,首先聽3種樂器聲音,代表不同顏色,遊戲開始時,通過聲音選擇相對應的顏色。提高聽覺反應速度,建立聽、視覺聯繫,提高大腦對信息的處理能力。
  • 賈磊暢談AI語音技術的現在、過去和未來
    講這些乍一聽,好像和人類認知沒有關係,但是真正的把技術應用到實際的應用過程,賈磊越來越發現,人類的認知過程,不是一個簡單的學科劃分過程。不是說學語音的就只解決語音的認知,很多時候認知是視覺、聽覺、理解一體化的一個過程,比如任何人交流中的肢體語言,就對人的意圖理解起到舉足輕重的作用,再比如語義理解過程和語音識別過程,在具體的產業應用中,是密不可分的。