雷鋒網按:2018 全球人工智慧與機器人峰會(CCF-GAIR)在深圳召開,峰會由中國計算機學會(CCF)主辦,雷鋒網、香港中文大學(深圳)承辦,得到了寶安區政府的大力指導,是國內人工智慧和機器人學術界、工業界及投資界三大領域的頂級交流盛會,旨在打造國內人工智慧領域最具實力的跨界交流合作平臺。
CCF-GAIR 2018 延續前兩屆的頂尖陣容,提供 1 個主會場和 11 個專場(仿生機器人,機器人行業應用,計算機視覺,智能安全,金融科技,智能駕駛,NLP,AI+,AI晶片,IoT,投資人)的豐富平臺,意欲給三界參會者從產學研多個維度,呈現出更富前瞻性與落地性相結合的會議內容與現場體驗。
在自然語言處理專場上,竹間智能CTO翁嘉頎受邀作為「自然語言處理的落地難點及應用未來」圓桌討論嘉賓,分享了自己的觀點。會後,雷鋒網對翁嘉頎進行了一對一的專訪。
竹間智能成立於2016年,主要是做文本分析、自然語義理解、情感計算。竹間智能主要有兩條產品線,一條是類腦對話機器人,包含了客服機器人、導購機器人、金融機器人、營銷機器人、個人助理、品牌IP機器人等;一條是多模態情感識別系統,包括情緒識別分析系統、人臉表情識別系統、印象分析系統、廣告效果分析系統、呼叫中心質檢系統、課堂情緒分析系統等。
目前大多做對話式人工智慧的公司專注於文本,而竹間智能的多模態情感識別則包括了文本、語音、人臉表情等多個模塊。雷鋒網此次採訪翁嘉頎也主要圍繞著情感計算技術和商業化落地兩個方面。
在翁嘉頎看來,人機互動分為三個層次,最底層是自然語言處理,第二層是意圖理解,第三層是理解背後的涵義,目前業界還停留在前兩個階段,要做到第三個階段,情感計算不可避免。
情感計算的難點在於不僅要準確理解單個模態的情緒,當多個模態的情緒發生衝突時,還要準確判定哪個情緒才是真實的,比如當一個人的語音情緒是高興的,但是面部表情卻是憤怒的,那他是高興還是憤怒呢?更難的地方在於,當AI獲知人的情緒之後,如何進行反應,如何去安慰心情低落的人?
竹間智能以電影《Her》裡的智慧機器人賽曼莎為原型,認為機器人應該能看懂人臉表情、聽懂人類對話,從一開始就致力於多模態情感計算。且創始人簡仁賢從一開始就不只是關注在手機、音箱裡的智能語音助手,也關注賣場、零售等場景,在這些場景中,只有文字和語音的交互顯然不夠,視覺必不可少。
然而,目前除了零售場景外,情感計算的落地場景還需要探索,畢竟很多私人的場合,比如家庭裡,就很難接受有機器人安裝了攝像頭。
翁嘉頎認為現在語文和文本技術能夠在特定領域幫人解決問題,特定領域是指我要訂酒店、訂餐館參觀,能與人進行自然對話,而無需讓人去按照機器人的邏輯說話。 未來,每個人都會有自己的智能助理,能夠理解你的情感、你的意圖、幫你打理日常生活。而每個企業也會有客服機器人,以後很可能就是用戶的智能助理和企業的客服機器人打交道。在這些場景裡,大公司和創業公司都有機會,沒有公司能解決所有的技術和場景。
以下為採訪原文,雷鋒網進行了不改變原意的編輯和整理。
雷鋒網:您目前在竹間智能負責哪些工作?加入竹間之前您的工作經歷是怎麼樣的?
翁嘉頎:我從1982年開始從事計算機,27年前接觸人工智慧,當然那個年代做人工智慧其實做不出,因為那時候的人工智慧已經整個走下坡了。當時絕大部分做AI的人都轉去做搜尋引擎,因為搜尋引擎跟文本分析有一定的關係。我在搜尋引擎領域做了大概11年,現在我又回到人工智,這一次AI應該不至於再泡沫化,它是真的能夠走入人類的生活。
我大概在兩年半之前加入竹間智能,目前擔任公司CTO,負責技術部分,包括設計竹間目前整個對話的架構、模塊怎麼反映、模塊如何交互等,以及整個對外項目的落地
雷鋒網:能具體說一下有哪些模塊嗎?
翁嘉頎:聊天機器人大概分三類,第一種是功能型的機器人,像SIRI、微信語音助手,可以查天氣、可以查股票、可以去設置一些提醒;第二種是知識型的,你可以問他陸奇去哪兒工作了?(這個是昨天最大的新聞,他加入拼多多了),可以問陸奇離開百度之後,股票到底跌了多少(三天大概跌了18個點);第三種是閒聊,可以與人類進行情感對話,進行情景式聊天。如果你跟機器人說你失戀了,那我們要想機器人該如何回復,如何去控制整個對話的上下文的話題。
我負責的是整個對話的流程控制,比如用戶說了一句話,機器人需要判斷應該是執行任務、提供知識、還是開啟閒聊,因為每個模塊都可以觸達。這個跟搜尋引擎一樣,百度的搜尋引擎背後大概有300多個模塊,谷歌背後大概500多個模塊,今天問一句話,它其實300多個模塊都出來答案,出來答案之後,那我該如何把答案整合,做個排序。第一頁應該看到哪些,第二頁看到哪些?
那聊天機器人也是,聊天機器人更嚴苛,因為我沒辦法回答100句話,我只能回答一句話。這時候我應該選哪句話來回答,讓它會比較生動一點,又沒有那麼呆板,但是回答又不會太離譜。這是整個對話控制在做的事情。
雷鋒網:現在有像微軟小冰一樣同時發展智商情商的對話機器人,也有一些創業公司做得更垂直,主攻任務型,或者是知識圖譜領域。竹間智能在往哪個方向發展?
翁嘉頎:微軟小冰將智商與情商結合的概念是對的,竹間智能的創始人簡仁賢也是微軟小冰的創始人之一,他在2015年從微軟出來創辦竹間智能(Emotibot),公司名字的命名就是「情感機器人」的意思。竹間智能其實比微軟小冰還早一年半做情感機器人。
情商跟情感並不是一個意思,情商它的意思是我真的去理解你,我不會冒犯你,我不會冷冰冰的去回答一個東西,那這個當然包括情感計算在那邊。
在文字情緒方面,有些企業做了正、負、中3種分類,微軟小冰可能做了6種,而竹間智能在文字情緒上面做了22種分類,會更精準地探測無聊、嫉妒這些情緒。
光是文字情緒是不夠的,我們還做語音、表情情緒。例如,一個人說我高考考了500分,這時候你並不知道應該表示恭喜還是安慰,這時你就需要知道語氣。一般來說,語音的情緒會比文字的情緒的重要度更強,信號更強烈。人臉表情的情緒要複雜一些,因為我講話講到一半的時候,我的臉可能是扭曲的,我的嘴巴剛好張開,這個時候抓拍下來,不代表我現在是驚訝的。
那麼,文字、語音、表情混搭在一起,就更加複雜了。像我最常舉的一個例子,我面帶著微笑,跟著我的同事說你死定了,面部表情的情緒和文字的情緒是衝突的,這時候應該怎麼辦?
這是一個多模態情感的概念,就是你目前的情緒是文字、語音,再加上人臉表情,整個混搭在一起,然後各有各的權重,通常文字的比重會稍微低一點,語音會是最高的,人臉表情算是排在中間。
剛剛的那個例子,我面帶微笑說你死定了,其實這個還要看上下文,如果前面兩個我們都在開玩笑,我突然面帶微笑說你死定了,那還是開玩笑,如果前面兩個我們根本在吵架,我突然面帶微笑說你死定了,那肯定是在威脅你,所以這個情緒情感其實不是只看文字。
雷鋒網(公眾號:雷鋒網):情感計算這個概念最近大家說得比較多,能說說您對這個概念的理解嗎?
翁嘉頎:情感計算是由MIT教授Rosalind Picard提出來的,他是情感計算的始祖。然後以目前來說,我一般把人機互動分成三個層次,最底下的層次叫做自然語言處理,比如「我肚子餓」、「等會兒想吃東西」,這兩句話,它的句法分析是不一樣的,這是最底下的一層。
第二層叫做意圖的理解,這兩句話雖然不一樣,但是它意圖是一致的。它的意圖可能代表說,我想要點外賣,或者我要找附近的什麼餐館。
然後,第三層是背後的意思,目前還沒有人能做到,像我在今天這個場合,我們第一次見面,我如果突然跟你說我肚子餓,我相信你的心裡感受不會太好。你總會覺得說,我是不是來要飯的?那如果我跟一個女同事說我肚子餓,她搞不好覺得說我是不是要約她出去吃飯,是不是有不良的企圖?在不同的場景、跟不同的人、在什麼樣的狀況我講同樣的一句話,它其實背後代表的意思是不一樣的。
目前大家都還在做第一層和第二層,我如何把句子分對,我如何讓句法結構是對的。在這方面,國內哈工大有很多專家。第二層意圖理解這個也很多人在做。目前可以做到大概可用的地步,我對電視、音箱講說「來首誰誰的歌」,它知道我是要聽音樂。那我跟音箱說,「誰誰的歌好難聽」,也不代表我要聽他的歌,我只是說以後不要再放他的歌給我聽,現在能做到正確理解這些句子的意圖。
第三層,背後的意思。我講肚子餓,這句話到底背後真正的意思是什麼?那要走到這一步,情感計算不可避免,整個場景、情境你不可避免。
雷鋒網:現在竹間智能有將文字、語音、人臉都融合到一起來做情感計算的落地場景嗎?
翁嘉頎:講一個我們幫夏普電視做新零售的例子,夏普有個新開業的商場旗艦店,那個商場裡邊總共有五家賣電視的。開業的前三天,夏普的營業額90萬,另外四家加起來營業額只四十幾萬,夏普一家就超過其他四家的總和,這是怎麼做到的?
我們在賣場的入口放了一個大的電視屏,可以抓拍每個路過的人的臉,能識別出男/女、長頭髮/短頭髮、歲數、表情、顏值等,很多人會停下來看。然後我們根據用戶畫像,進行不同的商品和優惠活動的推薦。這樣使得進店的客流就是別人的五倍以上。
進到店裡後,我們有無人的智能貨架,上面安裝了平板、攝像頭,當攝像頭看到一個長頭髮的女生走過來,智能貨架就會主動打招呼,說,「這位女士,你的頭髮非常好看,我這裡有洗髮、護法、潤發的產品,你有沒有興趣?」如果說攝像頭識別到女生臉上有黑斑,還會自動推薦遮瑕膏等產品。
如果對方回應了,則會繼續話題;如果攝像頭發現消費者的臉色變得越來越難看,它就會停止話題。所以我們看到,這個案例裡的交互包括了有人臉、語音和文字。
雷鋒網:現在的對話式人工智慧主攻語音,竹間智能為什麼一開始就重視視覺?
翁嘉頎:我們的對話式人工智慧的想法主要來自於電影《Her》,裡面的智能助手賽曼莎可以全方面地感知用戶的狀態,能看到用戶的表情聽到用戶說的話。任何人的交流,語音固然重要,但是很多時候其實一句話都不用說,一個表情就已經足夠了。
比如你進到一家門店,看到某個產品露出厭惡的表情,那其實就已經表達出來了你根本不喜歡這個產品。
所以那時候在做的時候,一開始起步,我們就有圖像處理、語音處理,有文字的處理,當時老闆(簡仁賢)已經想好他未來要的場景。不只是有手機上的人機互動、音箱上的人機互動,還要包括進到賣場裡邊。那麼視覺就是必不可少的部分。所以一開始老闆的野心就比較大。
雷鋒網:文字、語音、人臉的多模態情感計算的難點在哪兒?
翁嘉頎:比較大的難點當然是幾種情緒相衝突的時候應該怎麼辦?你如果說文字裡是高興,語音也是高興,人臉表情也是高興,那沒問題,小學生也知道這是高興。
它語音是憤怒,文字是高興,比如我很憤怒的去說,「我今天很高興」,你聽了以後你覺得是什麼意思呢?要解決這個問題,首先是文字、人臉和語音的情緒識別要準確,再一個就是幾個情緒相衝突的時候,我到底該以誰為主?
一般來說,語音情緒佔的比重更大,但是如果說語音情緒是憤怒,但是信心程度只有三四分,文字說你是高興,信心程度99分。這個時候應該怎麼辦?
還有一個重要的點是整個情境,雖然有三個多模態的判斷,但是如果只有一小段,也是不夠準確,我還要看連續的情境,因為人情緒變化不至於太快,你當然有時候瞬間會驚喜,瞬間會爆怒,但是不代表說,你一生氣下一秒突然就變高興,所以整個連續的情緒要去考慮,這個是比較大的一個難點。
最後,一個最難的地方是,智能助手發現你憤怒或者悲傷,該如何去安撫你、安慰你,情緒判斷完之後,該怎麼回應?
雷鋒網:多模態情緒計算的方案在你們現在的業務裡能佔到多大的比例?
翁嘉頎:目前來說,智能客服絕大部分沒有視覺,然後智能電視、冰箱、音箱也都沒有攝像頭,畢竟你在家裡面裝一堆攝象頭,讓人感到非常不安,這個肯定侵犯你的隱私。
在公共場合,比如外面的賣場、銀行,有攝像頭也有監控,這個大家是接受的。
比如說我去面試的時候,有一個攝像頭對著我,然後我在這裡講話的時候,幫我做著人臉分析,這個感覺有些怪怪的,但是可能可以接受。
人對攝像頭的接受程度要看場景,而且也許要看年代吧,每個年代接受的東西都不一樣,像現在七十幾歲那一輩,真的會用手機嗎?會用電腦,這個可能接受度不高,大家會用APP嗎?還是習慣拿電話起來講,拿電話去溝通交流,而不是用app,用網絡。
可能五六十歲這一代,他可能不太習慣用搜尋引擎,因為他長大的那個年代沒有搜尋引擎。然後四十幾歲這一代,用APP的比例絕對沒有二十幾歲這一代來得多。
所以這個還是要看,未來的一些變化,有些場景接受的,有些場景不接受。
雷鋒網:像現在有一些音箱已經有屏幕了,有可能添加視覺嗎?
翁嘉頎:目前來說,加了可能還賣不好。通常如果加了一個攝像頭的話,我還要再加一個蓋子,我可以把這個蓋子蓋起來,把攝像頭遮住。
必須告訴用戶這兒有攝像頭,而且還可以給他一個蓋子,讓他必要的時候可以把攝像頭遮住,這個用戶可以接受。要不你突然加個攝像頭,你的成本增加,反而賣不好,讓大家會覺得這個音箱在幹嘛?
而且音箱至少說OK,我把它關掉,攝像頭就沒了,而不是你在家裡天花板上到處裝滿了攝像頭,那個真的一點隱私都沒有。
雷鋒網:如果它是一個機器人呢?有著跟人眼相似的眼睛。
翁嘉頎:我們看科幻電影的時候,大家是接受的,機器人可以在你家裡走來走去?但是你真的擺一個這樣的機器人,有攝像頭在你家裡邊,你心裡現在應該不會太舒服。
雷鋒網:竹間智能有機器人工廠(Bot Factory),幫助企業定製機器人,那麼你們會不會讓每個定製的機器人具有它自己的個性?
翁嘉頎:目前我們先只做到最簡單的,機器人有機器人的屬性。機器人叫什麼名字,是男生還是女生,今年幾歲?晚上睡不睡覺?長什麼樣子?爸爸是誰?媽媽是誰?來自於哪裡?我們會根據大家最常問的這些問題進行設定。
此外,有些機器人的風格比較嚴肅,有些則比較俏皮。這個我們目前有做一些開關,像有些機器人可以講笑話,有些機器人只能查天氣。
我們有嘗試下一步,能不能有一個你自己的機器人,我拿你平常跟你朋友聊天的一些數據來進行訓練,學習你講話的方式,那你就有一個你的機器人,用你的風格在聊天。
這一步在技術上是可行的,目前只是數據量的問題。我需要取得足夠的數據,讓那個機器人可以慢慢的接近你的行為。但這又牽涉到你願不願意把你的隱私公開出來,你跟你朋友聊天的那些對話,都是你的隱私。
雷鋒網:這個你們有在實驗了嗎?
翁嘉頎:我們兩年前實驗過,但是發現用戶沒有這個耐性,因為你可能要花很多時間,你教一個小朋友要教多少年?十幾年,二十年,對不對?你有那麼多耐性去教一個機器人嗎?你大概教個兩天就沒耐性了,所以這是耐性的問題。
雷鋒網:現在像微軟小冰,還在往人工智慧創作方面發展,她會寫詩,會唱歌、會寫新聞。在這個方面,你們怎麼想?
翁嘉頎:其實寫詩、對對聯,這個難度相對來說不高。因為它其實是在一個非常有限的方向解決問題。從好玩的觀點來說,這些是很好的,大家會覺得很新鮮。
但是從實用的觀點來說,做這個東西如何幫助解決問題、能夠替我賺錢,目前還比較難派上用場,當然小冰的定位是陪伴,就是讓你不會那麼無聊。這堆花哨的東西反而是好事,是有幫助的。
雷鋒網:竹間智能一開始就注重商業化?
翁嘉頎:對,因為我們必須往商業化這個地方走,我做一個很有趣的機器人,其實是收不到錢的。因為微軟無所謂的,微軟它有Windows、Offices這些盈利業務,就可以把小冰做成好玩有趣的。
雷鋒網:現階段來看,您期望對話式人工智慧達到什麼樣的水平?
翁嘉頎:我覺得現在技術水平能夠在特定領域幫人解決問題,特定領域是指我要訂酒店、訂餐館,它能理解我的對話。訂餐館的機器人,需要理解特定的話,比如,「七八個人有兩個小孩」和「七八個人再加兩個小孩」,這兩句話,意思不一樣。
人說話,通常不會直接表述,會有各式各樣的說法。比如,「我跟我爸媽要幫女朋友慶生」,這代表需要幾個座位呢?他不是告訴你四個,他是告訴你一段奇怪的文字。那麼,在這個領域,需要讓機器人聽懂人類的這些話,而不是讓人類去適應機器人,用機器人能聽懂的方式回答。
我覺得未來,每個人有一個自己的機器人,那個機器人知道你的喜好,你跟他說幫我訂個外賣吧,他知道你喜歡吃什麼,不喜歡吃什麼,還知道你昨天、前天吃了什麼,今天不要訂一模一樣的。我跟他說幫我打個電話給媽媽吧,他知道媽媽指的是誰。
然後知道你媽媽的電話,知道幾點打電話合適,他可能會提醒你說,現在太晚,媽媽已經睡覺了。
以後,每個企業可能也會有一個自己的機器人,比如麥當勞,可能有個訂餐的機器人,幫你負責訂餐,那如果你有一個自己的機器人,麥當勞有一個機器人,未來可能是機器人跟機器人溝通。
我只要跟我的手環說,幫我點個巨無霸吧。然後它知道巨無霸是麥當勞,它就跑去找麥當勞機器人,兩個機器人,不一定是用人類的語言交流,它們會用它們的方式交換信息,然後麥當勞就處理這個東西,就把這個定單結束掉了。
雷鋒網:在這種未來圖景裡,大公司佔據了終端優勢,創業公司的機會在哪裡呢?
翁嘉頎:微信是一個很天然的入口,因為大家現在習慣打開微信,比如,我在微信上面說,「我這個月刷卡刷了多少錢?」微信的機器人知道你三張卡:招行、交行、浦發的卡,它就去找這三家機器人,幫你做身份認證,你不用開三個銀行的APP,微信的機器人能直接告訴你三家銀行的信息。
當然,入口很難是小公司能夠去搶佔的,但是語義理解,微信一家搞不定,騰訊一家是搞不定的。我的語義理解包含說每一家招行、工行、浦發,它後面也要有這個機器人去接受這些指令。或者接受一句自然語言。這個東西其實是每一家還需要幫助的。
相關文章:
竹間智能簡仁賢:打破千篇一律的聊天機器人 | Chatbot的潮流
探討自然語言處理的商業落地:從基礎平臺到數據算法 | CCF-GAIR 2018
微軟發大招:要做智商和情商兼具的語音助手
少女歌手小冰養成記:會作詞作曲演唱的人工智慧的誕生
雷鋒網原創文章,未經授權禁止轉載。詳情見轉載須知。