鈦媒體旗下的鈦坦白微信課第27期,也是「AI已來」系列分享第1期,請來了6位語音識別、自然語言處理領域的鈦客進行分享。本文根據北京諦聽機器人科技有限公司創始人、CEO彭軍輝的分享整理。
彭軍輝在中文語義解析、自然語言理解等領域有14年專業技術沉澱經驗,曾設計出漢語智能拼音文字方案,開發出機器人柳柳web和戀愛機器人柳柳app。創建的諦聽機器人公司目前已獲天使輪融資,並開發出諦聽機器人中文語義理解開放平臺。
大家好,我是諦聽機器人創始人彭軍輝。感謝各位聽眾,感謝鈦媒體能給我這次機會和眾多自然語言處理行業的大佬們同臺演講。
我雖然做自然語言處理十多年了,但還算不上專家,只能算資深從業者。我大學專業是歷史教育,我們有漢語語言學課程。大學畢業後我看到大家用五筆字型輸入漢字非常麻煩,就想做一款純拼音的輸入法。我當時不懂編程,就從語言學入手。在許多輸入法論壇和語言學論壇混了一段時間以後,我發現我要做的輸入法編碼其實就是一套拼音文字方案。後來輸入法沒做成,卻做出來了一套漢語智能拼音文字方案。我把我的方案放在了漢語拼音化論壇,並用我的拼音文字寫了幾篇文章,最後我的方案成了漢語拼音化論壇主推的幾套方案之一。
有一次看到小i機器人,我發現用我的技術完全可以做個問答機器人。大約2008年前後,我做成了第一款問答機器人——機器人柳柳web版。當時的程序是拿ASP寫的。後來這款機器人曾在開心網上線過,現在後臺的連結還在。2011年我得到第一次投資,開發出戀愛機器人柳柳安卓版。當時想做成虛擬情人。但由於其實我除了關注技術,對管理、對產品、對推廣、對經營我都不懂,導致後來公司現金流斷裂失敗了。
2016年重新拿到投資成立了現在的公司,開發了諦聽機器人開放平臺,我們的目標是讓人人擁有自己的個性化機器人。
以我有限的經驗,我發現最早的人機互動方式是鍵盤加命令式的,Linux和Dos就是這種方式,後來出現了滑鼠加菜單的交互方式,再後來出現了觸控螢幕加菜單的交互方式。我發現交互方式的革新和產業革新之間有一定關聯性。鍵盤加命令的方式讓計算機進入了辦公室,帶來了IT產業的蓬勃發展;滑鼠加菜單的交互方式讓計算機進入了家庭,促進了網際網路產業的大發展,觸控螢幕加菜單的交互方式是移動網際網路發展的必要條件。
2011年SIRI上線以後,人們驚呼新的人機互動方式誕生了。人們認為SIRI能夠理解人類,不再是人類學習怎麼用IT系統了。很多媒體將SIRI比作第六次產業革命,認為人工智慧時代帶到來了。SIRI確實是新的交互方式,帶來了完全不同的交互體驗。它進一步解放了人,讓人們使用IT系統的難度再次降低了。一些殘疾人、老人和孩子也可以藉助SIRI來使用IT系統。
然而5年過去了,我們發現並沒有發生多大改變。那麼SIRI的主要問題在哪裡?我認為,歸根結底SIRI並沒有真正理解人類語言,所以還沒法和人類進行自然流暢地交流。我們期望不再是人類理解機器的規則,而是機器理解人類的規則。也就是說機器要能聽懂人話。
我們先看一段對話,對話的背景是有個小朋友想吃披薩,於是獨自打了輛計程車。
司機:你要去哪裡?
小朋友:我要去吃披薩。
司機:去哪裡吃?
小朋友:披薩店。
司機:披薩店在哪裡?
小朋友:在城裡。
司機:我是問您怎麼去?
小朋友:您不是司機麼?
分析上面的對話,我們發現之所以出現交流上的障礙,主要是因為對話的一方,也就是那個小朋友並沒有理解司機的意圖。司機只想知道乘客想去的目的地是哪裡。
其實任何對話的過程,都是透過語言表達,理解對方意圖的過程。人機自然語言交互的過程也是這樣的過程。當我們產生了某個想法,然後用語言表達出來,只有對方理解了我們的意圖,才是真正理解了我們。但語言不是意圖本身,有時候語言能充分表達意圖,有時候不能,有時候可能語言和意圖是背離的。
我們看一段正話反說的例子:
甲:你們公司那幾個銷售怎麼樣?
乙:好極了。
甲:怎麼好?
乙:來了幾個月一個單子都沒談下來。
我們再看一個錯誤理解意圖的例子:
一富翁正在遛狗,一個殺手從草叢裡躥出來,啪啪兩槍把狗打死了。富翁大怒:你殺我的狗幹什麼?
殺手冷笑一聲:有人花500萬,讓我取了你的狗命。富翁看了一眼殺手,激動地握住他手說:你的語文老師是誰?我要給她發個紅包!
第二天,殺手再次從草叢中竄出來,搶走了富翁的iPhone6s,富豪說:你搶我蘋果乾嘛?
殺手說,因為有人出錢一千萬 要讓我取你的首級(手機)。富翁激動地握住他手說:你的語文老師是誰?我要再發個大紅包!
到了晚上下起了雨,富豪覺得系此乃天意,逃命為上策,拿把大傘想悄悄溜出門,誰知剛到後門口,殺手又冒出來啦!
「嘿嘿嘿!我就知道你要走後門,早等著你啦!」說時遲,那時快!殺手左手奪過傘,右手把傍晚搶的手機直接塞進富豪懷裡!
「我主人真神機妙算,就知道你會拿傘出來,他今天都不想跟我說話,直接給張紙條,叫我來拿傘!」說完拋下紙條揚長而去。
富豪撿起一看,憤筆的狂草:「不要手機,要他的命(傘)!」富豪直接就跪下了「恩師啊,您在哪?!
我們看一段說假話的例子:
曹操 《三國演義》中官渡之戰,許攸投奔曹操,引出一段經典對話,常被引以證明曹操的奸詐。
許攸: 明公現在的糧草還剩多少呢?
曹操: 一年。
許攸: 恐怕未必吧。
曹操: 半年。
許攸因看了求救文書, 不悅, 拂袖而起說: 我誠心投奔明公, 公竟然如此見外, 實在叫人大失所望。
曹操: 子遠(許)請息怒, 待我告知實情吧, 軍中糧草只能支撐三個月。
許攸不怒反笑: 世人都說曹孟德是奸雄, 今日一見, 果然如此。
曹操: 兵不厭詐嘛!其實只有一個月。
許攸斥: 不要再瞞我!你已經無糧草了。然後拿出從信使身上的搜出告急文書。曹操只好保持沉默。
用一個圖來表達語言交互的過程:
在表達者的一側意圖通過語言表達,在傾聽者的一側,透過語言理解意圖。對用戶意圖的理解,就是語言處理的過程。在這個過程中,有兩個處理方向,一個是基於統計學的,一個是基於語言學的。我們是後者。
總結來說,人話的背後是意圖,處理語言實際是對意圖的處理。目標對了,效果才能好。
很多人認為我們做的就是關鍵字模糊查詢,和搜尋引擎的技術沒有什麼區別。我告訴他們我們深度語言理解技術和關鍵字模糊查詢有本質區別。區別主要有以下幾點:
1.我們分語義場景處理,關鍵字模糊查詢不分語義場景
語言離不開語義場景。把語言從語義場景裡孤立出來,語義就會變得不明確。語義處理第一步確定語義場景。比如當用戶說「劉德華」,其實你無法理解用戶的意圖。當我們知道用戶說「劉德華」是在音樂播放場景,我們就明白了用戶是想聽劉德華的歌。
下圖是正例和反例。這裡沒有看輕小冰的意思,我還是很崇拜他們的。
有人說,你這不就是上下文處理麼?這個叫上下文處理也沒什麼錯。但我覺得叫上下文處理是程式設計師思維。我們叫場景處理是從語言角度出發的。場景處理必須是穩定的,要能一直保持在一定場景裡,用戶想跳出再跳出,用戶不想跳出就不能跳出。另一方面要靈活,用戶不想跳出就不能跳出。否則就談不上場景處理。
結論:如果不能讓對話按照用戶意圖保持在一定場景,不能按照用戶意圖任意跳出和轉換,不能算真正的語義場景處理,不是語義處理,是關鍵字模糊查詢。
2.理解語義的細微差別是語言處理第一要務
不能理解語義之間的細微差別,不能算語義處理。我們認為語義=詞+句式。句式是詞的不同組合方式。相同詞的不同組合方式大多數時候語義不同。我們認為句子裡每個詞都有意義,哪怕是句末語氣助詞。
「你家的地得掃了。」——「你掃了。」
「你能幹嘛?」——「你幹嘛的?」——「你幹嘛啊!」——「你在幹嘛?」
以上兩組句子,關鍵字模糊查詢技術分不清,我們語義處理可以。
結論:不能處理語義的細微差別是關鍵字模糊查詢,能處理是語義處理。
3.對一個問題的不同表達方式的理解也是區別語義處理和非語義處理的重要標誌
這一句理解起來稍微有點難。似乎關鍵字模糊查詢在這方面更擅長一點,但關鍵字模糊查詢是用幾個關鍵字來代表語義,很不穩定,很容易把關鍵字相同的但語義不同的句子當成同樣的語義處理。
我們看一組例子:
「商鞅變法是用什麼東西樹立威信的?」
「商鞅變法是藉助什麼東西樹立威信的?」
「商鞅變法是借用什麼東西樹立威信的?」
「商鞅變法是用什麼物品樹立威信的?」
「商鞅在變法中是用什麼來樹立威信的?」
「商鞅在變法中樹立威信的時候用了什麼東西?」
「商鞅在變法中樹立威信的時候使用了什麼道具?」
以上幾個句子的意思完全是一樣的,它們的答案統一是「一根木桿」。
所以在知識庫裡存其中任何一條,換別的問法也應該能得到正確的答案。
有人說關鍵字模糊查詢也都能做到把以上句子當成一個意思處理。我說也許能。但關鍵是他們處理不了以上句子和「商鞅變法是怎樣樹立威信」這句話之間的差別。
結論:如果不是在差異處理的基礎上做的語義相同處理,不是真正的語義處理而是關鍵字模糊查詢。
4.能夠容錯糾錯是語義處理的重要功能,會讓交互更自然
我們的表達有時候會出錯,有時候是錯誤是出在語音識別的環節。語義處理是處理意圖的,應該能根據場景進行糾錯。
就像下圖,在運動控制場景下,用戶說「天津」「後腿」其實是表達錯了。應該按照用戶意圖,按照「前進」「後退」處理。
結論:關鍵字模糊查詢是對字詞的處理,是對信號的處理,不是對語義的處理,容錯性要差一些。
5.只有機器自己說話不前後矛盾,才是真正做好了語義處理
當機器真正理解了語義,它應當理解語言之間的矛盾和衝突,理解語言之間的各種關係。它能產生自己的意圖,並根據語法規則組織語言。這樣它才能準確表達,準備理解用戶的表達。但這個非常難。
結論:語義理解應該能根據語義建立一個有機的知識庫,知識庫裡的知識廣泛連結並相互統一。而用關鍵字模糊查詢技術做不到這一點。
以上就是我說的語義處理的四大原則:
第一:差異原則。區分語義的細微差異。
第二:同一原則。就是把語義相同的句子歸併處理。
第三:模糊原則。要能容錯。
第四:一致原則。就是說話要前後一致,不矛盾。
以上四大原則,我們前兩個原則都做得不錯。第三個原則目前還不太好。第四個難度太大,目前還沒動手。
我們諦聽機器人是一家技術公司,雖然成立9個月了,但是你能拿出來的產品不多,目前用戶也不多。雖然剛剛跟用戶收到了一些使用費,但這不是我們的追求。我們期望讓每個企業,每個個人用戶都使用我們的機器人。讓機器人替代個人和企業在虛擬的世界工作。
有朋友提出了平行人的概念,就是在虛擬世界裡,有一個虛擬的你,「他」替代你在虛擬世界裡完成本該由你完成的工作。比如客服、諮詢、教育,很多在網際網路上完成的活動都可以在虛擬世界完成。那個虛擬世界就是別人說的平行世界吧!我們目前就在建立這個平行世界。
Q1:彭軍輝老師你好,你們的產品什麼時候可以應用於智能管家?
彭軍輝: 智能管家這塊我們去做優勢不明顯。
Q2:為什麼你們做智能管家優勢不明顯?
彭軍輝: 我們嘗試提了一個電視機機器人的方案,這個我們認為是未來家庭的核心。其實機器人未必都是人形的,電視機完全可以變成機器人。電視機機器人的交互就要複雜很多,我們去做才有優勢。人工智慧是很龐大的工程,像我們這樣的小公司,先要忙生存,能做的事情還是很少的。
Q3: 智能管家是虛擬服務,也要要多種模型支撐。不是場景語義可以解決的,是嗎老師?
彭軍輝: 智能管家這個概念很模糊。我覺得單純做一個命令式的智能管家一定是沒有人用的。把電視機做成智能管家,才有機會。
Q4: 彭總,貴公司是不是和圖靈機器人的業務很相似啊?
彭軍輝: 我們和圖靈有很多類似的地方。但我們認為我們是網際網路公司,圖靈可能是個機器人公司。
Q5: 彭總,您認為人工智慧發展到極致的時候真的會有自己的思想嗎?
彭軍輝: 我們自己做過一些測試。機器人完全可以用現有的知識推導出新的知識。比如它看到一個陌生的東西,它不懂,它完全可以憑藉自己已有的知識去對待這個陌生的東西。然後在交互中修訂自己的認識。如果放任機器人自己去思考,機器人真的會獨立思考的,那樣結果真的沒法預測也沒法控制。
Q6: 機器人自己思考是有哪方面的算法?
A: 思考其實有三個層次。在語言層面的思考是最高層次,人類為什麼這麼聰明,就是人類有複雜的語言。機器真正理解了語言,也才能擁有人類的智能。
(本文首發鈦媒體,根據北京諦聽機器人科技有限公司創始人、CEO彭軍輝在鈦坦白上的分享整理)
………………………………………………
昨晚,三位鈦客在鈦坦白人工智慧微信群進行了精彩的分享,乾貨會陸續發布:http://www.tmtpost.com/tag/1508094。今晚7點,分享繼續!
時間:12月4日-5日
後續鈦坦白「AI已來」系列還將圍繞「計算機視覺」 「深度學習」「智能醫療」「智能交通」等等主題組織分享與討論。
報名入群:在微信公號「鈦媒體」(taimeiti),發送「鈦坦白」
推薦鈦客、贊助、合作:請與鈦坦白負責人佳音聯繫,郵箱jiayinge@tmtpost.com