在研發聊天機器人或「智能助手」的過程中,我們 一直追求讓人類不再擔任主角,甚至把工作和生活安排完全交給機器解決,但現實是,即使任務可以被處理掉,人類也不喜歡。
編譯|王宇欣
來源| Wired
作者| JOHN H. RICHARDSON
我正處於早晨的日常當中,筆記本發出聲音,成堆的電子郵件填滿了整個屏幕——我絞盡腦汁想了 40 種支付那些該死帳單的方式,花了 30 分鐘檢查了我在枯燥工作中出現的錯誤。
「Hi John,Stefanie 通知我這次的會議定在了周二。我會繼續發送邀請。」這段話發自 Andrew。
隨後,Andrew 又給我發送了 8 封郵件。顯然我周二要和幾個人見面,他給我發送了一大串的邀請。
然後,他又給我寫了一封郵件,這次是要確認我是否會到場。
我回道,「我會按照日程,4 點到達,」
滴,又是一封郵件。
沒問題。我會在周三美國東部夏季時間的 12:30 發送邀請。
我回信道,「我想你誤會了,我說我會在下午 4 點準時參加。我不想讓你重新安排時間。」
我很抱歉,非常感謝。關於這次的會議,你還有什麼別的需要更改的嗎?
「我就希望你把它改回到下午 4 點。」現在我只希望再發 8 封郵件就能解決這個事。
無休止的郵件往來。
在那一刻,我快要按奈不住內心的盧德主義了,Andrew Ingram——我之後了解才知道那個助理的全名——才不是什麼我應該體諒的過勞的私人助理;他是一個人工智慧支持的日程安排機器人,僅僅是眾多「對話界面」科技公司的一員,他們為了最大化地提高效率會把無窮無盡的問題扔向我們。
我們正在學習告訴 Alexa 播放哪首歌、學習要求 Nerdify 提供研究材料、學習用 Hello Barbie 分散孩子的注意力、學習和汽車的儀錶盤交談來預訂披薩。
去年,800 萬人與一個名為 Cleverbot 的對話式用戶界面進行了交談,僅僅是因為他們想要和某個人,或是某個東西聊聊天。
一些市場研究人員預測,到 2025 年,將有超過 10 億人與人工智慧助理有過接觸。當人類在未來幾十年後奮起反抗計算機霸主時——即使那時候我拄著拐杖顫顫巍巍的走著,身邊有一個不知疲倦的照護機器人陪伴——我也會一步一步走向路障,大聲喊出我的戰鬥口號:「記住 Andrew Ingram!」
哥們,這傢伙真是太煩人了。
好吧,這樣說有些暴躁了。
雖然這聽上去是件小事,但是創建一個人工智慧程序來成功地安排會議是一個非常困難的挑戰,而且你要知道,那些試圖來完善 Andrew Ingram 的人——X.ai 公司的 53 名全職員工,將會是你所見過的最具奉獻精神的人。
他們穿著 T 恤和牛仔褲,在曼哈頓辦公室忙碌著,勁頭就好像 NASA 的工程師在準備發射探月衛星一樣。
如果他們能夠完善 Andrew Ingram 的話,他們將會把 X.ai 一舉推上職場創新的最前沿。
美國人每天約要安排 2500 萬次會議。再乘以會議佔用時間的小時工資,你就能知道 X.ai 能夠省下多少時間、金錢和精力了。
碰巧,十多年來,在線調度領域內一直存在激烈競爭。首先進入這一領域的就是 MeetOMatic 和 MeetMax,兩家公司的用戶向在線日程中輸入幾個可能的時間,其他參與者則可以點擊其它方便的空餘時間。
但是這些服務都面臨著一個相同的問題:
忙碌專業人士的生活可沒有多餘的時間來應付另一個挑剔細節的電腦程式。人們真正需要的是一臺類似於人類助手的機器,他們可以直接與之對話:「安排一下下周和 Dave Jones 的會議。」
直到過去幾年,人工智慧仍然無法足夠準確地處理人類的語言來滿足這一需求,所以公司採用了新的混合方法,即機器和人類的混合,算法處理日程和會議地點,人類助手則負責回復客戶。
不過,助理的薪水意味著這些服務的月花銷可能達到數百美金。
降低價格的最好辦法就是完全將人類解放,創建一個全自主的人工智慧調度者,針對這一目標,我詢問過眾多的人工智慧專家,他們給我的回答都是在「非常非常難」到「不可能」這一範圍。即使是最先進的會話式界面也難以完成「自然語言理解」。(人類的意思是 AI 需要理解所有的流行文化參考和圈內梗!)
這是 Dennis Mortensen 在創建 X.ai 時遇到的挑戰。
作為一個精力充沛的企業家,除了長得有點像動作片裡的英雄人物,他還有著計算機分析方面的學術背景。在 80 年代的丹麥,Mortensen 那時還年輕,他會隨身攜帶一個筆記本,稱之為「厭惡列表」——每當有什麼讓他惱火的事情時,他就會拿出筆在小本本上草草記錄下來。
為什麼我們點的披薩要等這麼久?為什麼我必須要在銀行排隊?在他準備開第一家公司時,他把這些問題分為了兩大類:可解和不可解。
在接下來 20 年的時間裡,他的厭惡列表孵化出兩個成功的分析初創公司,Visual Revenue 和 Canvas Interactive,這兩家公司可以讓客戶深入了解他們公司的網站流量。
X.ai 的 CEO,Dennis Mortensen 正在他紐約的辦公室裡。他的任務就是創造出所謂的「調度必殺」。
2013 年,Mortensen 準備好開啟另一個將「工作煩惱」進行商業化的階段。這次他選擇的是會議時間安排。
半個多世紀以來,科學家門一直試圖開發一款電腦程式,能夠與人類真實的互動——最初的聊天機器人,Eiza 就是在 60 世紀由 MIT 編碼而成的,Eliza 在識別會話關鍵詞和腳本響應方面做得非常不錯。
2016 年,亞馬遜舉辦了 Alexa Prize——每年舉辦一次的機器人大賽。比賽要求參賽者搭建一個「在 20 分鐘內和人類就流行話題保持一致並具有吸引力的」聊天機器人,獎金已經高到 350 萬美元。(查看 26.03 期的「Fighting Words」)。
此外,自 1991 年以來,開發者們每年都會參與一項名為 Loebner Prize 的比賽,這是一項圖靈測試競賽,要求機器人門試圖說服人類評判者它們是人類。
但直到 2010 年初,Siri 和其他近期發布的會話式界面開始顯現出不同程度的潛力時,這項技術才有可能使 Mortensen 的夢想成為現實。
Mortensen 將這一想法告訴了希望躋身人工智慧熱潮的風投公司,他在一年內僱傭了一個數據科學家和軟體工程師組成的團隊,開始處理數百個初期的決策:
助理回答問題的語氣應該是正式點呢還是友好一些呢?(他們最後決定兩者兼顧)。
人工智慧助理應該存在性別嗎?(是的,用戶可以選擇 Andrew Ingram 或者他的「妹妹」,Amy。)
Andrew 或 Amy 應該以虛擬的形象出現嗎?
為了確保 Amy 和 Andrew 的聲音保持一致,Mortensen 甚至僱傭了一名「人工智慧互動設計師」來學習 Ingrams 和人類記者之間的嘮叨。看起來,機器也需要演講稿撰寫人啊。
改善算法的能力,讓其以尋常的人類語言回答問題就花費了一年半的時間。其中,處理諸如時間、地點和取消會面等數據花的時間稍微有些長。
但是教人工智慧處理和解釋人類語音似乎比 Mortensen 設想中更加困難。他的工程師一直在研究他們所認為的「邊緣案例」,或者人們在溝通時出現的意想不到的語句。
舉個例子,一個人在要求召開會議時突然說出一些無關緊要的事情,就像「在阿卡普爾科舉辦婚禮怎麼樣?」人類會分辨出這只是閒聊,但是機器可能最終就會在阿卡普爾科安排會議。
如果一個說他們真的很忙,沒時間見面,但是又說「我們真應該另找個時間喝杯咖啡,」人們就會意識到這只是一個藉口罷了。「要不咱們在 John 的辦公室見?」,機器對這樣的話可能無法理解,這世上有幾百萬個 John 好嘛!那個蠢蠢的人究竟說的是哪個 John?
正如 Mortensen 說的那樣,「你認為人類是很合理的,但是很快你就會發現他們瘋了。他們說的話模稜兩可,即使是你我也很難找出答案。或者他們會說出他們認為是對的事情,但實際他們錯了。」
Mortensen 和他的程式設計師看到了兩種解決自然語言理解問題的方法。
他們可以將不同的句法和語法變量輸入到資料庫裡,但是仍然不起效。或者他們可以依賴於機器學習,高級人工智慧的代理和引擎。
當你,一個人類,第一次看見一隻無毛的斯芬克斯貓時,你的大腦會浮現出一隻由觀察和經驗創造出的柏拉圖貓混合體,並瞬間產生一個回饋:「嗯,那隻看起來像一隻沒毛大老鼠的東西,實際上是只貓。」
為了讓人工智慧實現這一飛躍,科學家門必須首先將貓和非貓的照片「餵」給人工智慧,讓算法得以比較所有的示例,並找出圖像中的所有相似點和不同點。
最終,如果有足夠的貓數據和足夠的邊緣案例錯誤的更正,人工智慧將會創建出柏拉圖貓的混合體,並自行解決不常見的貓問題。
但是像『學習』和『思考』這樣的詞意味著計算機並不具備真正人類的特質。它僅僅是在做數學運算,對系統內的數據進行概率測試。這就是為什麼他們被稱為「人工」智能的原因。
Mortensen 踏上了機器學習之路,三年內在所謂的「原始研發」過程中投資了 3000 萬美元之後,他覺得是時候讓 Ingrams 和實際客戶進行合作了。
他在 2016 年 10 月發布了第一版 Ingrams,入門級價格為每月 39 美元,現在則是每月 17 美元。
Mortensen 沒有透露任何銷售數據或是客戶留存率,他們現在仍然處於起步階段,但是數據足夠健康。2017 年 8 月 Mortensen 獲得了 額外 1000 萬美元的風投資金(X.ai 獲得的投資總計 4400 萬美元)。
Mortensen 表示,Ingrams 已經處理了 1000 萬封電子郵件,並與微軟、Uber 和 Slack 等巨頭公司的員工籤約。最終他設想,Ingrams 將簡單地覆蓋每個人的日程表,並且可以毫不費力地召開會議。他把它稱之為「線上調度工作的變革者。」
而以我目前的經驗來看,人工智慧的啟蒙仍然是一段很長的路。
Mortensen 面臨著比自然語言更大的挑戰——人類心理學。比如,我們在三封日程安排郵件之後就會感到惱火,而機器卻不知疲倦。「我們看到一些人工智慧參與上千條消息,」Mortensen 說道。
「說到數千條消息,」我對他說,「僅僅為了安排這次訪問,Andrew 就給我發了 9 封郵件。」
「如果能在一次交涉中完成,應該會更好,」他說道。「但是我們還不支持這樣。」
同時,他在菲律賓有 105 名人類「訓練員」,全天候工作,提供更多數據來豐富算法,提升人工智慧的效率和準確性。
這些員工並非(注意是「並非」)是科技記者指責 Mortensen 用來防止出現日程安排出現錯誤而僱傭的秘密人類助手。他表示,他的作品在沒有人類協助的情況下完成了一切。訓練員只是在教導它如何做的更好。
在馬尼拉郊區一座被高度防護的建築內——我不得不把自己的手機和筆記本交給安保人員,甚至不能在生產部內使用筆和紙——40 名年輕的菲律賓人正像旅客一樣坐在桌旁,在網咖內瀏覽 Facebook。
他們大多二三十歲,都是大學畢業生或是從離岸呼叫中心離職來此的人。像許多菲律賓人一樣,他們說一口流利的英語。但是我的陪同者只允許我與其中之一進行交談,並且時限為 10 分鐘。
X.ai 計算機監控員工「花費在每項任務上的時間,」她說道,我的存在會分散他們的注意力。她還告訴我不要詢問任何人的名字,這會讓他們感到不舒服。
我坐在一名年輕的女子旁邊,看著她在模板上將單詞和數字滑動進箱框內。
她告訴我她正在攻讀商學位,並且在這裡全職工作,目前她正在處理困難時區中的電子郵件。她說道,有時候人們只是會提一下他們所在的城市,這就造成了一個問題,因為有很多城市的名字都是相同的。或者他們會把自己所在地的名字拼錯。有時還會將東部標準時間和東部夏令時間混淆。
X.ai 算法必須要學習如何識別、解決這些問題,工程師們必須要將句子拆分為精心設計的數據集和子集。通過突出顯示每一個與時區相關的單詞,並將其拖入到時區模板相應的箱框內,她的工作就是將數據輸送到機器學習算法中。這被稱為「命名實體識別」。
時間一到,監督者就把我趕出了房間。
在附近的一個會議室內,我遇到了訓練團隊的領導人,一個看起來像是中學老師的開朗女性。
我的陪同者在向我介紹時,只是提到她叫 Zolia——顯然把她的姓告訴我又可能會侵犯雙方交流的舒適區。
不過,他們千裡迢迢邀請我從紐約過來觀看這一奇蹟的運作方式,卻向我保密他們的姓名,這似乎有些奇怪,當我和身處紐約的 X.ai 首席數據科學家 Marcos Jimenez Belenguer 進行視頻通話時,這一切的感覺更加奇怪了。
Lumi 正在聊天機器人初創公司 X.ai 的辦公室中漫步。
在接下來的一個小時內,在他和 Zolia 以及 X.ai 的人工智慧訓練副總裁 Liying Wang 談話時(我曾在紐約和她見過面,這才知道她的全名),我得以一窺瘋狂的人類都會做出什麼問題。
舉個例子,這封郵件寫道:「我可以在周一的香港時間下午 3 點後進行,但是周二我要離開,所以我只能周三之後參加會議,香港時間下午 3 點之後都可以。」
Zolia 表示,她的訓練師被這封郵件難倒了。如果人們說,周三下午 3 點之後的時間總是可以,他們應該把它放在「經常可用」的時間段。但是周二怎麼辦呢?
Jimenez Belenguer 仔細考慮了一會。她的工程和數據科學團隊設計了模板,將正確的數據提供給機器學習模型。針對特定的語言問題或者添加新的功能,他們不斷調整這些模型和模板。
所以問題是,這封電子郵件是否能夠適合這一模型或是是否他們需要重新設計。
是的,他決定了,事實上,「下午 3 點之後」是經常可用的時間段。問題在於,星期二是經常可用時間段的一個「空洞」,他們沒有辦法在最新的時間模型中表示「有空洞的經常性時間」。「這很棘手,」Wang 說道。
還有一個例子:「8 月 7 日的大部分時間我都有空。7、8、9 或者 10 之後的時間都可以,最好在下午。」訓練人員認為這則消息中的後四個數字是日期,但是日期模板卻沒有足夠的箱框。
Jimenez Belenguer 說道,這是另一個邊緣案例,如果工程師或培訓師犯了太多的錯誤,就是那種人類容易犯的錯誤,機器就會學會犯同樣的錯誤。
當然,他們可以搭建一個更多箱框的模板。但是某些時候,他們不得不停止重寫模板,並讓算法向客戶尋求更清晰的說明。這是他們的默認故障安全選項,但是如果 Amy 或 Andrew 問的太多,又會惹惱客戶,他們儘量避免這樣做。我明白這種感受。
直到我報導這一點之前,我一直都在接收 Ingrams 的建議,但我卻不是用戶。現在是該我註冊自己的 Amy 或 Andrew 的時候了。
為了給 自己一個比較的基礎,我決定嘗試使用 X.ai 和其競爭對手之一 Clara Labs 安排會議。
Clara Labs 約 3 年前發布其聊天機器人,和 X.ai 同月發布,它是 Mortensen 試圖賤賣並創新超越的人機混合服務之一。
Clara 的方法被稱為「人為介入(human in the loop)」——「由人類增加了機器所不能創造的價值」這一想法得來。事實上,它的創始人完全否定了 Mortensen 的「全自主化」夢想,他們將這種差異放在了日程助手的問候語中:我是 Clara,你的人為介入助手。
我首先添加了 X.ai。幾分鐘後收到回覆:
Hi John,
我是 Amy,從今天開始,我就是你的私人日程安排助理了。
你想要安排一場會議時,你要做的就是將郵件抄送給我(amy@x.ai),我會接管繁瑣的郵件往來。
首先,她建議我把她和我的日程表相連,並輸入我的地址和會議偏好——比如一天中的時間、喜歡的咖啡店等。她以一個愉快的告別結束了這個引導課程:
始終為你服務,Amy Ingram :)。
是時候來安排我的第一次會議了。我向編輯發出了邀請,按照指示抄送給了 Amy,特意用一個模糊的聚會主題來測試她。
「我下周二去聯合廣場參加下午兩點的會議,我覺得我們之前可以做點什麼,喝個咖啡或吃個午飯——也許 12 點?」
事情很快就變得複雜了起來,不知什麼原因,Amy 最終向編輯提出建議,我們在他家會面。因為我把她的郵件也抄送給了編輯,我馬上意識到了錯誤,開始介入糾正她。
我註冊了 Clara,嘗試了類似的模糊信息。相反 Clara 並沒有使用毫無必要的往來郵件,她直接回復我:
「請讓我知道你想見面的確切地址。」
為了解更多 Clara(這個助手的每月基本套餐費用為 99 美元,其中包括 35 次會議,行政套餐每月費用為 399 美元,包括 110 次會議)的信息,我給 Clara 創始人打了電話,Maran Nelson 和 Michael Akilian。
2014 年,Nelson 和她最好的高中朋友 Akilian 坐在舊金山的一家咖啡店裡,Nelson 告訴 Akilian 她計劃把那些對技術和社交問題有興趣的人聚集起來成立一個智囊團。
她已經通過上百次電話和電子郵件邀請人們進行面試,Akilian 記得那時,「她的電子郵箱完全被淹沒了。她試圖為所有人安排日程,她說道,『我希望有這麼一個東西,我可以直接說,「嘿,我想要在接下來三周和這 50 個人分別談一談,每個人需要安排 30 分鐘的時間,」然後就好了,所有的日程都已經被安排好了。』」
像 Mortensen 一樣,Nelson 和 Akilian 著手編寫響應模板和關鍵字識別。但是他們並沒有嘗試籌集 3000 萬美元,也沒有花費 3 年的時間在自然語言研發上。
「智能界面自成立以來就一直是整個矽谷所篤信的對象,」Nelson 說道。「但是自然語言處理真的離我們還很遙遠,所以我們構想出了『人為介入』」。
這也是 Clara 遠程助手專注的領域。
當 Clara 人工智慧對其提出的響應具有高度自信時,它將在不打擾人類的情況下發送郵件。但是如果是其他情況,Clara 會將相關文本發送給 CRA 比如 Cat Moore(喬治亞洲 28 歲的神經科學學生,在家遠程工作)。
「我們所做的第一件事就是閱讀整個往返的電子郵件,了解發生了什麼,」她解釋道。一般在 10 人之上的大型會議請求上會讓人混亂。那種電子郵件可能要花費她十分鐘的時間才能弄清楚。
有時候她會自定義一些回應模板來增添一些人情味。如果有人給你發郵件說,「我不能參加會議了,我剛剛遇到了一場車禍」,回復「沒問題!你想什麼時候再安排時間?」,就有些不合適了。有時候郵件會說,「對不起,我做不了了,我的父親過世了。」
這讓 Clara 的工程師們想出來一個「同感情緒」的項目。很快,CRAs 就有了新的模板,更具人性化,比如「對於你的失去,我很抱歉」。
「有些東西比較容易自動化,有些則困難得多,」Clara 機器學習項目的負責人 Jason Laska 如是說道。「有時候你真的需要一個人來做這些東西。」
當我回復 Clara 的信息時,我知道另一端會有人,所以我總是以「Hi,Clara」開頭,並在完成時表示感謝。
但是我與完全自動化的 Amy 互通了幾封郵件之後,我覺得與機器交換愉快的心情,然後收到冰冷的機械式回復,這一切實在是太蠢了。我不禁好奇:與機器談話會讓你像機器一樣行事嗎?
Maran Nelson 和 Clara Labs 創始人 Michael Akilian 在舊金山的辦公室。Clara 的人工智慧聊天機器人依賴於遠程人類助理。
我決定進行另一項測試。
我要求 4 個人註冊了 Clara 和 X.ai,並向我發送邀請參加會議。當我收到他們的電子郵件時,我回覆說道「對不起,我的父親去世了。」
Clara 在重新安排會議之前表達了「最深切的哀悼」。
Amy 則採取了不同的方法:
「我很抱歉,但我無法回應你最後的信息。這可能與安排會議無關,或者我無法理解此類訊息。如果我需要對這條消息採取措施,請嘗試重新執行請求並重新向我發送電子郵件。」
我想我發現了另一個邊緣案例。
正如 X.ai 一個高級工程師承認的那樣,在一些罕見的沒有防護措施的時刻,「在可以自動化任何事物的邏輯系統內,至少存在一種情況——它本應該能夠處理但事實上卻不能。就像與人類邏輯相關的所有事情一樣,這是一個無底洞。」
Siri 背後的工程師之一 Joshua Levy 樂觀地認為,在不久之後我們將擁有穩定可靠、完全自主的會話界面:
「我並不是說我們永遠也解決不了語言的問題——也許我們可以——但是現在我們確實無能為力」。
這可能是近期 Facebook 關停 2015 年推出的高端虛擬助手測試版 M 的原因:太多聊天機器人的任務需要人為幹預。
從 Eliza 至今,聊天機器人已經走過了很長的一段路,但是還不夠遠。至少現在還不夠。
對於 Mortensen 和遍布全球的 X.ai 員工來說,問題是,在 Andrew 和 Amy 通向自然語言理解的路上,他們是否會讓許多客戶失望。
Mortensen 表示,Ingrams 現在正確執行了 99 % 的任務,但是一條信息不可能比「我 4 點可以赴會,」更簡單明了了,而 Andrew 在我第一次使用它時就搞砸了。
考慮到 X.ai 既是家初創公司,又是一家積極的研發企業,Mortensen 不對外界透露消費者留存率以及公司收益是合理的,但是更重要的問題在於公司是否有足夠的資金繼續迭代、創新、保持客戶滿意直到技術多年後趨於成熟並步入主流。
在泡沫湧起的人工智慧風頭市場中,籌集資金的一個好方法就是稱自己為一家人工智慧公司,然後僱傭人類員工完成大部分工作,直到你不再需要他們為止。
但是 Clara 的創始人相信我們永遠需要人為介入。
「我們的最高價值就是可靠性,」Nelson 說道,即使公司的開發人員在努力提升其自然語言人工智慧——Clara 約四分之一的任務是完全自動化的——他們不打算阻止那些維持質量控制的人從事副業,他們想出了諸如「同感情緒」之類的項目。
哪種願景會是最終贏家?它會是「讓我們與忠誠的人工智慧助手攜手一起升至頂點嗎」?或者還是現代生活的無情準則那樣,「最終消滅大部分人類助手的公司會笑到最後」?
僅僅作為人類,我們需要耐心等候,等待這兩位不太可能的冠軍——兩種日程安排機器人——進入最后角逐,爭奪人類未來的架構。
推薦閱讀
把心理醫生裝進手機,這家吳恩達加持的公司要用聊天機器人治癒焦慮 | 獨家