出品:放牛班的秘密花園(ID:CDXBN1)
來源:快公司
編譯:sail2008
責任編輯:sunnisky
亞馬遜Alexa副總裁兼首席科學家Rohit Prasad認為,舊的計算標準對當今的人工智慧時代已不再具有借鑑意義。
今年是艾倫·圖靈引入「圖靈測試」概念的論文發表70周年。在這篇論文裡,他回答了這個問題——「機器會思考嗎?」。該測試的目標是確定機器能否表現出與人類難以分辨的對話行為。
圖靈預測,到2000年,普通人在模擬遊戲中將人工智慧與真人區分開的概率將不到70%,遊戲中的回應者可能是真人,也可能是人工智慧,而評估者對此毫不知情。
阿蘭·圖靈
為什麼20年過後,作為一個產業,我們還無法實現這個目標呢?我認為圖靈提出的努力目標對我這樣的人工智慧科學家來說並不是一個實用目標。
圖靈測試充滿了限制性因素,圖靈自己在這篇開創性論文中就討論過其中一些。隨著如今人工智慧普遍集成到手機、汽車和家庭中,一個事實越來越明顯:人們更關心他們與機器的交互是實用、無縫和透明的,實現機器與人真假難分的理念已經過時。
因此,是時候讓這個70年來一直作為靈感源泉的傳奇退役了,我們需要設立一個全新的挑戰來賦予研究者和從業者以同樣的靈感。
圖靈測試
與公眾想像力
在概念引入後的短短幾年裡,圖靈測試成為人工智慧學術界的北極星。
六七十年代最早出現的聊天機器人「伊麗莎」(ELIZA)和「帕裡」(PARRY)的目標就是通過圖靈測試。2014年,聊天機器人「尤金·古斯特曼」(Eugene Goostman)宣布它通過了圖靈測試,騙過了33%的人類裁判,讓他們誤以為自己是真人。然而,正如其他人所指出的,騙過30%人類裁判的標準是武斷的,即使這樣,這場勝利還是讓一些人覺得過時了。
然而,圖靈測試繼續激發著公眾想像力。OpenAI的「生成性預訓練」Transformer 3(GPT-3)語言模型以其擊敗圖靈測試的潛力而成為頭條新聞。同樣地,記者、商界領袖和其他觀察家仍然會問我:「Alexa什麼時候能通過圖靈測試?」
毫無疑問,圖靈測試是衡量Alexa智能的一種方法,但這樣衡量Alexa的智能真的重要嗎?有意義嗎?
要回答這個問題,讓我們回到圖靈第一次提出這篇論文的時候。
1950年,第一臺商用計算機尚未開售,光纖電纜的基礎性研究又過了四年才發表,人工智慧領域也還沒有形成,要到1956年才正式確立。如今手機的計算能力是阿波羅11號的10萬倍,再加上雲計算和高帶寬連接,人工智慧可以在數秒內根據海量數據做出決策。
雖然圖靈的最初設想仍能賦予我們靈感,但將圖靈測試理解為人工智慧進步的終極標誌,必然會受到它剛提出時所處時代的局限。
首先,圖靈測試幾乎沒有考慮人工智慧的機器屬性,比如快速計算和信息查找等,這些才是現代人工智慧最有效的特徵。
刻意強調騙過人類,意味著人工智慧要通過圖靈測試,就必須在回答諸如「你知道3434756的立方根是多少嗎?」或者「西雅圖離波士頓有多遠?」這類問題的時候做出停頓。
事實上,人工智慧立刻就知道這些答案,而做出停頓讓自己的回答聽起來更像真人,並不是利用其技能的最佳方式。
此外,圖靈測試沒有考慮到人工智慧使用傳感器聽、看和感受外部世界的能力越來越強大。相反,圖靈測試僅限於文字溝通。
其次,要想讓人工智慧在今天更實用,這些系統需要高效地完成我們的日常任務。當你讓人工智慧助手幫你關掉車庫的燈時,你並不想發起一場對話。相反,你會希望它立刻滿足這個要求,並以一個簡單確認比如「ok」或「好的」來通知你。
即使你與人工智慧助手就一個熱門話題進行廣泛對話,或讓它為孩子朗讀故事,你還是想知道它是人工智慧而非真人。事實上,通過假裝真人來「騙過」用戶會帶來真正的風險。想想反烏託邦的可能性,我們已開始看到散布假消息的機器人和深度虛假新聞的出現。
人工智慧
面臨全新的重大挑戰
與其說沉迷於讓人工智慧與人類毫無差別,我們更應該致力於構建能增強人類智力、以公平和包容的方式改善我們日常生活的人工智慧。
一個有價值的潛在目標是,讓人工智慧表現出類似人類的智能屬性——包括常識、自我監督和語言能力,與快速搜索、記憶喚起和代表你完成任務等機器效率相結合。最終的結果是學習和完成各種任務,適應全新的情況,遠超一個普通人所能做的。
這一焦點揭示了當前人工智慧領域真正重要的研究——感官理解,對話,淵博的知識,高效學習,決策推理,以及消除任何不恰當偏見(即實現公平)。這些領域的進展可以用多種方式來衡量。
一種方法是將挑戰分解為多個任務。例如,Kaggle的「抽象和推理挑戰」專注於解決人工智慧從未見過的推理任務。
另一種方法是為人機互動設計一個大規模的現實世界挑戰,比如「Alexa 社交機器人大獎賽」——一個面向大學生的對話型人工智慧大賽。
事實上,當我們2016年推出Alexa大獎賽時,我們就應該如何評價競爭對手的「社交機器人」展開了激烈的辯論。我們是想讓人們相信社交機器人是真人,展開某種程度的圖靈測試嗎?或者,我們是想讓人工智慧具備進行自然對話的能力,從而促進學習、提供娛樂,還是只是把它當作一種令人愉悅的消遣?
首個獲得公民身份的機器人「索菲亞」
我們制定了一個規則,要求社交機器人在20分鐘內與真人就包括娛樂、體育、政治和科技在內的廣泛熱門話題進行連貫有趣的對話。
在決賽前的開發階段,客戶會根據是否願意與機器人再次交談來給它打分。在決賽中,獨立的人類裁判會根據連貫性和自然性以5分制為其打分。
如果任何一個社交機器人的平均對話時長達到20分鐘,並獲得4.0以上的分數,那它就能通過這個重大挑戰。
雖然目前還沒有社交機器人通過這一重大挑戰,但這種方法正引導人工智慧研發,使其在基於深度學習的神經方法的幫助下,擁有類似於人的對話能力。它優先考慮讓人工智慧在適當情況下展現出幽默和同理心,而無需假裝成真人。
威爾·史密斯主演的科幻電影《我,機器人》
像Alexa這樣的人工智慧在我們日常生活中的廣泛應用,是衡量人工智慧進展的又一個絕佳機會。
雖然這些人工智慧服務依靠類似於人的對話技巧來完成簡單事務(如設置鬧鐘)和複雜任務(如規劃周末),要實現效用最大化,它們就要從對話人工智慧跨越到「環境人工智慧」——當你需要它時,人工智慧會立刻回應你的請求並預測你的需要,當你不需要它時,它會消失在背景中。
例如,Alexa能檢測到玻璃破碎的聲音,並提醒你採取行動。如果你在睡覺時設置了鬧鐘,它會建議關掉樓下還開著的聯網燈具。
這種人工智慧的另一個方面是,它們需要在日益增加的大量任務中成為專家,這隻有通過更廣泛的學習能力而非特定任務智能才能實現。因此,在未來十年乃至更長的時間裡,人工智慧服務的實用性,及其在環境設備上的對話和主動協助能力,是值得考察的。
這絕不是要貶低圖靈的最初設想——圖靈的「模仿遊戲」的設計初衷是一個思想實驗,而不是對實用型人工智慧的終極測試。
然而,現在正是取消圖靈測試的時候,讓我們從艾倫·圖靈的大膽構想中獲取靈感,加快以幫助人類為目標的人工智慧的建設進程。
【今日互動】
你覺得圖靈測試對人工智慧過時了麼?」
喜歡我們的話,記得加星標或置頂哦
聲明:著作權所有,轉載需授權
Come on,給你的靈魂充充電