IBM AI與人類辯論賽全程:機器語義、邏輯分析能力突飛猛進

2020-11-30 36kr

編者按:本文來自騰訊《潛望》,作者:紀振宇,發自矽谷

你或許從來沒有見過這樣一場奇特的辯論賽:人類辯手在講臺上正進行著精彩陳述,一旁是一臺一人多高的黑色方形柱,中間屏幕上的三個光球不時彈跳、閃爍,隨後,從這臺柱子身上傳出一個冷靜的女聲,保持著恆定的語速闡述自己的觀點。

這場備受矚目的人與人工智慧之間的辯論賽11日在IBM 2019年Think大會期間上演。臺上的黑色柱子,是被IBM稱為「Project Debater」的人工智慧系統,誕生於IBM位於以色列海法的實驗室,最早於2011年由研究員Noam Slonim提出,去年6月,Project Debater首次在舊金山的一場媒體閉門活動上亮相,對陣兩名以色列辯論冠軍並取得勝利。

f時隔半年多後,Project Debater的再次亮相則高調了許多,這場辯論賽對外進行了視頻直播,對陣的人類辯方是2012年歐洲辯論冠軍、入選2016年全球辯論大賽最終決賽圈的專業辯論選手Harish Natarajan。

當天的辯論賽分成三部分進行,首先正反雙方分別進行4分鐘的觀點陳述,然後進入各自4分鐘的反駁時間,最後是各自進行2分鐘的總結。

這場辯論的辯題為「是否應該對學前教育進行補貼?」 Project Debater 為正方,人類辯手為反方,每一輪都由Project Debater首先進行。

在開場陳述中,Project Debater表示,應該對學前教育進行補貼,「補貼」不僅僅是「錢」的問題,還關乎政治、社會和倫理道德等,根據許多過往的經驗及研究表明,學前教育能夠對社會帶來正效益,包括減少犯罪,幫助貧困等,Project Debater特別提到幫助貧困人群的問題,相關研究成果稱,學前教育可以幫助與貧困相關的兒童的一些缺陷。

AI隨後連續引用了三份研究結果來佐證自己的觀點,首先是引用經合組織的建議,稱應對貧困地區進行學齡前教育補貼,以改善這些地區兒童的未來表現。其次,AI還引用了60年代的一份研究稱,學前教育能夠對個人及社會未來長期發展帶來幫助,遠遠超過為此需要付出的成本。最後,AI還引用了疾控中心的研究,稱學前教育能夠減少醫療成本、降低犯罪、對福利的依賴以及虐待兒童等。

因而AI的結論是,對學前教育進行補貼,能夠讓貧困家庭的兒童支付的起相關教育,讓他們更好地為未來的教育做好準備。

Project Debater的整個陳述句式完整,邏輯清晰,尤其多次引用了過往的研究成果,包括經合組織的數據等,來佐證自己的觀點。

隨後人類辯手Natarajan做了針對性的開場陳述,不僅闡述了其在15分鐘時間內所準備的內容,還對Project Debater的陳述,進行了有針對性的質疑。他指出,Project Debater的主要觀點,基於一種「本能性」的結論,即我們如果認為學前教育總體上是好事,那麼就理所應當對其進行補貼,但他認為,僅憑此就做出這樣的結論還遠遠不夠,這樣的邏輯過於簡單直接,他給出了例子進行反駁,例如如果一國增加對醫療的投入,也能夠給整個社會帶來福利,也能夠對教育帶來推動。

此外,他還指出,Project Debater忽略了在現實情境下,簡單進行補貼並不一定能夠達到預期的效果,尤其是針對學前教育的補貼,最終實際上是補貼在中產階層身上,而這些階層原先就有能力支付學前教育的費用,而補貼的錢由來自於所有人,因而對於貧困人群來說,反而帶來了損害。Natarajan同時指出,如果目的是幫助貧困人群,那麼在政府資金資源有限的情況下,應該考慮現實的限制,將資源最優化配置在能夠達到這一目的的領域。

人類辯手的這一開場陳述,同樣邏輯清晰,並且體現了人類在進行辯論過程中,能夠根據對方的陳述,做出有針對性回應的特點,考慮到這位人類辯手是一位專業的辯論高手,因而在他的陳述中,也體現了許多專業性的辯論技巧,例如將辯題進一步細化,並引向對手方在陳述中暴露出的邏輯上的薄弱環節,比如Natarajan就針對了Project Debater在陳述中所表現出的「因為學前教育好,所以就要進行補貼」這樣的簡單粗暴的邏輯。

在接下來的駁論環節,辯論雙方需要對對方之前所做出的陳述,進行針對性的回應,以進一步鞏固自身的觀點。

就這一輪環節來說,對於人工智慧Project Debater的挑戰在於,需要首先理解人類辯手在陳述中所進行的闡述,同時在其中找出其論證的一些漏洞或邏輯不嚴密的地方並對這些薄弱環節進行針對性回擊。

Project Debater的設計者之一、IBM研究員Noam Slonim表示,這一輪對於AI來說是「挑戰最大」的部分,對於AI來說,首先需要獲得人類辯手之前陳述的詞語,然後將這些詞語組織成「有意義」的句子,再從這些句子中摘取出人類辯手陳述的要點,再對這些要點進行回應。

但遺憾的是,這一輪Project Debater的表現並不夠好,這一輪也是最能反映出人和人工智慧之間的區別的環節。儘管Project Debater準確地抓取了人類辯手在開場陳述中所提到的對於貧困人群幫助的問題,並進行進一步闡述,但卻錯誤地理解了人類辯手的意思,Project Debater稱,對方辯友說學前教育是有害(harmful)的,但實際上是AI錯誤地理解了人類辯手的意思,人類辯手說,過早的學前教育,可能讓兒童在心理上產生挫折感,這樣反而是有害的,而AI並沒有將這樣的完整的上下文全部吸收並進行正確理解。

隨後,Project Debater的大部分陳述依然圍繞著其相對簡單的邏輯進行,包括有數據和研究表明學前教育對於兒童接下來接受學校教育更有幫助,以及學前教育可以降低犯罪率,所以要對學前教育進行補貼。

人類辯手在接下來自己的反駁環節,繼續緊抓AI邏輯相對簡單以及對情境的闡述過於理想化這一點進行攻擊,指出,AI所提出的政府資金能夠滿足各個方面只是理想的狀況,現實情況下,在政府資源有限的情況下,直接將資金撥給學前教育,並不一定是最理想的選擇。

在最後總結陳詞環節,Project Debater依然給出了標準完整的陳述,人類辯手在進一步闡述自身觀點的同時,繼續指出Project Debater的觀點在論證邏輯上的不足。

本場辯論賽最終的輸贏是根據賽前賽後觀眾投票結果的變化來決定,在比賽進行之前,現場的觀眾對該辯題進行投票,結果為支持補貼學前教育的觀眾佔79%,不支持補貼學前教育的觀眾佔13%,在辯論結束後,支持補貼學前教育的觀眾比例變為62%,而不支持補貼學前教育的觀眾佔30%,也就是說,17%的觀眾的觀點因為受到辯論的影響,由支持變為反對,根據這樣的結果,本場辯論賽以人類辯手獲勝而告終。

與此同時進行的另一個投票結果則並不讓人意外,69%的觀眾認為,Project Debater讓他們增加了知識。

從整場辯論賽的進程來看,進行地十分順利流暢,無論是AI還是人類辯手,都在各自環節的指定時間內,準時無誤地完成了自身的陳述,Project Debater從始至終保持了冷靜平緩的語調,語速也從頭至尾保持一致,這也完全符合外界之前的預期。有些出人意料的地方在於,AI時不時還會冒出一兩句幽默,比如「對方辯友或許從來沒有和機器進行過辯論」,還有「或許我自己無法親身經歷貧困是什麼樣的,也不應對目前的生活水平有任何抱怨」,所有這些小花絮,都讓AI聽上去更像一個有著獨立思考能力和情感的人類,辯論賽的主持人也在開始前說,Project Debater是有性別的,是一位女性,並在辯論賽結束後稱,AI展現出了「魅力」(Charming)。

當然AI自身存在的不足,也在整個辯論賽過程中很明顯地暴露出來,而這些「弱點」也正好被其訓練有素的人類辯手所利用,例如AI的邏輯結論相對簡單,總體而言,AI的邏輯是,過往的經驗和研究數據表明,A能夠導致B、A也能夠導致C或者D,如果B、C、D都是好的,那麼就應該支持A,基於這樣簡單的因果邏輯所得出的結論在遇到很多現實問題制約以及其他變量因素時,並不能夠完全成立。

當然,由於AI背後的海量數據資源的優勢,AI在辯論過程中能夠隨意引用相關研究成果來佐證自己的觀點這一點,要絕對遠勝過人類,在賽後,人類辯手在接受短暫訪談時也提到,在辯論賽中,發現AI所具備的這種「潛力」,讓他十分驚嘆,他認為,如果人類也能夠具備這樣的能力,那麼將在分析問題得出結論過程中得到更多的助益。

Noam Slonim表示,Project Debater的資料庫包含100億的句子,而該系統的能力在於在短時間裡,從這些數據中找出能夠用於當前辯題的詞語,組成合乎邏輯的句子,再組成完整的陳述。

從當場AI的表現來看,Project Debater至少已經完成了在短時間內(15分鐘),從資料庫中尋找到能夠用於當前辯題的詞語,組成相關的句子,並形成邏輯相對嚴謹的陳述,但同時,在理解人類對手的陳述,抓住對方陳述的要點,甚至邏輯的薄弱環節方面,還存在很明顯的不足。

無論結果如何,這場辯論賽向世人展示了AI所具備的另一種能力,在我們親眼看到AI能夠在西洋棋、圍棋、電腦遊戲方面能夠輕鬆戰勝人類頂級選手以後,在對語義、邏輯要求更高的領域,已經取得了非常驚人的進展。

在辯論賽後,Slonim接受騰訊《潛望》等媒體採訪時表示,自己願意給Project Debater的表現打9分,他對於系統的表現十分滿意,同時也指出在駁論階段系統存在的不足。

「我們的最終目標是,當結果並不是非黑即白時,建立一個能夠幫助人們做出基於證據的決策的系統。」Slonim說。

正如IBM 研究院主管Dario Gil在辯論賽開場之前所說,比賽的意義並不在於誰輸誰贏,而是通過這樣的方式,展示人類能夠將AI更好地運用到分析問題、解決問題以及做出決策等方面的另一種可能性。

相關焦點

  • 京東AI研究院獲QuAC機器閱讀理解競賽冠軍,模型能力業界領先
    其中,在 F1-Measure(又稱為 F1-Score) 指標上達到 74.6,大幅拉近了機器與人類在該任務上的水平差距。這也意味著以零售、物流、金融、客服等優質場景為依託的京東 AI 研究院,在機器閱讀理解能力上取得了突飛猛進的成果。
  • 鄒炎炎:語義分析介紹及跨語言信息在語義分析中的應用 | AI 研習社...
    近年來,隨著人工智慧的發展,語義分析也越發重要。word embedding 是很常見的 input feature,能夠很大程度地提升語義分析模型的性能。然而,對於 output 對語義分析模型性能的影響,大家的關注度卻並不是很高。
  • 從京東 618 導購機器人說起,機器如何更理解人類?
    此外,JOY也強化了自己的多輪對話能力,以便應對用戶的反覆追問。在京東JOY強大的對話能力中,基於開放域目標驅動的生成式對話服務來自於人工智慧企業「深思考人工智慧」(iDeepWise.ai)。其在多模態深度語義理解、人機對話等核心AI技術上已不斷突破創新。這些新技術的不斷迭代,也在一步步推動AI實現商業化落地。AI對話機器人背後的黑科技究竟是什麼?
  • 地圖中的語義理解 | 雷鋒網公開課
    承擔輸入法、號碼通、個性化新聞等搜狗桌面產品在大數據和算法研究方面的工作,通過研究能力提升產品核心品質推動產品創新。同時負責搜狗智能語音交互技術,帶領語音和語義技術團隊實現了業內頂尖的語音交互能力,並致力於智能語音技術的產品化創新。個人主要研究領域為:自然語言處理、機器學習、推薦系統、語義理解、機器智能等。
  • 資源 從人臉識別到機器翻譯:52個有用的機器學習和預測API
    目前提供了四種語義服務:實體和概念提取、情感分析和文本分類。該 API 支持 8 種語言。連結:https://www.bitext.com/text-analysis-api-2/#How-accurate-is-the-analysis2.Diffbot Analyze:提供了能用來對任何網頁進行識別、分析和主要內容和章節提取的開發者工具。
  • 自然語言處理前沿論壇在京召開 學者專家共探機器之讀、寫、說、譯
    本屆論壇主題為「機器之『讀、寫、說、譯』—— 探尋NLP未來之路」。論壇圍繞語義計算、自動問答、語言生成、人機對話及機器翻譯五大議題,與學術界、工業界一線青年專家學者共同探討NLP領域的最新技術進展、產業應用及發展趨勢。
  • 機器之心獨家對話百度 NLP:先解決語義理解,再談機器翻譯取代人類
    第一是為百度的眾多產品提供最基礎的、NLP 模型算法,包括百度所有產品都在用的分詞算法、專名識別、詞性分析、語義理解、篇章理解等等一些基礎的一些工具。目前 NLP 部門為整個公司提供一個大型平臺 NLP 雲,未來這個平臺也會對公司外有所開放,目前(這個平臺)每天都有千億量級的調動量。還有貼近應用的一些大型的應用系統,比如說深度問答系統。
  • 2019 語義分割指南
    通過視頻傳播法和標籤鬆弛法優化語義分割(CVPR, 2019)本文提出了一種基於視頻的方法,通過合成新的訓練樣本來擴展訓練集。這是為了提高語義分割網絡的準確性。這種方法探究了視頻預測模型預測未來幀的能力,以便預測未來幀的標籤。
  • 詭辯與表演才是辯論賽真相
    長江商報消息 近日國內各大高校都在緊鑼密鼓地組織舉行辯論賽,為地區性的和全國性的辯論賽事作準備。自從1993年復旦大學的姜豐和蔣昌建在新加坡舉行的國際大專辯論賽上的「精彩」表現之後,國內高校便掀起了一股狂熱的辯論賽熱潮。這股熱潮延續至今,在20年後的今天已經成為了人們普遍推崇的智力活動,也成為了中國高校每年的慣例。
  • 盤點國內排名前十強智能客服ai電銷機器人品牌商家
    智能客服ai電銷機器人的強大功能優勢讓很多企業都讚不絕口,那麼相必很多人都對智能ai電銷機器的排名榜也是非常感興趣的,在這裡就由我來和大家分享下國內排名前十強智能客服ai電銷機器人品牌商家,供大家參考!
  • 重慶郵電大學校長高新波:人類為機器立心 機器為人類立功
    「人類的大腦是一個通用智能系統,能舉一反三、融會貫通,可以同時處理視覺、聽覺、判斷、推理、學習、思考、規劃、設計等各類問題,可謂『一腦百用』,目前人工智慧距離人類智能水平還有巨大差距,人工智慧還有很多不能,比如有智能沒智慧,有智商無情商,會計算不會『算計』,有專才無通才,這都是今天人工智慧發展遇到的瓶頸。」
  • 重慶郵電大學校長高新波:人類為機器立心機器為人類立功
    「人類的大腦是一個通用智能系統,能舉一反三、融會貫通,可以同時處理視覺、聽覺、判斷、推理、學習、思考、規劃、設計等各類問題,可謂『一腦百用』,目前人工智慧距離人類智能水平還有巨大差距,人工智慧還有很多不能,比如有智能沒智慧,有智商無情商,會計算不會『算計』,有專才無通才,這都是今天人工智慧發展遇到的瓶頸。」
  • AI看圖說話首超人類!微軟認知AI團隊提出視覺詞表預訓練超越...
    無需配對圖文數據,VIVO看圖說話奪冠nocaps首次超越人類VIVO可以在沒有文本標籤的數據上進行文本和圖像的多模態預訓練,擺脫了對配對圖文數據的依賴,可以直接利用ImageNet等數據集的類別標籤。藉助VIVO,模型可以學習到物體的視覺外表和語義之間的關係,建立視覺詞表。這個視覺詞表是啥呢?
  • 谷歌阿爾法狗、IBM深藍戰勝世界冠軍後,AI辯手又贏了
    機器的勝利標誌著西洋棋歷史的新時代。圍棋界公認阿爾法圍棋的棋力已經超過人類職業圍棋頂尖水平。2018年6月的一天,在IBM公司舊金山辦公室內,一場人機辯論大賽如期舉行。辯論賽的主角叫做「Project Debater」,這是由IBM位於以色列的海法研究院為主的科學家們歷經六年研發的能進行複雜辯論的AI系統。辯論另一方是以色列國家辯論冠軍Noa Ovadia和以色列國際辯論協會主席 Dan Zafrir。意料之中的事情還是發生了,機器辯手Debater在主題為「是否應該增加使用遠程醫療」的辯論中最終扭轉了更多的現場觀眾最初觀點,贏得了辯論。
  • 教師解放新前沿:讓機器給作文打分 | 2018全球AI+智適應教育峰會
    (二)IEA——一個重內容的評分系統IEA是一種基於潛伏語義分析的作文自動評分系統,由美國科羅拉多大學的ThomasLandauer等學者開發。與PEG顯著不同的是,IEA的設計者們在其網站上申明:「IEA是唯一能夠測量語義和作文內容的程序」。據IEA的設計者們報告,潛伏語義分析主要分析文本的內容和學生作文中所傳達的知識,而不是作文的風格或語言。
  • IBM研發模擬人腦神經元結構計算機 有望具備人類學習能力
    這一美國國防部資助、康奈爾大學等科研機構參與研發的新型計算機,完全不同於此前所謂的「人工智慧」——無論是戰勝西洋棋大師的「深藍」,還是通過了圖靈測試的「尤金·古特曼」,都是依靠事先儲存大量數據的方式來「偽裝」博學,而IBM的新式神經元計算機則從硬體構架上模擬了人類神經系統,有望真正具備人類的學習能力。當然,在大腦的秘密完全被揭開之前,神經元計算機也不太可能完全模擬人腦。
  • 「千腦智力理論」或顛覆AI:理解人類新大腦皮層
    2018年10月,在荷蘭馬斯垂克舉行的人類大腦項目峰會上,Numenta公司的技術專家、科學家和聯合創始人Jeff Hawkins提出了一個新型框架來理解人類新大腦皮層是如何運作的,被稱為「千腦智力理論」。
  • Facebook專家強烈質疑人類預測能力,未來只有靠AI才能自救!
    但近日,Facebook的AI研究科學家Tomas Mikolov表示, 如果不開發AI,人類的未來會變得更糟,人類實際上非常不善於預測,當我們做出重大的錯誤決定時,幫助人類實現自我拯救的可能就是機器。在未來,人工智慧可以超越人類、甚至奴役人類,但如果我們不在人工智慧領域取得進步,我們的未來可能會變得更糟。
  • 美國轉基因辯論賽:挺轉派獲勝
    北京時間12月4日7:45(美國東部時間12月3日18:45),一場關於轉基因的辯論賽在美國紐約舉行。主辦方是辯論節目美國「智慧廣場」,對戰雙方均是挺轉界和反轉界的權威人士,包括轉基因作物的龍頭企業孟山都的CTO(首席技術官)。 賽前的統計顯示,在座聽眾32%挺轉,38%反轉,剩下的未表態。