Human vs AI,人類和機器的學習究竟誰更勝一籌?

2021-01-20 澎湃新聞

原創 Synced 機器之心

機器之心分析師網絡

作者:仵冀穎

編輯:Joni

在各種任務中人類的學習能力和機器的學習能力究竟哪個更勝一籌?

隨著 AI 的不斷研究和發展,各類 AI 算法在不同場景中的應用層出不窮,關於 AI 及其在日常任務中支持甚至取代人類工作的能力的討論無處不在。例如,在自動駕駛領域,儘管在目前的條件下自動汽車還不能完全替代人類,但關於何時能夠完全取代人類駕駛員的問題仍然受到了高度關注。從長遠來看,使用 AI 替代人類並非不可能,但是這種替代是否能在所有工作場景中實現?

目前,一些 AI 勝過人類的場景主要出現在有大量可用訓練數據或標註圖像的機器學習領域中,例如 Google 的 DeepMind AlphaGO 遊戲等。而在樣本數據很少或完全無監督的情況下,AI 的水平還很有局限性。在這篇文章中,我們關注 Human vs AI 的問題,即在不同的任務中人類的學習能力和機器的學習能力究竟哪個更勝一籌?他們的差距究竟還有多大?

1 Human & AI,怎麼學習?

1.1 人類學習

首先,我們先來看看人類學習的方法和能力。

目前,關於人類學習的研究主要包括三種方向:認知心理學(Cognitive psychology)、社會認知理論(Social cognitive theory)和社會文化理論(Sociocultural theory)。

認知心理學是「研究人們如何感知、學習、記憶和思考信息的學科」。認知心理學的研究包括研究心理現象,如視覺感知、物體識別、注意、記憶、知識、言語感知、判斷和推理。目前機器學習領域中的監督學習就是參考認知心理學的神經科學(Neuroscience)和腦功能(Brain functioning)發展而來的。

社會認知理論也包含了一些與認知心理學類似的觀點,但它更關注人類如何通過觀察和模仿他人的行為來向他人學習。社會認知理論表明人類是可以控制自己的學習的。與從自己的經驗中學習相比,社會認知理論中所強調的向他人學習還有一個好處,即通過減少犯錯來更快地學習。

社會文化理論強調社會和文化在學習中的重要性。學習一種像語言這樣的社會文化工具不僅有助於交流,而且有助於人類的思維發展。與社會認知理論不同的是,人類不僅相互學習,而且共同努力實現個人無法實現的目標。例如,社會文化理論研究的重點是兒童與父母的互動。兒童個人能力的發展通常與他 / 她和父母的互動有關。此外,父母可以擴大孩子解決問題的能力,刺激認知能力的增長。

1.2 人工智慧學習

然後,我們來看看人工智慧究竟是如何進行學習的?

目前,關於人工智慧的學習已經覆蓋到了知識獲取、理解、感知、創造甚至是做出道德評判等多個層面。例如,可以利用人臉識別技術抓捕犯人,利用圖像識別技術識別不戴口罩、不按規程操作的明廚亮灶監控報警等等。以機器學習的人工智慧技術為例,它描述的是在計算機系統幫助下解決各種實際任務的技術,這些計算機系統 / 程序可以通過學習來解決一個任務,而不是通過顯式編程的方式來完成任務。機器學習的方法也包括有監督的方法、無監督的方法和增強學習方法等等。

無監督機器學習主要是指能夠揭示先前未知數據模式的方法和算法。由於不存在假設的真值(Ground truth),無監督學習不一定能夠找到 「正確的」 解決方案,比如 k-means 能因為根據不同的初始條件獲得不同答案。屬於半監督學習的強化學習基於單純的獎勵和懲罰訊號使得模型通過不斷學習新的樣本實例來改進算法或模型的效果。對於有監督學習,「學習」意味著使用一系列樣本實例和對應的「答案」(「過去的經驗」)來建立關於給定任務的知識。雖然在學習過程中經常會引入統計方法,但並不需要手動調整模型或進行編程來解決任務。更詳細地說,有監督學習旨在通過對一組已知的數據應用一個算法來構建一個模型,從而能夠解決未知數據集中的任務。一般來講,有監督學習依賴於大規模的先驗數據。

1.3 人類 vs 人工智慧學習

關於對比人類和 AI 學習的能力,Hernandez-Orallo 首次提出了關於自然和人工智慧的比較[1]。此外,專門的神經科學(Neuroscience)這一領域的研究也涉及了一些關於 human vs AI 的討論。它的目的是從理論上去理解人類學習和機器的相互促進作用。一些研究人員分別從創造力測試(Creativity Tests)、人臉識別(Face Recognition)、音樂預測(Music Prediction)、計算機視覺(Computer Vision)、IQ 測試(IQ Tests)和認知研究(Cognitive Research)等不同應用場景對人類和機器的相互促進能力進行了理論和實證分析。

不過,目前直接對比人類和機器的學習能力和完成任務能力的系統性、深入性的理論和實證研究還較少。在這篇文章中,我們列舉了一些有趣的 human vs AI 的競賽。競賽任務類型涵蓋了邏輯分類、圖像處理、文本生成、IQ 測試等。從競賽的結果看,人類的學習能力還是明顯佔上風的。也許正如一些研究人員提出的,目前的機器是非常 Diligent(勤奮刻苦的),但距離真正的像人類一樣的 Intelligent(聰明智能的)還有很長很長的路要走。

2 人類與 AI 的競賽

在這一節中,我們選擇了幾個人類與 AI 的競賽結果進行分析。這裡,用於競賽的人工智慧方法既包括以深度學習為代表的機器學習算法 / 模型,也包括一些經典的算法和模型。

2.1 圖像修復(Image Inpainting)能力對比

這個競賽關注的是圖像處理中的一個應用領域:圖像修復(Image Inpainting)。

實驗地址:https://github.com/xitu/gold-miner/blob/master/TODO1/image-inpainting-humans-vs-ai.md

Image Inpainting 的主要任務是填充圖像中的信息缺失區域,補足這些信息,使修補後的圖像看起來真實、自然。這項技術也可以用於去除掉圖像中的某些區域,使處理後的圖像不失真,因此在老照片修復、遙感圖像處理等領域中非常重要。下圖是最經典的圖像修復實驗結果。

圖 1. 圖像修復示例,移除目標物[2]

圖像修復並不是 AI 時代新興的技術,而是一門古老的藝術,最初是由人類藝術家手工完成的。但是今天,研究人員提出了許多自動修複方法。作為自動處理算法,除了待修復的圖像外還必須輸入一個顯示待修復區域的掩碼作為輸入。在這個實驗中,作者將九種自動修複方法與專業藝術家的結果進行比較。

作者從私人收藏的照片中剪切出 33 個 512×512 像素的圖像以構建實驗所用的圖像數據集。然後用黑色在每個照片中心畫一個 180×180 像素的方塊。人類藝術家和自動修複方法的任務都是通過改變黑方塊(掩碼區域)中的像素來恢復失真圖像。作者使用的是私人的、未公開的照片集,以確保在實驗中人類藝術家並沒有提前看到過原始圖像。儘管在實際應用中,掩模的形狀不一定是規則的,但在實驗中還是使用了正方形的掩模,因為實驗中有些 DNN 方法僅能使用正方形掩模進行處理。作者使用的照片示例如下:

圖 2. 樣本照片示例

實驗中使用了九種自動修複方法作為機器學習的方法示例,其中,前六種方法為以神經網絡為基礎的機器學習方法,後三種是深度學習爆發之前的計算機自動處理方法。具體包括:

(1)深度圖像先驗 Deep Image Prior,https://arxiv.org/abs/1711.10925

(2)全局和局部一致性圖像修復 Globally and Locally Consistent Image Completion,http://iizuka.cs.tsukuba.ac.jp/projects/completion/en/

(3)高解析度圖像修復 High-Resolution Image Inpainting,https://arxiv.org/abs/1611.09969

(4)移位網 Shift-Net,https://arxiv.org/abs/1801.09392

(5)語境注意力的生成圖像修復 Generative Image Inpainting With Contextual Attention,https://arxiv.org/abs/1801.07892

(6)基於部分卷積的不規則孔洞圖像修復 Image Inpainting for Irregular Holes Using Partial Convolutions,https://arxiv.org/abs/1804.07723

(7)基於範例填充的圖像修復 Exemplar-Based Image Inpainting(本競賽中考慮了兩種不同大小修復塊(Examplar Patch)的情況),http://www.irisa.fr/vista/Papers/2004_ip_criminisi.pdf

(8)用於圖像修復的面片偏移量統計 Statistics of Patch Offsets for Image Completion,http://kaiminghe.com/eccv12/index.html

(9)Adobe 自帶的內容感知填充 Content-Aware Fill in Adobe Photoshop CS5

為完成人工處理,作者找到三位藝術家從每一組照片中隨機挑選照片來修復。為了鼓勵他們做出最好的結果,作者還告訴每位藝術家,如果他或她的作品超過競爭對手,將會酬金中增加 50% 的獎金。雖然實驗中並沒有規定嚴格的時間限制,但藝術家們都在大約 90 分鐘內完成了任務。

作者將三位專業藝術家的修復結果和自動修複方法的修復結果與原始的、未失真的圖像(ground truth)進行了比較。比較使用的是 Subjectify.us (http://subjectify.us/)平臺(一個眾包主觀質量評價平臺,Crowd-sourced subjective quality evaluation platform)。這個平臺以成對的方式向參與者展示研究結果,讓他們從每一對中選擇視覺質量最好的圖像。為了確保參與者做出深思熟慮的選擇,平臺還通過讓參與者比較真實圖像和基於樣本的圖像修復結果來進行驗證。共收集了來自平臺的 69215 名參與者的判斷結果。

以下是本次比較的總體和每幅圖像的主觀質量分數:

圖 3. 藝術家和自動方法的圖像修復結果主觀評價對比

從這個競賽的結果可以看出,藝術家們的表現在大多數照片中大大超過了自動方法。只在一種情況下有一種算法擊敗了藝術家:用非神經網絡方法(8、Statistics of Patch Offsets for Image Completion)修復的 「Urban Flowers」 圖像比藝術家 1(Artist#1)繪製的圖像排名更高。此外,藝術家修復的圖像與原始未失真圖像的效果不相上下,甚至看起來更好:藝術家 2(Artist#2)和藝術家 3(Artist#3)修復的 「Splashing Sea」 圖像的質量分數高於 Ground truth,藝術家 3(Artist#3)修復的 「Urban Flowers」 圖像的得分僅略低於 Ground truth。所以,在圖像修復的任務中,人類還是遠勝於機器的。不過值得注意的是,在這個實驗中,參與者是藝術家,也就是說,是具備一定繪畫和藝術能力的人。對於普通人來說,他的修復能力就一定能比機器好麼?

在自動修複方法中,效果最好的是生成方法(5、Generative Image Inpainting With Contextual Attention),但也並不是一種壓倒性的勝利。從上面的對比結果也可以看出,這種方法在幾種照片中都沒獲得最佳分數。「Urban Flowers」和 「Splashing Sea」 的第一名分別是(8、Statistics of Patch Offsets for Image Completion)和(7、Exemplar-Based Image Inpainting),「Forest Trail」的第一名是(6、Image Inpainting for Irregular Holes Using Partial Convolutions)。值得注意的是,根據總體排行榜,深度學習方法的表現是優於非神經網絡方法的。

我們可以從這個競賽中得到下述推斷:

對於圖像修復 Image Inpainting 來說,由藝術家進行修復還是最好的選擇(圖中標註為紅色的條塊),機器的修復結果往往差強人意(圖中標註為藍色、綠色的條塊)。

對於一些特定的圖片,機器學習的方法也可以取得不錯的效果。但是 「特定」 的特徵和範圍是什麼?在這個競賽中還缺乏系統性、深入性的分析。所以這種 「特定」 對於實際應用還是缺乏指導作用的。

在這個競賽中,總體上機器學習的所謂 AI 方法要優於經典的圖像處理方法(圖中標註為藍色的條塊)。不過對於一些圖片庫來說,經典方法仍然是有優勢的,AI 方法並沒有壓倒性的優勢。

機器學習方法對於輸入的掩模形狀是有嚴格要求的,這與它訓練 - 測試 - 應用的工作機制是分不開的。但是人類藝術家或經典方法就沒有這種問題,可以處理任意形狀的掩模,因此可以應用在多種實際場景中。

作者認為:這一領域的未來研究隨著可學習數據量增多、GPU 計算能力提高和內存的增長將使得深度學習算法可能會超越傳統的競爭對手,並給出與人類藝術家可以媲美的圖像修復結果。然而,作者還是強調,鑑於目前的技術水平,對於 Image Inpainting 來說,選擇一種經典的圖像或視頻處理方法可能比僅僅因為它是新鮮事物而盲目地選擇一種機器學習方法要好。

2.2 文本生成能力對比(A/B testing OpenAI's GPT-3)

這是一場人類生成文案(Copyright)和由 OpenAI 的 GPT-3 API支持的 VWO 生成的文案之間的競賽。

競賽地址:https://vwo.com/ab-testing-openai-gpt-3/

在這場競賽中,將測試人工智慧生成的標題、按鈕或產品描述文案,與現有(或新的)參與網站的人類生成的書面文案進行對比。測試可以在 VWO 或參與者自己使用的任何 A/B 測試平臺上進行。在這個競賽中機器使用的方法就是 GPT-3,而對人類並沒有特定限制,可以是任何參與者。

VWO 已經將 OpenAI 的 GPT-3 集成到它的可視化編輯器中,這使得任何人都可以很容易地使用它生成任何語言的文案。這項功能提供給了競賽網站,為比賽提供了 A/B 測試。所以,小夥伴們都可以到網站上來試試。

目前已經給出的競賽結果如下圖。在 18 份有效參與競賽中,有 1 項明確人類生成的文案勝過 AI 生成的文案,有 3 項則是判定 AI 獲勝,還有 3 項判定是雙方平手,其餘 11 份則暫無打分(含一項還未最終完成)。

圖 4. 文本生成競賽結果

人類生成文案獲勝的案例是 Booking.com 網站的競賽作品(紅色框,生成 button 的文案)。具體的人類生成的文案見圖 5,AI 生成的文案如圖 6。人類生成的文案 Human Copy 1 贏得了這次比賽。展示出的是模糊的屏幕截圖以掩蓋酒店的身份。

圖5

圖 6. Booking 網站人類生成的文案

圖 7. Booking 網站 AI 生成的文案

AI 獲勝的文案有三項,我們選擇了 Schneiders 的一項實驗進行展示(紅色框,生成標題的文案)。人類生成的文案如圖 8,AI 生成的文案如圖 9。我們直觀的感受是,AI 生成的標題將 Shop Now 放在最前面,給人的目標性感受更強,更有效。

圖 8. Schneiders 人類生成的文案

圖 9. Schneiders AI 生成的文案

從這個競賽的結果可以看出,在文本生成這個領域,藉助於強大的 GPT-3,AI 在實驗環境中更勝一籌。當然,競賽組織者並沒對 AI 獲勝做任何系統性、深入性的分析,僅僅是將參賽者的結果進行了展示和統計。我們認為,AI 獲勝一方面是因為文本生成的先驗資料庫、預訓練模型規模是非常大的。另一方面 GPT-3 等文本生成的算法 / 模型也是相對成熟的,屬於 AI/ML 較早在實際場景中應用的方法。最後,參與實驗的人類並沒有特定的要求,例如對文字撰寫、新聞宣傳、行業背景有特殊的限定,所以人類生成的文案水平並不是很高。如果對參與者的行業身份、知識背景有所限定,會不會能夠提升人類生成文案的水平呢?不過,不管怎樣,文本生成領域的 AI 還是展現出了非常高的應用水平和價值。

3 Humans 與 SML(Supervised Machine Learning)

這項工作關於一個學習曲線描述任務,擬解決的是在小樣本量的前提下完成二進位分類任務時人類和有監督機器學習模型的學習曲線有哪些不同。具體的工作分析和結果在文獻 [3] 中,並以預印的形式發布在 arxiv 中(https://arxiv.org/abs/2012.03661)。

學習曲線(Learning Curve)描述的是基於經驗的任務表現。在該例子中,經驗是由訓練數據(Training Data)的數量來衡量的,更準確地說,是由訓練實例(Training Instances)的數量來衡量的。任務表現受兩個主要因素影響:執行任務的實體(人或機器)的特徵和任務本身的特徵。對於該競賽中的監督式機器學習任務(Supervised Machine Learning,SML)來說,有四個任務特徵很重要:輸入、輸出、實例和特徵。

輸入。輸入描述了任務所依據的數據。它可以按數據類型(例如,數字或二進位)和數據表示方式(例如,表格、圖片或音頻)來區分。

輸出。一個任務的需求產出也是不同的。在這種情況下,有兩種類型的輸出是相關的:分類和回歸。分類確定每個實例是否屬於預定的類別之一,而回歸的結果是一個連續的數字。

實例。可供學習的實例數量。

特徵。一個任務的實例由一定數量的不同特徵來描述。

作者選擇了一個以二進位作為輸入、二進位分類作為輸出,包含一小組訓練實例和有限數量特徵的任務。具體任務特徵和實現方式見表 1。

表 1. 相關任務特徵概述及其在本工作中的執行情況[3]

作者使用智能測試領域的兩個測試任務作為具體實驗基礎,即最小智能信號測試(Minimum intelligent signal tests,MISTs)和 Raven 的漸進矩陣(Raven's progressive matrices, RPMs)。MISTs 是用來量化人類人格(Humanness)的二進位問題。與其他智力測試相比,這些問題不需要複雜的答案,只需要簡單的" 是 "或" 否 ",這就滿足了對二進位輸出的限制。然而,輸入的是自然語音,而不是一組幾個、二進位特徵。

RPM 是一個關於由規則設計的視覺幾何對象的測試。任務是通過從六個或八個選項中選擇一個對象來完成一組視覺幾何對象,其中,只有一個可選擇的對象符合規則。如圖 10 的示例,RPMs 有一個圖形化的表示方法,可以將其簡化為一組帶有一些二進位特徵的實例,從而得到標準化的實例。但是,這項測試不具備二進位輸出。通過結合這兩個測試,我們得出以下任務:

為了獲得相同數量的特徵,只使用 3x3 矩陣,有 9 個元素(=9 個特徵),每個特徵都是二進位的。據此,有一組 2^9 =512 個二元矩陣。這些矩陣可以顯示為黑白元素的圖片(對人類而言),也可以顯示為特徵為 1 和 0 的數字列表(對機器而言)。圖 10 給出了同一個實例分別對人類和機器進行表示的例子。

圖 10. 具有 x1 至 x9 特徵的實例的人和機器示意圖

根據關於特徵值的規則,我們可以對矩陣進行分類。一些實例 (矩陣) 符合規則,因此它們被標記為真,而所有其他不符合規則的實例則標記為假。作者將四種基本模式作為分類任務的四條規則。

對角線(Diagonal)。符合對角線規則的矩陣至少有一條對角線,標為黑色,或者從左上角塊開始一直到右下角塊結束,或者從左下角塊開始,到右上角塊結束。

水平的(Horizontal)。符合水平規則的矩陣至少有一排水平的黑色元素。

數字規則(Numbers)。如果總共有五個元素被標為黑色,則滿足數字規則。

對稱性(Symmetry)。對稱性描述的是軸對稱性,可以是對矩陣中間列的軸對稱性,也可以是對矩陣中間行的軸對稱性。

設計一個多回合遊戲以生成 一個符合特定規則的學習曲線。在遊戲過程中規則不會改變。在遊戲開始時,玩家收到訪問 5 個標記的實例(訓練數據)。確保每個實例被標記為正值的概率為 50%(相應地也有 50% 被標記為負值),以根據所選規則來考慮數據集中正值和負值標記實例的不平衡的問題。此外,玩家還收到 5 個未標記的實例(測試數據),這些實例必須根據從標記的訓練實例中得出的知識進行標記。如前所述,每個實例被標記為正的概率仍為 50%。然後,我們用準確度量來衡量測試數據的性能,準確度量表示為正確標註實例的數量除以標註實例的總數量。

由於在我們的工作中,標籤只是一個二進位決策,準確度指標為 "1" 則表示標籤 100% 正確,而準確度指標為 "0.5" 則相當於隨機猜測,標籤是隨機分配的。五個實例的標籤準確率代表了第 r 輪的表現。在第二輪中,先前標記的實例消失,生成五個新的、未標記的實例(新測試實例),總共有 10 個標註的實例可用於訓練。訓練中對 5 個新的未標記的實例進行標記,具體圖 11 進行了詳細描述。在每個遊戲中,標記和未標記實例的順序是隨機的。然而,一個矩陣(實例)只會是訓練數據或測試數據的一部分,而不會同時是兩者。學習曲線是根據每一輪的表現生成的。

圖 11. 人類 X=10 輪、機器 X=20 輪的實驗過程

人類的實驗是通過研究不同環節的參與者進行的,這些人是在沒有任何事先知識的情況下單獨參加實驗的,因此參與者並不是根據特定知識背景、行業能力等進行篩選的。不過,事先他們會得到一份關於實驗總體目標、用戶界面布局和一些抽象例子的標準化介紹。每位參賽者參與四場遊戲,有可能玩遍四種規則。每場總輪數為 10 輪,也就是說,參賽者總共會看到 50 個標籤實例,在一局遊戲中,有可能需要他 / 她給 50 個實例貼標籤。在完成一個遊戲後,參與者不會收到任何關於他 / 她表現的反饋,這就保證了每輪遊戲的獨立性。圖 12 是用人類進行規則對稱性實驗的 GUI 實例。

圖 12. 規則對稱性(Symmetry)的第 2 輪人類的實驗截圖。上方顯示 10 個訓練實例,下方則是未標記(測試)的實例

作者選擇了三種機器學習算法驗證 AI 的性能:邏輯回歸、決策樹和神經網絡算法(MLP)。為了增加可比性,在每一個遊戲中應用每一個算法時模型的數量與玩遊戲的人類數量相同。該算法只對一個遊戲進行實例化,並且在每一局遊戲結束後都會被終止,這樣就不會使用之前遊戲的知識。具體針對四種規則的四種任務完成結果見圖 13 - 圖 16。

關於規則「對角線」(圖 13),決策樹的表現優於所有其他機器學習模型和人類參與者。不過,在前 50 個訓練樣本中,決策樹的性能與人類相比並沒有明顯改善。從第 55 個訓練樣本開始,決策樹在 50 個實例中的表現明顯優於人類。相比之下,MLP 和邏輯回歸與人類相比則表現是差不多的。因此,總的來說,機器學習的方法 / 模型在 50 個訓練實例中的表現並沒有明顯優於人類,但稍好於人類。

關於規則「水平」(圖 14),人類在前 50 個訓練樣本中的表現明顯優於機器學習模型。隨著提供給機器學習模型學習的訓練樣本越來越多,從第 55 個訓練樣本開始,50 個實例的人類和 55 個實例的機器的性能已經沒有顯著差異。在圖 14 的競賽結果中,人類和機器學習的性能相差不大,只是最後邏輯回歸的性能會有所下降。

關於規則「數字規則」(圖 15),人類的表現是最好的。從 15 個訓練樣本開始,人類的性能始終在 90% 以上,而三種機器學習模型的準確率沒有任何改進。在整個 100 個訓練樣本中,機器學習模型準確率一直保持在 "0.5" 左右。因此,在所有輪次的實驗中,人類和機器學習模型之間的性能差異是顯著的,這從圖 15 中也可以很直觀的看出來。

關於規則「對稱性」(圖 16),與數字規則的表現類似,人類的表現優於機器學習模型。在有五個訓練樣本的情況下,人類的性能明顯更好。之後,隨著訓練樣本的增多,人類的性能比機器的性能提高的更多,並且差異變得非常顯著。然而,人類性能在 20 個訓練樣本後達到了其準確率的最大值,低於 0.9,並保持在這一水平上。而 MLP 和決策樹的準確率在每一輪都略有提高。

圖 13. 規則 Diagonal 的人類和機器學習性能比較

圖 14. 規則 Horizontal 的人類和機器學習性能比較

圖 15. 規則 Numbers 的人類和機器學習性能比較

圖 16. 規則 symmetry 的人類和機器學習性能比較

由該競賽的結果可以看出,除了對角線規則(Diagonal)中機器學習的性能略強於人類的性能,在其它分類任務中,人類的性能都優於機器學習模型。尤其是人類在看了幾個學習樣本之後就學到知識,在大部分測試下學習速率都很快。在這個競賽中,選擇的是有監督機器學習方法,因此,隨著訓練樣本的增多,機器學習方法的性能會不斷提升。而在訓練樣本數量很少時,機器學習方法的性能是非常差的。另一方面,機器的性能也受到任務複雜度的影響。在對角線這種規則簡單的任務中,機器學習能獲得不錯的性能,但對於複雜的分類任務,機器學習模型的性能還是比人類差得多。對於人類來說,這四種規則都是很簡單的,因此,並不需要有很好的行業或知識背景的特定人類來完成任務。

4 IQ Test 能力對比 [4]

這項工作關於一個 IQ 測試任務,用以比較人類和 Q-learning(一種流行的強化學習算法)的能力。詳細的工作分析和結果介紹見文獻[4],已經發表在 AGI 2012 中。與上一節的競賽內容類似,這個 IQ Test 的競賽解決的也不是實際應用問題,而是完成一個人工生成的邏輯任務。

在一般智力測試中,選擇一個合適的環境類(Environment Class)是一個至關重要的問題。例如,可以引入一個無偏的環境類(記為 Λ),其空間和 Agent 具有普遍的描述能力(圖靈完備)。這種環境將空間視為一個具有不同(且可變)拓撲結構的行動圖。可以使用圖靈完備語言引入對象和 Agent 以生成它們的動作。獎勵是區間 [-1,1] 中的有理數,由兩個特殊的 Agent :Good 和 Evil 產生,它們會在它們訪問的單元格中留下獎勵。除了獎勵的符號外,Good 和 Evil 的行為模式相同(Good 為 +,Evil 為 -)。

空間的生成首先要確定單元格的數目 n_c,由 2 至 9 之間的數字給出,使用幾何分布和一元編碼(即 prob(n)=2^(-n),並歸一化為 1)。同樣,行動數 n_a 的定義是在 2 和 n_c 之間均勻分布。單元和動作都用自然數進行索引。有一個特殊的動作 0,它將每個單元與自己連接起來(它總是可以停留在單元)。通過一個動作可以從另一個單元格進入的單元格稱為近鄰或相鄰單元格。單元格之間的連接是通過對每一對單元格和動作使用統一的分布來建立的,它為每一對單元格指定了目的單元格。

圖 17 給出了一個隨機生成空間的例子。圖 17 中空間的序列實例為 201210200,即執行動作 a_2、a_0、a_1、a_2 等。例如,考慮 Good 被放置在 c_5 單元中。由於圖案以 "2" 開始,Good 將 (通過 a_2) 移動到 c_1 單元。兩個 agent Good 和 Evil 從序列中取出一個動作,並在每一步中執行它。當動作用完後,該序列將重新開始。如果某一行動在某一單元不被允許,則 Agent 不移動。

圖 17. 一個有 5 個單元格和 3 個動作(a_0, a_1, a_2)的空間,反射動作 a_0 未顯示

最初,每個 Agent 被隨機(使用統一分布)放置在一個單元中。然後,我們讓 Good、Evil 和被評估的 Agent 在一定的步數 m 內進行交互,稱之為一個練習 exercise(或情節 episode)。對於一次練習,我們將獲得的獎勵進行平均,所以給出環境中 Agent 的得分。測試過程是由一連串的練習或情節組成的。我們將使用 7 個環境,每個環境都有 3 到 9 個單元格(n_c)。Good-Evil 模式的大小將與單元格的數量成正比,使用 p_stop= 1/n_c。在每個環境中,我們將允許 10x(n_c-1)個步驟,這樣 Agent 就有機會發現環境中的任何模式,也有可能利用一些進一步的步驟來利用這些發現。表 2 給出了測試任務的控制指標。

表 2. 組成測試的 7 個環境的設置

在該競賽中,作者選擇 Q-Learning 作為 AI 方法,Q-Learning 是一種經典的增強學習方法。而參與競賽的人類這是從某大學系部抽取的 20 名年齡在 20-50 歲之間的人類(博士生、研究人員和教學人員)。為了使人類完成任務,在設計人類交互界面時考慮到了以下原則:i)用於表示觀察結果的標誌對受試者來說不應該有隱含的意義,ii)行動和獎勵應該容易向受試者解釋,以避免額外的認知開銷。人類交互界面的示例見圖 18,具體的代碼可下載 http://users.dsic.upv.es/proy/anynt/human1/test.htm。

圖 18. 人類的交互界面快照。

Agent 剛剛獲得了一個積極的獎勵,用圓圈與向上的箭頭顯示。圖中還顯示 Agent 位於第 3 單元格,Evil 和 Good 分別放在第 2 和第 3 單元格。Agent 可以移動到單元格 1 和單元格 3。單元格 3 被高亮顯示,因為滑鼠指針在它上面

作者分別對人類和 Q-Learning 完成了 20 個測試(每個測試有 7 個練習),其設置如表 2 所示。關於 Q-learning 結果的平均值如圖 19 所示。Q-learning 的總體均值為 0.259,而人類的均值為 0.237,標準差分別為 0.122 和 0.150。

圖 19. Q-learning(左)和人類(右)的(20 x7=)140 個練習的直方圖,線條顯示的是概率密度

為了更詳細地看到練習的結果,圖 20(左)顯示了按練習匯總的結果(每個數字都有一個練習),具體包括每個練習的 Q-learning 和人類完成任務情況的平均值、中位數和散度。觀察每個空間大小的曲線圖,我們還可以看到,Q-learning 和人類在 7 次練習中的表現並沒有顯著的不同。圖 20(右)為 20x7x2=280 個練習的平均獎勵結果。人類比 Q-learning 有更高的離散性。這可能是由於 20 個人類是不同的,他們的能力各有不同,而 Q-learning 在 20 個測試中的每一個算法都是完全相同的,他們的能力是相同的。

圖 20. 左圖:不同 Agent 的七次練習的箱形圖。

中位數在方框中顯示為一個黑色的短段。均值由 Q-learning 的連續線和人類的虛線進行連接。右圖:20x7x2=280 個練習的平均獎勵結果,使用 Kapprox 作為複雜性的衡量標準

由該競賽的結果可以看出,人類和 AI 在完成 IQ-test 的時性能幾乎沒有差別。在這項任務中選擇的人類都是高校的教職員工,都有較強的知識背景和邏輯分析能力,使用的 Q-learning 就是標準的模型和參數。作者也表示,這樣簡單的實驗條件和設置並不能真正反映出人類和 AI 誰的能力更強,競賽的結果並不能說明人類獲勝,或者 AI 最終獲得了勝利。

小結

在這篇文章中,我們討論了一個非常有趣的問題,即 Human vs AI,在不同的任務中人類的學習能力和機器的學習能力究竟哪個更勝一籌?在每天面對大量的算法、模型、調參、應用的論文,不斷關注新突破的各類算法大賽、數據挖掘大賽、圖像識別、機器學習預測、風險用戶識別競賽等等的同時,考慮這樣一個問題,無疑是發人深思的。

我們列舉了四個競賽,其中兩個是針對常見的程序類應用的,包括圖像修復 Image Inpaiting 和文本生成,另外兩個則是簡單的人工生成的邏輯推理問題。從我們給出的實驗結果可以看出:

對較為複雜的任務,例如圖像修復、複雜邏輯規則推理等,機器的學習能力還遠不能與人類相比。

對於一些簡單的邏輯問題,例如簡單的 IQ Test,利用強化學習的機器模型已經能獲得與人類媲美的能力。

在文本生成領域中,依賴於長期的研究積累,擁有大量的標註數據、預訓練模型等,並在多個領域中有成功的應用模型,利用超多參數的 GPT3,目前,已經能夠在一些場景中獲得與人類相匹敵、甚至勝出的文本生成能力。但是,在一些對語言能力要求較高的場景中,例如我們在文中給出的 Booking.com 網站的場景中,AI 生成的 Button 文字仍不如人類生成的精準。人類對於語言的掌控和使用能力,特別是反應特殊意圖的啟發式、暗語式表達能力,目前,並不是機器能夠 「學習」 到的。

對於有監督的機器學習方法,數據數量直接影響了機器 「學習」 的效果。如文中給出的四條規則的分類任務,機器學習模型的性能一般都在 50 個訓練樣本後實現提升。

當然,正如我們開頭所提到的,目前這些競賽、比對實驗都是單一的、小範圍的,缺乏系統性、深入性的研究和分析,任何一個結果都不能推導得出 「人類一定勝過機器」 或「機器勝過人類」的結論。而下一步我們如果可以通過嘗試構建更通用的、更普遍的人機對抗 (Human vs AI) 測試競賽,為人與機器能力的評估提供了有價值的信息來源,或許可以引導 AI、ML 向更有利、更有益的方向發展。

本文參考引用的文獻:

[1] Hernandez-Orallo, J., 2017b. The measure of all minds: evaluating natural and artificial intelligence. Cambridge University Press.

[2] Bertalmio, M, Sapiro, G., Caselles, V., Ballester, C. Image Inpainting. SIGGRAPH 2000, pages 417-424.

[3] Niklas Kühl,Marc Goutier,Lucas Baier,Clemens Wolff,Dominik Martin, Human vs. supervised machine learning: Who learns patterns faster? https://arxiv.org/abs/2012.03661.

[4] Insa-Cabrera, J., Dowe, D.L., Espana-Cubillo, S., Hernandez-Lloreda, M.V., Hernandez-Orallo, J., 2011. Comparing humans and ai agents, in: International Conference on Artificial General Intelligence, Springer. pp. 122-132.

關於機器之心全球分析師網絡 Synced Global Analyst Network

機器之心全球分析師網絡是由機器之心發起的全球性人工智慧專業知識共享網絡。在過去的四年裡,已有數百名來自全球各地的 AI 領域專業學生學者、工程專家、業務專家,利用自己的學業工作之餘的閒暇時間,通過線上分享、專欄解讀、知識庫構建、報告發布、評測及項目諮詢等形式與全球 AI 社區共享自己的研究思路、工程經驗及行業洞察等專業知識,並從中獲得了自身的能力成長、經驗積累及職業發展。

原標題:《Human vs AI,人類和機器的學習究竟誰更勝一籌?》

閱讀原文

相關焦點

  • 智能AI狗狗與家養汪星人的終極大PK,究竟誰更勝一籌?
    今天我們就來聊聊【智能AI狗狗與汪星人究竟誰更好那些事兒】,主要內容包括:智能AI狗狗與寵物狗究竟誰更好?智能的AI汪星人與家養狗狗的利與弊一、智能AI狗狗與寵物狗究竟誰更好?關於這個問題,貼心的果媽專門設計了一系列的考驗,來讓著兩種狗狗進行一個大的PK,來看看究竟誰更勝一籌!那本輪PK總共分為5場,我們一起來看看吧!
  • AI在這張「問卷」上首次超越人類,SuperGLUE被微軟谷歌「攻破」
    DeBERTa(注意力分離的解碼增強BERT)是一種基於Transformer的神經語言模型,使用自監督學習對大量原始文本語料庫進行預訓練。和其他預訓練語言模型(PLM)一樣,DeBERTa旨在學習通用語言表示形式,適應各種下遊NLU任務。DeBERTa使用三種新技術——分離的注意力機制、增強的掩碼解碼器和一種用於微調的虛擬對抗訓練方法。
  • AI戰勝人類教官,AlphaDogfight大賽落幕
    機器之心報導編輯:蛋醬、杜偉AI 戰勝人類的歷史開啟了一個新的篇章。AI 又一次在「空中」戰勝了人類!目前,美國空軍研究實驗室(AFRL)的 ACT 3 正在研發一套獨立的系統,希望在明年實現操縱一架無人機和人類駕駛的飛機進行對戰。這一系統的命名為「R2-D2」,參考的原型正是電影《星球大戰》中的同名機器人,它是一位優秀的太空船技工和電腦接口專家。
  • 當AI 邂逅藝術:機器寫詩綜述
    機器的作品能否叫藝術?機器能否取代藝術家?這些問題,相信不同的人,會有不同的答案。很多人認為機器生成的作品只是簡單的模仿人類,沒有創造性可言,但是人類藝術家,不也是從模仿和學習開始的嗎?本文是為 PaperWeekly 寫的一篇機器詩歌生成的綜述文章,希望能增進大家對這個領域的了解。詩歌是人類文學皇冠上的明珠。我國自《詩經》以後,兩千年來的詩篇燦若繁星。
  • 吳倩和葛洧吟,武大校花vs上戲校花,誰的顏值更勝一籌?
    導語:吳倩和葛洧吟,武大校花vs上戲校花,誰的顏值更勝一籌?如果說黃燦燦的武大校花稱號,是她成名以後才被大家承認的,那麼吳倩的美,就是在她出名以前被大家公認的。跟吳倩氣質有些相像的,是上戲的校花葛洧吟,她是踏踏實實憑著專業和文化成績考進上海戲劇學院表演系的。曾經參加過湖南衛視的《一年級》大學季,從節目裡就能看出來,這是個非常倔強和努力的女生。她長相是古典美和現代美的結合,黑髮,紅唇,皮膚白得發光,本身又是上海人,穿上旗袍就像是從民國走出來的一位上海女郎。十分的好看。
  • 麥克尤恩科幻新作《我這樣的機器》:AI能否像人類一樣獲得愛?
    機器的學習能力可能幾百萬倍地超過人,如果讓其隨意學習,很可能會發展出終結者那樣的機器,危及人類的生存。因此,人類必須給機器加載價值觀。 小白介紹了麥克尤恩這部小說的多種加載方式,比如通過圖靈與機器人聊天完成加載,以及亞當出場設定輸入的兩種價值體系,這最終都是為了形成人和機器的一致推斷意願(coherent extrapolated volition)。
  • 麥克阿瑟天才獎得主解碼計算機視覺「原罪」:AI 如何認識人類世界
    該圖在數字視頻處理學習與研究中頗為知名,常被用作數字視頻處理各種實驗(例如數據壓縮和降噪)及科學出版物的例圖。來源:維基百科《IEEE圖像處理彙刊》(IEEE Transactions on Image Processing)的主編戴維·蒙森(David C.
  • 《雲南蟲谷》VS《重啟》誰更勝一籌,《雲南蟲谷》什麼時候上映
    《鬼吹燈》和《盜墓筆記》無疑是當下最火的懸疑盜墓小說,擁有大量的書迷和影迷。尤其最近幾年都在翻拍成電視劇,也受到了廣大觀眾的追趕和好評。2020年盜墓筆記《重啟之極海聽雷》電視劇熱播上映,《重啟》第一季已經播完,第二季正在熱播。
  • 《雲南蟲谷》VS《重啟》誰更勝一籌,《雲南蟲谷》什麼時候上映
    《鬼吹燈》和《盜墓筆記》無疑是當下最火的懸疑盜墓小說,擁有大量的書迷和影迷。尤其最近幾年都在翻拍成電視劇,也受到了廣大觀眾的追趕和好評。如果拿《重啟》第一季、第二季和《龍嶺迷窟》《雲南蟲谷》做個對比,哪個更勝一籌呢?
  • 純AI的冰冷回復與「人為介入」的愉悅感,讓兩家聊天機器人創業公司的競爭變得耐人尋味|特寫
    直到過去幾年,人工智慧仍然無法足夠準確地處理人類的語言來滿足這一需求,所以公司採用了新的混合方法,即機器和人類的混合,算法處理日程和會議地點,人類助手則負責回復客戶。不過,助理的薪水意味著這些服務的月花銷可能達到數百美金。
  • 誰在害怕人工智慧:AI帶給人類的三大挑戰
    作為世界頂級的圍棋選手,他卻被機器人擊敗了,並且在賽後說『我回去讓機器復盤檢查錯在哪裡』。過去他只需自己復盤,而現在,機器會立即指出他的錯誤。這說明,機器與人力已不處於同一段位了,在機器面前,人類如同孩童一般。機器教給人類最初級的下法,而其本身的下法人類已不可理解。」 「其他行業也面臨同樣的問題。如果機器學會作詩作曲,做出我們普遍喜歡的產品,那人類的生活就將完全改變。
  • 《SF8:Blink》人類刑警VS 人工智慧AI誰才是強者?
    《SF8》由一系列短篇故事探討人類與未來的科技發展,科技日益發達後對我們的生活將帶來什麼樣的轉變與衝擊第二篇《Blink》由李是英擔任主要演出,搭配上AI人工智慧刑警河俊攜手辦案,到底人類與AI的判斷誰才是強者?
  • 雛菊VS絲綢,陳冠希和權志龍與Nike AF1的聯名究竟誰更勝一籌?
    若僅從球鞋聯名的角度來看,權志龍與陳冠希到底誰在AF1聯名中更勝一籌呢?權志龍VS陳冠希在潮流圈影響力首先這兩人都是年初NIKE「搶錢天團」中的一員,在潮流圈的影響力都不差。不管在你眼中,到底是陳冠希牛還是權志龍更勝一籌,都無所謂,因為有競爭才會有更好的作品。用心的設計穿著者都會感受到,到底是有誠意還是恰爛錢都騙不過消費者眼睛。
  • 懸疑科幻《升級》:人類和人工智慧相愛相殺,究竟誰將更勝一籌?
    妻子的意外被殺,讓格雷脫離了原本中規中矩的人生,走上了調查罪犯和復仇的道路。格雷和那群歹徒進了廁所,本來這夥人一看來了個癱瘓,給咱酒後助助興,於是準備到廁所欺負欺負格雷找點小樂子。可是沒想到格雷在智腦的控制之下瞬間從輪椅上彈起,成了一個身手不凡的高手。一群人傻眼了,三兩下被打趴了。
  • 漫威:同樣都是意念移物,萬磁王VS烏木喉,誰更勝一籌?
    在漫威宇宙中有一些角色的能力是幾乎相同的,比如浩克家族,綠巨人和紅巨人的能力都是依靠肉身的力量,除了提升能力的方式不同外,攻擊手段幾乎一模一樣。 另外在漫威宇宙中,還有一部分角色雖然沒有什麼接觸,但他們的超能力卻極為相似,比如萬磁王和烏木喉,這兩個人物都會意念移物的本領
  • AI與人類都不能錯過的藝術展——機器不孤單
    展覽「機器不孤單」延續著新時線媒體藝術中心(CAC)一直以來對技術問題的探索,並把機器的定義拓展為系統、關係、網絡——自然世界和人類社會都能在其中找到自己的運行方式
  • 新書《Human Compatible》書評:AI與我們的未來
    製造超越我們智慧的機器將是人類歷史上最大的一個事件。但他警告說,這也可能是人類的最後一次事件。在書中,他提出了令人信服的案例,證明我們選擇如何去控制AI「可能是人類面臨的最重要的問題」。Russell的時機選擇得很好。現在,全世界成千上萬最最聰明的頭腦都在開發AI。
  • 韓明星大撞衫,誰醜誰尷尬,你覺得誰更勝一籌?
    在演藝界,服裝經常被撞衫,有趣的是經常會在各大社交平臺或SNS上引起誰更美的爭論。雖然都很漂亮,但是還是會引起網民們的關注。由於美是主觀性的問題,可能是顏值高的更勝一籌吧?那麼,一起來看看,在你眼裡誰更好看吧!1.
  • 人類一敗塗地?DeepMind推出Agent57,在所有雅達利遊戲上超越人類
    機器之心報導機器之心編輯部讓單個智能體完成儘可能多的任務是 DeepMind 一直以來的研究目標,也被該公司視為邁向通用人工智慧的必經之路。去年,DeepMind 推出的 MuZero 在 51 款雅達利遊戲中實現了超越人類的表現。
  • 章魚和電鰻的爭鬥,雙方打得難捨難分,究竟誰能更勝一籌呢?
    章魚和電鰻的爭鬥,雙方打得難捨難分,究竟誰能更勝一籌呢?電鰻有著水中高壓電之稱,它能夠瞬間釋放300~800伏的高壓電,在水中很少有動物能夠將它制服,這天它就遇到了章魚,章魚也是不好惹的動物,就連長滿尖刺的河豚都敢去招惹。