普林斯頓計算機教授炮轟「偽AI」:精心炮製的隨機數生成器罷了

2021-01-15 量子位

魚羊 發自 凹非寺量子位 報導 | 公眾號 QbitAI

AI時代,以AI之名行騙的「偽AI」產品屢見不鮮,甚至影響越來越廣泛。

有位名叫阿文德·納拉亞南(Arvind Narayanan)的普林斯頓CS副教授坐不住了。他炮轟道:

某些公司為了賣貨,利用公眾的不了解,不管賣的是什麼通通貼上「AI」的標籤。

更可怕的是,像AlphaGo這樣優秀的AI們吸引來了大量的投資者。光環之下,「偽AI」產品同樣能募集到巨額資金,甚至在資本的推動之下,成為趨勢,影響越來越多的人。

阿文德以AI面試舉例。現在,全球已有百萬求職者經歷過或正在經歷AI面試官的「凝視」。

提供這類產品的公司非只一家,其中最知名的HireVue,聲稱全球有超過700家公司使用他們的產品,其中不乏世界500強企業。目前,這家公司已募集資金9300萬美元(約合6.55億元人民幣)。

阿文德指出:

沒有經過同行評審的證據能夠表明,這些東西真的可以預測工作績效。數百萬求職者面對的不過是精心設計的隨機數生成器。

令人懷疑的,還遠不只是這一種產品。

為了讓大家不被這樣的最新「智商稅」收割,阿文德決心教會大家如何識別這些AI界的騙子們。

他的這份「防騙指南」登場數小時,就已經在推特上收穫了1500贊。

AI騙子長什麼樣

首先,阿文德認為,現在的AI應用可以分成三類:

真正卓有成效的項目不完美但進展明顯的項目根本不靠譜的項目

總結起來,在人臉識別這樣的感知任務,和推薦算法這樣的自動判斷任務上,AI的表現都比較靠譜。

而「偽AI」嫌疑人所做的,是預測和人有關的「未來」。

人們無法預測未來本來應該是常識,但遇上AI,常識總是被拋到腦後。

當然,口說無憑,阿文德引用了普萊斯頓大學脆弱家庭和兒童福祉研究的一項研究結果(地址見文末)。

這項研究旨在探明孩子們的表現到底是不是可以預測的。

流程是這樣:先通過深入訪談和家庭觀察收集大量孩子及其家庭的數據。然後,用這些數據訓練預測模型。輸入的變量有近13000個,輸出結果將預測這些孩子在15歲時6種表現。

如果模型能夠完美預測出結果,R^2=1,如果模型啥也沒學會,R^2=0。

但訓練的結果,卻讓參與研究的研究人員們大跌眼鏡。

即使是表現最好的模型,也並沒有哪一項預測結果是讓人信服的,甚至不如用4個變量線性回歸擬合出來模型靠譜。

這一結果並非個例。在一項再犯罪率的預測研究中(論文連結見文末),AI的預測準確率只比隨機結果好一點點,還是比邏輯回歸的結果低了2個百分點。

並且,不止是預測結果不靠譜,這樣的預測AI,還暗含著更多風險。

首先,訓練這樣的AI需要收集大量個人隱私數據。誰都沒有辦法保證,這些數據會絕對安全。

其次,人們對這類AI的盲目信任,會使得一個領域的話語權,從領域專家和從業人員身上,大規模轉移到掌握AI的科技公司。

更重要的是,AI的黑盒子屬性使得它給出的結果缺乏解釋性。

就像是一開始舉的AI面試的例子,AI面試官給你打了個低分,誰也沒法兒解釋,到底是因為你表現不夠自信,還是你身邊的噪聲影響了它的判斷。

不是每一隻AI都叫AlphaGo。阿文德承認,人工智慧在某些任務上表現得十分出色,但如果有人把AI當成了萬金油,只為了分得AI風口上的一杯羹,那麼,就要擦亮雙眼,該反對反對,該抵制抵制。

一石激起千層浪

天下苦「偽AI」久矣。阿文德的「防騙指南」一經公布,就在社交網絡上引發了熱烈的討論。

有人指責「人工智慧」一次本就帶有營銷色彩,如果要討論技術,就應該換一個詞。

有人提及,連Facebook、Google這樣的科技巨頭都在AI方面造假。

註:谷歌能夠自動打電話、被稱讚通過圖靈測試的AI Duplex,被《紐約時報》曝出4次成功完成的任務中,有3次靠的是人工。

有人認為,真正的AI會改變遊戲規則,讓人無法忽視,也無需大肆宣傳。

還有人對「防騙指南」做出了補充:

我曾經採訪過這樣一家AI初創公司。領英顯示,他們對開發人員不屑一顧,但對「培訓師」卻頗為關注。我很懷疑他們到底是不是真的在造AI。

自AlphaGo一鳴驚人,震驚世界以來,人工智慧逐漸被推上高地,吸引了大量的資金、人才,也吸引了大眾的矚目。風口之中,真正的硬核技術光芒四射,而這樣的光芒之中,也掩映著投機者的身影。

但濫竽充數者終會露出馬腳。你覺得呢?

以及,有什麼AI項目是你覺得「偽AI」的嗎?

傳送門

PPT地址:https://www.cs.princeton.edu/~arvindn/talks/MIT-STS-AI-snakeoil.pdf

Hacker News討論:https://news.ycombinator.com/item?id=21577156

普萊斯頓大學脆弱家庭和兒童福祉研究:https://fragilefamilies.princeton.edu/about

累犯預測:https://advances.sciencemag.org/content/4/1/eaao5580

相關焦點

  • 隨機密碼生成器|給你代碼
    何不讓這份工作交給我們的隨機密碼生成器?你可以根據需要自定義密碼種子和長度,然後一鍵便可生成強壯的密碼。為什麼我需要使用它?因為人類真的很難想出真正隨機的密碼。人們經常使用對自己有意義的單詞或數字:寵物的名字、母親的娘家姓、孩子的生日、歌曲歌詞等等。問題是,你最終得到的密碼很容易猜到。記住:猜測的不是人類。是電腦。
  • 下一代Tor通信將用分布式隨機數生成器加密
    當前,由於TOR(洋蔥網絡)的通信安全性不斷受到挑戰,TOR項目團隊開始為下一代的洋蔥路由網絡尋找新的加密途徑,例如在隨機數字的生成方面。TOR項目團隊開始為下一代的洋蔥路由網絡尋找新的加密途徑  在通信安全領域,由於要生成隨機、不可預測的加密密鑰,因此對於隨機數的應用是必不可少的。
  • 如何製造終極隨機數生成器?只要兩個量子計算機
    隨機數在計算機和密碼學等領域有廣泛的應用,目前已經有了許多生成隨機數的方法。但事實上,任何基於經典力學的過程所產生的隨機數,本質上都不是真隨機的。而量子世界特有性質使得可以從中產生可以驗證的純隨機 (pure random) 數。本文將介紹兩個把量子計算機變成隨機數製造工廠的技術。
  • 前官員修改隨機數生成器操縱彩票中獎號碼
    去年4月美國前跨州彩票協會信息安全負責人Eddie Raymond Tipton被控纂改了生成隨機數的電腦
  • 使用樹莓派(Raspberry Pi)的真正隨機數生成器
    使用電視上的靜態信號將Raspberry Pi變成了真正的隨機數生成器。在國外,我們不再接收模擬地面廣播,因此在電視上查找靜態信號就像將其放在模擬頻道上一樣簡單。 我使用的設置是插入Raspberry Pi的eSecure USB 8MP網絡攝像頭,我將其指向電視。
  • 隨機和偽隨機 電腦隨機數是如何生成的?
    要理解為什麼這種隨機數不太可靠,你必須理解隨機數的生成原理。  隨機數的作用  隨機數的使用歷史已經有數千年。無論是拋硬幣還是搖色子,目的是讓隨機概率決定結果。電腦中的隨機數生成器的目的也是如此——生成隨機不可預測的結果。  加密法要求數字不能被攻擊者猜到,不能多次使用同樣的數字。
  • 偽隨機數發生器:你不知道,其實計算機並不能產生隨機數
    在生活中,我們需要用到隨機數的地方很多,例子也很好舉,比如我們買彩票的號碼就是一個隨機數。但是當計算機中需要產生隨機數的時候,絕大多數情況下並不是真的隨機數,我們把它稱為偽隨機數。雖然我們已經努力儘量讓產生的偽隨機數接近真實隨機數的概率,但是二者還是有本質區別的,最重要的一點區別是真實隨機數不能預測也沒有規律,而偽隨機數一定有規律(只是低級的規律好找,高級的規律不好找)而且可以被預測出來。
  • java生成隨機數的五種方法
    initRNG() 方法是 synchronized 的,因此在多線程情況下,只有一個線程會負責創建偽隨機數生成器(使用當前時間作為種子),其他線程則利用該偽隨機數生成器產生隨機數。因此 Math.random() 方法是線程安全的。
  • 他辭去普林斯頓終身教授放棄美國國籍,將清華計算機帶至世界之巔
    之後便是在世界頂尖學府連續任教:  1975年麻省理工學院數學系,副教授;1976年史丹福大學計算機系,副教授;1981年加州大學伯克利分校計算機系,教授;1982年史丹福大學計算機系,教授;1986年普林斯頓大學工程與應用科學 ,教授。
  • 密碼學的骰子——隨機數
    根據一般定義,隨機數應該具有以下三個性質:隨機性,不存在統計學偏差,是完全雜亂的數列,即分布均勻性和獨立性;不可預測性,不能從過去的隨機數數列推測出下一個出現的數;不可重現性,不能重現相同的數列。我們在平時編程開發裡用到的隨機數,一般都只滿足第一個條件,這種只滿足隨機性分布的隨機數,就叫做偽隨機數或弱偽隨機數。這是因為程式語言提供的隨機數生成方法(學名叫偽隨機數生成器)是靠軟體算法實現的,既然是算法,那就必定遵循了一定的規律,也就有被預測的可能。
  • 製作Excel隨機姓名生成器,解放你的雙手
    今天我們就利用Excel來製作簡單易用且高效的隨機姓名生成器,生成幾百上千個姓名只需點一下滑鼠那麼簡單!首先我們在網上或其它途徑找到大量的姓名,越多越好,網上有許多,很多Excel格式的成員名單都可以在網上找到,這裡我們通過各種途徑收集了430個三個字以內的姓名,如圖將它們全部放在了A列。第一步,將每個姓名逐字拆分。
  • 區塊鏈中隨機數的實現
    所有人類無法理解或無法預測的事物往往都被歸類為隨機事物。從生理上來說,我們也是沉浸在了隨機海洋中。從雲的運動到粒子和波浪的行為,隨機性簡直無處不在。然而,儘管人類接觸到了各種各樣的隨機事物,對隨機性很熟悉,但依然難以將它轉化為計算機可以使用的東西。
  • 量子真隨機數發生器研究取得進展
    超高速真隨機數發生器簡化設計方案(上)與後處理方法(下)信息科學技術學院郭弘教授課題組與物理學院張建瑋副教授課題組開展合作,在用光學隨機源設計研製量子真隨機數發生器的研究中取得重要進展 近期,郭弘課題組已在真隨機數發生器研究領取得了一系列研究成果。例如,通過對離散型和連續型量子隨機源的持續研究,在隨機源的建模分析、信號採集手段、數據後處理方法和隨機性統計檢測等方面均形成理論和技術的積累。
  • 陶洙炮製「張汝執評程甲本」不過是想給偽「程本」背書
    此眉批恰好證明,「水溶」為有正書局「戚序本」對紅樓夢原本北靜王之名「世榮」的首次篡改,開了1927年後同樣是狄寶賢密友陶洙炮製的所有「脂評」偽本石頭記、紅樓夢之先河!11北大教授馬幼漁藏有多部程甲本和程乙本12所有程甲本和程乙本都私下交易、來路不明丙、胡適命名的程甲本、程乙本疑點重重,不假才怪!
  • 普林斯頓大學:解釋了數十年來使人迷惑的水的奇異行為
    普林斯頓大學的一項新的研究,為有爭議的理論提供了有力的證據,即在非常冷的溫度下,水以兩種不同的液體形式存在,一種形式的密度較小,而結構形式卻比另一種形式的更為緊湊。研究人員通過對水分子進行了計算機模擬,以發現一種液相轉變為另一液相的臨界點。該研究發表在本周的《科學》雜誌上。
  • AI生成中國山水畫!普林斯頓姑娘本科畢業作品,線條筆觸騙過半數...
    2019,英偉達在GTC大會上推出了一個人工智慧圖像生成器「GauGAN」。用戶只需要簡單的勾畫幾條線條輪廓,便會自動生成美麗的風景圖片。這款AI使用的技術是生成對抗網絡(GAN),也是一種深度學習模型,現在被廣泛用於圖像生成。
  • python隨機模塊22個函數詳解(上)
    random模塊,用於生成偽隨機數,之所以稱之為偽隨機數,是因為真正意義上的隨機數(或者隨機事件)在某次產生過程中是按照實驗過程中表現的分布概率隨機產生的,其結果是不可預測的,是不可見的。而計算機中的隨機函數是按照一定算法模擬產生的,對於正常隨機而言,會出現某個事情出現多次的情況。
  • 我國量子計算機「九章」,200秒完成超算需6億年才能求解難題
    所以如果量子計算機一旦實現實際應用,人類的未來將再次迎來爆炸式的科技發展。第一個聲稱實現量子霸權的公司是美國的谷歌,他們2019年使用53個量子比特的量子計算機「懸鈴木」,用時3分20秒實現傳統超級計算機需要1萬年才能解決的難題——證明一個隨機數字生成器符合「隨機」的標準。不過這些運算大多沒有實際意義,僅僅是為了一個證明而已!
  • 由馬斯克發起創辦的AI實驗室發布新型圖像生成器
    Dall-E建立在神經網絡上,神經網絡是受人腦啟發的計算機系統,可以發現模式並識別大量數據之間的關係。雖然神經網絡之前已經生成圖像和視頻,但Dall-E並不常見,因為它依賴於文本輸入,而其他則不依賴於文本輸入。近年來,合成視頻和圖像變得更加複雜,以至於人類已經很難區分真實和計算機生成的東西。
  • 單片機C語言如何產生隨機數
    或者預先寫好一個隨機數表,然後進行取數據。也是可以的。,分別為 rand函數、random函數、randomize 函數,但是rand函數產生的並不是真意正義上的隨機數,是一個偽隨機數,是根據一個數,稱之為種子,為基準以某個遞推公式推算出來的一係數,當這系列數很大的時候,就符合正態公布,從而相當於產生了隨機數。