普林斯頓計算機教授炮轟「偽AI」:精心炮製的隨機數生成器罷了

2020-12-14 量子位

魚羊 發自 凹非寺量子位 報導 | 公眾號 QbitAI

AI時代,以AI之名行騙的「偽AI」產品屢見不鮮,甚至影響越來越廣泛。

有位名叫阿文德·納拉亞南(Arvind Narayanan)的普林斯頓CS副教授坐不住了。他炮轟道:

某些公司為了賣貨,利用公眾的不了解,不管賣的是什麼通通貼上「AI」的標籤。

更可怕的是,像AlphaGo這樣優秀的AI們吸引來了大量的投資者。光環之下,「偽AI」產品同樣能募集到巨額資金,甚至在資本的推動之下,成為趨勢,影響越來越多的人。

阿文德以AI面試舉例。現在,全球已有百萬求職者經歷過或正在經歷AI面試官的「凝視」。

提供這類產品的公司非只一家,其中最知名的HireVue,聲稱全球有超過700家公司使用他們的產品,其中不乏世界500強企業。目前,這家公司已募集資金9300萬美元(約合6.55億元人民幣)。

阿文德指出:

沒有經過同行評審的證據能夠表明,這些東西真的可以預測工作績效。數百萬求職者面對的不過是精心設計的隨機數生成器。

令人懷疑的,還遠不只是這一種產品。

為了讓大家不被這樣的最新「智商稅」收割,阿文德決心教會大家如何識別這些AI界的騙子們。

他的這份「防騙指南」登場數小時,就已經在推特上收穫了1500贊。

AI騙子長什麼樣

首先,阿文德認為,現在的AI應用可以分成三類:

真正卓有成效的項目不完美但進展明顯的項目根本不靠譜的項目

總結起來,在人臉識別這樣的感知任務,和推薦算法這樣的自動判斷任務上,AI的表現都比較靠譜。

而「偽AI」嫌疑人所做的,是預測和人有關的「未來」。

人們無法預測未來本來應該是常識,但遇上AI,常識總是被拋到腦後。

當然,口說無憑,阿文德引用了普萊斯頓大學脆弱家庭和兒童福祉研究的一項研究結果(地址見文末)。

這項研究旨在探明孩子們的表現到底是不是可以預測的。

流程是這樣:先通過深入訪談和家庭觀察收集大量孩子及其家庭的數據。然後,用這些數據訓練預測模型。輸入的變量有近13000個,輸出結果將預測這些孩子在15歲時6種表現。

如果模型能夠完美預測出結果,R^2=1,如果模型啥也沒學會,R^2=0。

但訓練的結果,卻讓參與研究的研究人員們大跌眼鏡。

即使是表現最好的模型,也並沒有哪一項預測結果是讓人信服的,甚至不如用4個變量線性回歸擬合出來模型靠譜。

這一結果並非個例。在一項再犯罪率的預測研究中(論文連結見文末),AI的預測準確率只比隨機結果好一點點,還是比邏輯回歸的結果低了2個百分點。

並且,不止是預測結果不靠譜,這樣的預測AI,還暗含著更多風險。

首先,訓練這樣的AI需要收集大量個人隱私數據。誰都沒有辦法保證,這些數據會絕對安全。

其次,人們對這類AI的盲目信任,會使得一個領域的話語權,從領域專家和從業人員身上,大規模轉移到掌握AI的科技公司。

更重要的是,AI的黑盒子屬性使得它給出的結果缺乏解釋性。

就像是一開始舉的AI面試的例子,AI面試官給你打了個低分,誰也沒法兒解釋,到底是因為你表現不夠自信,還是你身邊的噪聲影響了它的判斷。

不是每一隻AI都叫AlphaGo。阿文德承認,人工智慧在某些任務上表現得十分出色,但如果有人把AI當成了萬金油,只為了分得AI風口上的一杯羹,那麼,就要擦亮雙眼,該反對反對,該抵制抵制。

一石激起千層浪

天下苦「偽AI」久矣。阿文德的「防騙指南」一經公布,就在社交網絡上引發了熱烈的討論。

有人指責「人工智慧」一次本就帶有營銷色彩,如果要討論技術,就應該換一個詞。

有人提及,連Facebook、Google這樣的科技巨頭都在AI方面造假。

註:谷歌能夠自動打電話、被稱讚通過圖靈測試的AI Duplex,被《紐約時報》曝出4次成功完成的任務中,有3次靠的是人工。

有人認為,真正的AI會改變遊戲規則,讓人無法忽視,也無需大肆宣傳。

還有人對「防騙指南」做出了補充:

我曾經採訪過這樣一家AI初創公司。領英顯示,他們對開發人員不屑一顧,但對「培訓師」卻頗為關注。我很懷疑他們到底是不是真的在造AI。

自AlphaGo一鳴驚人,震驚世界以來,人工智慧逐漸被推上高地,吸引了大量的資金、人才,也吸引了大眾的矚目。風口之中,真正的硬核技術光芒四射,而這樣的光芒之中,也掩映著投機者的身影。

但濫竽充數者終會露出馬腳。你覺得呢?

以及,有什麼AI項目是你覺得「偽AI」的嗎?

傳送門

PPT地址:https://www.cs.princeton.edu/~arvindn/talks/MIT-STS-AI-snakeoil.pdf

Hacker News討論:https://news.ycombinator.com/item?id=21577156

普萊斯頓大學脆弱家庭和兒童福祉研究:https://fragilefamilies.princeton.edu/about

累犯預測:https://advances.sciencemag.org/content/4/1/eaao5580

相關焦點

  • lcg線性同餘隨機數生成器
    作者: 人生若只如初見計算機產生隨機數在概率算法設計中,隨機數分為真隨機數和偽隨機數,計算機只能產生偽隨機數。
  • python安全開發軍規之四:使用安全的隨機數生成器
    背景日常開發中,必然會碰到需要生成隨機數的需求,比如生成圖片驗證碼,簡訊驗證碼……隨機數生成既然是這麼簡單的一個功能,開發必然也很簡單,我們看看怎麼生成一個隨機數,這裡以隨機生成1-100的整數為例。普通程式設計師的寫法import randomrandom.randint(1,100)只用了兩行代碼,程式設計師小Z就寫出了一個隨機數。QA有話說隨機模塊提供的隨機生成器是偽隨機數生成器。所謂偽隨機數,是通過固定的算法生成的,其結果是確定的,可預見的。
  • 下一代Tor通信將用分布式隨機數生成器加密
    當前,由於TOR(洋蔥網絡)的通信安全性不斷受到挑戰,TOR項目團隊開始為下一代的洋蔥路由網絡尋找新的加密途徑,例如在隨機數字的生成方面。TOR項目團隊開始為下一代的洋蔥路由網絡尋找新的加密途徑  在通信安全領域,由於要生成隨機、不可預測的加密密鑰,因此對於隨機數的應用是必不可少的。
  • 如何將量子計算機變成終極隨機生成器
    但是現在有傳言說谷歌的量子處理器即將達到這個目標,即將到來的量子優勢可能最終會有一個重要的應用:生成純粹的隨機數。隨機性對於我們使用計算和通信基礎設施所做的幾乎所有事情都是至關重要的。特別是,它被用來加密數據,保護從日常對話到金融交易到國家機密的一切。
  • 前官員修改隨機數生成器操縱彩票中獎號碼
    (原標題:前官員修改隨機數生成器操縱彩票中獎號碼)
  • 男子用論文生成器炮製論文被兩家開源期刊接收
    隨機論文的作者埃裡克斯。  實驗意在證明一些開源期刊不靠譜  涉事的兩個開源期刊分別是《計算機智能與電子系統》(下稱《計算機智能》)和《納米技術》,埃裡克斯稱自己最初收到這些期刊網站發送的廣告郵件,之後便用一款論文生成器「寫好」了論文。埃裡克斯向南都記者證實,論文的內容全部是隨機生成,且「一看就是假的」。
  • 密碼學基礎——偽隨機數生成器
    獵豹區塊鏈中心在密碼學起源的科普文章中,給大家介紹了經典的加密方法,從凱撒密碼到多表密碼,以及一次一密,在本篇文章中,我們將會和大家分享最早實現一次一密的加密機以及偽隨機數生成器。偽隨機數生成器在理解偽隨機數之前,我們先來看看真正的隨機數,我們的物理世界,其實到處都存在著隨機波動,通過測量被稱為噪音的隨機波動,我們可以生成真正的隨機數,測量噪音的過程被稱為取樣,我們可以通過取樣得到某個隨機數字。
  • 如何製造終極隨機數生成器?只要兩個量子計算機
    隨機數在計算機和密碼學等領域有廣泛的應用,目前已經有了許多生成隨機數的方法。但事實上,任何基於經典力學的過程所產生的隨機數,本質上都不是真隨機的。而量子世界特有性質使得可以從中產生可以驗證的純隨機 (pure random) 數。本文將介紹兩個把量子計算機變成隨機數製造工廠的技術。
  • 隨機數生成
    如利用蒙特卡羅法估計測量數據的不確定時,就需要使用隨機數生成器來傳遞分布。本書中大量的例子都用到了示例數據,創建這些數據就利用了隨機數生成器。Igor具有強大的統計分析功能,提供了大量函數和命令,用於分布計算、參數估計、假設檢驗、回歸分析等。其中僅偽隨機數生成器就有12種,可以生成滿足常見分布要求的隨機數,如二項分布隨機數、均勻分布隨機數、高斯分布隨機數、洛倫茲分布隨機數等。
  • 方舟子炮轟《最強大腦》科學評委是偽專家
    方舟子炮轟《最強大腦》科學評委是偽專家   方舟子  繼質疑「中國雨人」周瑋造假之後,方舟子又開始炮轟《最強大腦》科學評委魏坤琳博士為偽專家,稱其是「體育老師」。
  • 方舟子炮轟魏坤琳偽專家:稱其就是體育老師
    方舟子炮轟魏坤琳並非「專家」,而就是「體育老師」。並且稱其是「果殼網送了一個偽專家去蒙全國人民」,諷刺其為商業推廣的一部分,更揚言要「挖挖這個人」。 繼質疑「中國雨人」周瑋造假之後,方舟子又開始炮轟《最強大腦》科學評委魏坤琳博士為偽專家,稱其是「體育老師」。對此江蘇衛視方面在微博上回應道:「這是對北大心理學系的挑戰嗎。」
  • java生成隨機數的五種方法
    initRNG() 方法是 synchronized 的,因此在多線程情況下,只有一個線程會負責創建偽隨機數生成器(使用當前時間作為種子),其他線程則利用該偽隨機數生成器產生隨機數。因此 Math.random() 方法是線程安全的。
  • 密碼學的骰子——隨機數
    根據一般定義,隨機數應該具有以下三個性質:隨機性,不存在統計學偏差,是完全雜亂的數列,即分布均勻性和獨立性;不可預測性,不能從過去的隨機數數列推測出下一個出現的數;不可重現性,不能重現相同的數列。我們在平時編程開發裡用到的隨機數,一般都只滿足第一個條件,這種只滿足隨機性分布的隨機數,就叫做偽隨機數或弱偽隨機數。這是因為程式語言提供的隨機數生成方法(學名叫偽隨機數生成器)是靠軟體算法實現的,既然是算法,那就必定遵循了一定的規律,也就有被預測的可能。
  • 簡要解析:Java中隨機數生成的代碼實現
    double rand = Math.random();        通過Random類的對象  程序可生成許多不同類型的隨機數字,做法很簡單,只需調用方法nextInt()和nextFloat()即可(也可以調用nextLong()或者nextDouble())。
  • matlab生成隨機數函數的20多個命令,你知道多少?「肥波貓」
    「肥波貓」rand(n):生成0到1之間的n階隨機數方陣 rand(m,n):生成0到1之間的m×n的隨機數矩陣 (現成的函數)betarnd 貝塔分布的隨機數生成器 binornd 二項分布的隨機數生成器
  • Java 生成隨機數的 5 種方式,你知道幾種?
    方法是 的,因此在多線程情況下,只有一個線程會負責創建偽隨機數生成器(使用當前時間作為種子),其他線程則利用該偽隨機數生成器產生隨機數。Java生成隨機數的幾種高級用法,這篇推薦看一下。 因此 方法是線程安全的。
  • 偽隨機數發生器:你不知道,其實計算機並不能產生隨機數
    在生活中,我們需要用到隨機數的地方很多,例子也很好舉,比如我們買彩票的號碼就是一個隨機數。但是當計算機中需要產生隨機數的時候,絕大多數情況下並不是真的隨機數,我們把它稱為偽隨機數。雖然我們已經努力儘量讓產生的偽隨機數接近真實隨機數的概率,但是二者還是有本質區別的,最重要的一點區別是真實隨機數不能預測也沒有規律,而偽隨機數一定有規律(只是低級的規律好找,高級的規律不好找)而且可以被預測出來。
  • Chrome修復JS引擎隨機數沒那麼隨機的問題
    小編正用著呢~在過去幾年裡,許多人研究都發現Chrome瀏覽器的V8 JavaScript引擎在用Math.random()函數的時候返回的隨機數沒有那麼隨機。今天這個問題已經解決了,即在最新版的Chrome 49中——很快這個版本就會發布。Math.random()是在JavaScript中達成隨機性的最常用的方式,這對許多web應用而言是比較重要的組成部分。
  • 普林斯頓大學校友,有這麼多都是著名教授
    普林斯頓大學校友,有這麼多都是著名教授普林斯頓大學出過不少星光燦爛的人物,對美國的社會文明做出過很大的貢獻,從這所學校裡走出過大批的著名教授,我們一起來了解一下吧。本·伯南克前美國聯邦儲備局主席本·伯南克,美國經濟學家,前美國聯邦儲備局主席。
  • 製作Excel隨機姓名生成器,解放你的雙手
    今天我們就利用Excel來製作簡單易用且高效的隨機姓名生成器,生成幾百上千個姓名只需點一下滑鼠那麼簡單!首先我們在網上或其它途徑找到大量的姓名,越多越好,網上有許多,很多Excel格式的成員名單都可以在網上找到,這裡我們通過各種途徑收集了430個三個字以內的姓名,如圖將它們全部放在了A列。第一步,將每個姓名逐字拆分。