登頂Science封面、拿下NIPS最佳論文!這位CMU大神要畢業了

2020-09-23 AI科技評論

作者 | 陳大鑫

我已經成功完成了我的博士學位論文!在我攻讀博士學位的過程中,看到擊敗撲克界的頂尖人物的想法從科幻小說演變成現實,真是太神奇了。

昨日,Noam Brown在推特上宣布自己完成了卡耐基梅隆大學(CMU)的230頁超硬核博士論文:

《Equilibrium Finding for Large Adversarial Imperfect-Information Games》

這也差不多宣告他要畢業了,只等博士答辯結束就行了~

等下,你怎麼知道他能百分百通過答辯?

相信我,看完全文,你看誰敢把這位大神掛掉。

1 拿獎到手軟

Noam Brown,卡耐基梅隆大學(CMU)博士,Facebook 人工智慧實驗室研究科學家、AI德州撲克作者,致力於使AI在大型不完全信息多智能體交互中進行戰略推理。

Noam Brown已經將自己的研究成果應用到了第一款在無限注德州撲克中擊敗頂級人類的 AI 上。

他和他的CMU導師一起創建了AI系統Libratus和Pluribus,並在人機對抗比賽中果斷擊敗了頂尖的人類撲克職業玩家:

2017 年一月在賓夕法尼亞州匹茲堡的 Rivers 賭場,一場獎金20 萬美元的比賽正在進行,在這為期 20 天的賽程裡面 4 名人類職業玩家和 Libratus共對戰12 萬手。最終,Libratus 人工智慧系統成功擊敗了人類頂級職業玩家。

AI撲克Pluribus也因此曾登頂了《Scinec》封面:

不可不提的是,同樣在2017年 ,Noam Brown及其導師獲得了NIPS 2017最佳論文獎,獲獎論文:

2019年,同樣是和導師合作,他們二人又拿下AAAI 2019傑出論文獎,獲獎論文:

隨後Noam Brown之後的一系列成果也成為《Science》2019年年度突破的亞軍:

除此之外,Noam Brown及其團隊也因在AI方面的傑出成就獲得了馬文·明斯基獎(Marvin Minsky,人工智慧先驅)。

最後,Noam Brown本人也被《MIT科技評論》評為35歲以下35位創新者之一。

而獲得過這個獎項的大佬都有誰呢?

2 研究背景

近年來,以AlphaGo為代表的人工智慧進步有目共睹,人工智慧也再一次火遍全球。

而人工智慧的成功似乎總是和人類對抗遊戲的表現做對比體現出來。

對抗遊戲的核心就在於博弈一詞,博弈論起源於納什均衡:

大家有看過電影《美麗心靈》的都會知道一二。

而納什均衡的代表就是囚徒困境

囚徒困境的故事講的是,兩個嫌疑犯作案後被警察抓住,分別關在不同的屋子裡接受審訊。警察知道兩人有罪,但缺乏足夠的證據。

警察告訴每個人:如果兩人都抵賴,各判刑1年;如果兩人都坦白,各判兩年;如果兩人中一個坦白而另一個抵賴,坦白的放出去,抵賴的判5年。於是,每個囚徒都面臨兩種選擇:坦白或抵賴。

然而,管同夥選擇什麼,每個囚徒的最優選擇是坦白:如果同夥抵賴、自己坦白的話放出去,抵賴的話判5年,坦白比不坦白好;如果同夥坦白、自己坦白的話判兩年,比起抵賴的判5年,坦白還是比抵賴的好。結果,兩個嫌疑犯都選擇坦白,各判刑兩年。

現在我們談遊戲,以遊戲為代表的信息博弈大致可以分為完全(完美)信息博弈和不完全(完美)信息博弈。

跳棋、西洋棋、五子棋、圍棋等都屬於完美信息博弈,即雙方都知道博弈中每一時刻的確切狀態,以及未來可能發生的所有狀態(如果算力允許)。

相反,撲克牌是不完美信息博弈:博弈狀態的一些信息是隱藏的,即博弈中存在包含多個決策點的信息集或博弈者無法預測對手的一些行動。

很顯然,在撲克牌中如果大家都互相知道對手的牌面,那四個3也就沒法當成4個2唬住對方了,這會使遊戲頓時變得索然無味~

隱藏信息在現實世界策略互動中無處不在,如交通信息、戰爭等,這使得研究不完美信息博弈的技術尤其重要。

而反觀Noam Brown這一路拿獎到手軟的歷程,其實可以看出他的研究關注點一直都在不完全信息博弈上面,這一次他在推特上介紹的也是剛剛完成的博士論文:研究大型對抗性不完全信息博弈的均衡發現,這也是他博士幾年的研究積累成果匯總。

接下來就來介紹一下這篇博士論文。

3 博士論文

論文名稱:

《Equilibrium Finding for Large Adversarial Imperfect-Information Games》

論文地址:http://www.cs.cmu.edu/~noamb/thesis.pdf

Noam Brown在博士論文前言有提到,除了第5.3節的ReBeL外,本文中的所有研究都是他和他的導師Tuomas Sandholm合作完成的,而在致謝中Noam Brown又說到:

首先我要感謝我的導師 Tuomas Sandholm 。Tuomas耐心地指導我完成了整個研究過程,包括幾次深夜披薩助力( late-night pizza-fueled)的論文寫作。沒有這個指導,我的博士學位肯定不會成功。

說到這裡,我們不得不停下來問一句,Noam Brown還都幹了啥?

——帶你「打德州撲克」、帶你上Science封面、帶你拿NIPS最佳論文!帶你拿馬文.明斯基獎.......

請問這麼好的導師上哪去找?請給我來一打!

跟著這樣的導師簡直要起飛了!別問,問就是:帶你梭哈!

論文摘要

不完全信息博弈模型是指多個主體與私人信息之間的相互作用。在這種情況下,一個典型的目標是接近一個均衡,在這個平衡中,所有的智能體策略都是最優的。本文描述了大型對抗性不完全信息博弈均衡計算的若干進展。這些新技術使人工智慧智能體首次有可能在無限注撲克牌中擊敗頂尖的人類專業玩家,幾十年來,這一直是人工智慧和博弈論領域的重大挑戰問題。

我們首先介紹了對反事實後悔最小化(CFR)的改進,

這是一種在兩人零和博弈中收斂到納什均衡的迭代算法。我們描述了CFR的新變體,它使用折扣原則(discounting)來顯著加快收斂速度。

這些新的CFR變體現在是大型對抗性不完全信息博弈的SOTA均衡發現(equilibrium-finding)算法。我們還介紹了第一個熱啟動( warm starting)CFR的通用技術。

隨後,我們介紹了理論上合理的剪枝技術,可以在大型博弈中數量級地加速收斂。

接下來,我們將描述通過自動抽象和函數近似將CFR擴展到大型遊戲的新方法。

特別地,我們介紹了第一個在不完全信息博弈中離散連續動作空間的算法。我們將其擴展到求解具有連續動作空間博弈的算法中。

之後,我們介紹了Deep CFR,一種使用神經網絡函數近似而不是基於bucketing的抽象形式。Deep CFR是第一個可擴展到大型遊戲的non-tabular形式的CFR,它使CFR能夠在幾乎沒有領域知識的情況下成功部署。

最後,我們提出了一種新的不完全信息博弈搜索技術,以確保智能體的搜索策略不會被對手利用。

這些新的搜索形式在理論上和實踐上都優於過去的方法。接下來,我們將介紹一種深度受限搜索的方法,它在計算上比以前的方法要代價要少得多。

最最後,我們提出了一種在訓練和測試時結合強化學習和搜索的算法ReBeL:

它朝著彌合完全信息遊戲和不完全信息遊戲研究之間的差距邁出了重要的一步。

論文目錄:

在致謝的最後,Noam Brown表達了對家人的感謝:

最後,我要特別感謝我的父母 Michael 和 Nurit,還有我的全家,感謝你們一直支持我,鼓勵我追求我的激情。

相關焦點

  • 攜Science封面,CMU大神Noam博士畢業,論文已公開
    近日,這兩個 AI 系統的開發者之一、CMU 大神宣布其完成博士論文,並即將從 CMU 畢業。在論文中,Noam Brown 對博士期間的一系列研究成果進行了匯總。機器之心對該論文的核心內容進行了簡要介紹,感興趣的讀者可以閱讀原論文。
  • 攜Science封面,CMU大神Noam博士畢業,論文已公開
    近日,這兩個 AI 系統的開發者之一、CMU 大神宣布其完成博士論文,並即將從 CMU 畢業。論文地址:http://www.cs.cmu.edu/~noamb/thesis.pdfSlides 地址:http://www.cs.cmu.edu/~noamb/thesis_slides.pdf博士論文簡介這篇博士論文詳述了大型對抗性不完美信息博弈中均衡計算的一系列進展。
  • NIPS 2016精華大盤點丨吳恩達、LeCun等大師的論文、PPT都在這兒...
    前幾天 NIPS官網開放了部分錄用文章的 Spotlight Videos(連結:https://nips.cc/Conferences/2016/SpotlightVideos),為學術達人魏秀參童鞋把所有論文都捋了一遍,特地將一些有趣、有料的內容整理出來分享給大家。文章連結均為 Youtube 視頻。
  • NIPS 2017現場:8000人參會,最佳論文公布,算法壓倒深度學習 | NIPS...
    最佳論文公布,3篇論文獲獎在當地時間4日中午,大會官網更新了本次大會的最佳論文及 Test of Time Award 獲獎論文。相應,大會也在官網調整了議程,將開幕演講及頒布最佳論文的時間調整到了4日下午5點,在隨後的會場上,主持人也宣布了這一調整。本次大會最佳論文共有三篇。
  • 中國學者Science封面論文:甲蟲胸節上的角與翅膀系列同源
    這項研究對思考如何更好地定義進化新徵(evolutionary novelty)有著重要意義,於 11 月 22 日登上Science封面。一個生物性狀定義為進化新徵必須要同時滿足兩個條件: 1)它既不和它祖先中的任何性狀有同源關係(homology),即它不是由祖先的某一性狀進化而來的; 2)它又和同一個體的其他性狀沒有系列同源關係(serial homology),即和身體的其他性狀沒有相同的發育起源。
  • AlphaZero誕生一周年:登上Science封面,完整論文首次公開
    大數據文摘出品作者:魏子敏、蔣寶尚阿爾法元(AlphaZero)誕生一周年之際,《自然(Science)》雜誌今天以封面文發布了阿爾法元(AlphaZero)經過同行審議的完整論文,Deepmind創始人兼CEO哈薩比斯親自執筆了這一論文。
  • CMU出品,計算機圖形學秋季課程已上線,B站同步字幕視頻
    該領域的研究者也越來越多,如計算機圖形學大神 & 太極(Taichi)作者胡淵鳴、「為可微計算機圖形學奠定基礎」榮獲 SIGGRAPH 最佳博士論文獎的太極二作李子懋等等。讓計算機圖形學進一步走入大眾視線的裡程碑事件是,ACM 將 2019 年圖靈獎授予了兩位皮克斯聯合創始人、計算機圖形學專家 Patrick M. Hanrahan 和 Edwin E. Catmull。
  • NIPS2018最佳論文解讀:Neural Ordinary Differential Equations
    原標題:NIPS2018最佳論文解讀:Neural Ordinary Differential Equations雷鋒網 AI 科技評論按,不久前,NeurIPS 2018 在加拿大蒙特婁召開,在這次著名會議上獲得最佳論文獎之一的論文是《Neural Ordinary Differential Equations》,論文地址:https://arxiv.org
  • 畢業論文Dissertation的寫法
    Thesis和Dissertation都被稱作畢業論文。畢業論文是我們學術生涯最重要的一篇文章。但是畢業論文寫作對於很多留學生來講其實是有難度的。攻讀碩士學位的學生通常在一個學期時間內完成畢業論文,在此期間thesis是他們唯一的課程。但攻讀博士學位的學生需要花費數年時間完成他們的研究。在一些學校,博士生的整個學習課程就叫dissertation,全程為畢業論文服務。除了不同的學位之外,畢業論文的長度和結構也取決於研究領域。科學專業的畢業論文篇幅一般較短,因為科學專業的研究成果更多反映在實驗等領域。
  • 畢業論文怎麼排版好看
    筆者也是這畢業大軍中的一員。既然回不去學校,那麼在家裡安心的寫畢業論文吧。在萬般努力下終於完成了畢業論文的寫作,可是到最後一步卡殼了,那就是論文的排版,不知道如何下手,按照網上的教程總是弄不對,出現這樣那樣的錯誤。大多數人用的文檔軟體是office,但是其中有很多操作細節大家不清楚,自己去摸索要花費大量的時間。
  • 翟天臨之後:畢業論文變成hard模式了嗎?
    文|庫洛醬圖| 流螢 封面|IYE還記得數月前,苦肝論文的翟天臨嗎?畢業論文的完成難度一下從easy模式升高到hard模式,翟博士到底要不要背這個鍋?「查重」難哭一波人從時間的先後順序看,翟天臨事件發生後,確實有不少高校調整了論文「查重」要求。
  • 他是顏寧徒弟文章登上science封面,如今追隨施一公入職西湖大學
    而今天要給大家介紹的這位如今在西湖大學任博士後的90後男學霸就是顏寧的徒弟,如今已經跟隨施一公加盟到了西湖大學任職,他就是來自於山東的鄢仁鴻。 而鄢仁鴻在清華博士畢業以後,本來可以有很多的選擇和歸宿的,甚至出國對於鄢仁鴻也不算難事,但鄢仁鴻卻毅然選擇了追隨施一公先生
  • 美國畢業論文Dissertation格式是什麼?
    現如今,在美國的留學的小夥伴們都面臨著要寫畢業論文,美國各大高校對論文寫作的要求也比較高,大家不要想著隨隨便便寫完應付了事。論文寫作格式是影響 essay寫作整體質量的關鍵,也是首要了解的事項。那麼美國畢業論文格式要求有哪些,寫作上又有哪些要求呢,下面來看看小編為大家全面講解。
  • 姚班學霸陳立傑:16歲保送清華,18歲拿下IOI世界冠軍
    郭一璞 安妮 發自 凹非寺 量子位 出品 | 公眾號 QbitAI 今年的理論計算機頂會FOCS,一位來自浙江湖州的小哥哥一口氣中了3篇論文,還拿下了最佳學生論文獎。
  • 會計電算化畢業論文怎麼寫
    畢業論文沒有固定的形式,常見的有如下:   1. 論文的標題   畢業論文的標題是論文的眉目,應仔細推敲,儘可能從各個角度充分考慮,選擇最合適的。原則上,題目要簡單明了,能反應畢業論文的主要內容,使讀者能一眼看出論文的的中心內容要講什麼,切忌籠統、空泛。
  • 原來寫畢業論文,這些論文格式要求都要注意,你現在還不知嗎?
    大家覺得寫畢業論文時,論文格式要求重不重要?其實,還是蠻重要的,畢竟規範、科學也是論文的要求之一,所以想要寫出一篇高分論文,論文格式要求就要注意了。那麼下面就一起來了解一下論文格式要求究竟有哪些吧~一、論文格式要求1.字體、字號一般來說,撰寫畢業論文的時候,最好採用Word文檔進行撰寫。
  • Science封面:谷歌實現量子化學模擬,迄今為止全球首例
    其發表的題為《超導量子比特量子計算機的 Hartree-Fock 近似模擬》(Hartree-Fock on a Superconducting Qubit Quantum Computer)的成果論文,當天便登上了《自然》雜誌封面。
  • Science封面:谷歌實現量子化學模擬,迄今為止全球首例!
    其發表的題為《超導量子比特量子計算機的 Hartree-Fock 近似模擬》(Hartree-Fock on a Superconducting Qubit Quantum Computer)的成果論文,當天便登上了《自然》雜誌封面。
  • 我國學者Science論文或被首次撤稿
    更早之前,2020年7月22日,中國地質大學邢立達等人主動撤回了Nature封面文章Nature封面文章論文的研究課題屬於燃料電池領域,按照論文摘要和地大(武漢),以及東南大學官網相關報導來看,這項研究提出了提高電解質離子電導率的方法,並完成了一種高離子電導率的電解質開發。東南大學太陽能技術研究中心/儲能聯合研究中心首席科學家朱斌,是該論文共同一作和主通訊作者。
  • 畢業論文寫作要求、查重內容範圍、重複率要求、查重上傳技巧
    大家好,我是您的畢業大管家小畢同學。畢業論文,每個學校的要求都不一樣。但是基本上都卡得比較嚴格。尤其是對於論文查重,基本上是「不過必死」。 要不就是延期答辯、延期畢業。甚至再次不過,都可能被取消學位。青春四年最好的時光,如果不能換回一張畢業證和學位證,是不是太可惜了。