谷歌PhD獎研金獲得者徐海峰:「幸運」的算法博弈論之路

2021-01-14 雷鋒網

雷鋒網AI科技評論按:2017年的谷歌博士生獎研金(GooglePhDFellowship)北美、歐洲、中東地區日前評選名單出爐,這個從2009年成立的項目旨在表彰在計算機科學領域表現優異的博士生。日前,雷鋒網AI科技評論與七名獲此殊榮的華人學生之一、南加利福尼亞大學博士生徐海峰進行了交流。

徐海峰,2012年畢業於中國科學技術大學少年班學院(華羅庚班),在加拿大滑鐵盧大學進行計算數學的研究後,於2013年赴美國南加利福尼亞大學攻讀博士學位,師從ShaddinDughmi和MilindTambe,主要研究領域為算法博弈論、信息經濟及算法設計與分析。

當得知自己獲得谷歌博士生獎研金之後,徐海峰在朋友圈分享了這一好消息:「Mademyday[大哭]」。

徐海峰獲得谷歌博士生獎研金所屬的類別為「算法、優化及市場」,同時獲得這一類別獎學金的另外兩位獲獎者分別來自UC伯克利大學及哈佛大學。在獲此殊榮的背後,是嚴格的評審過程與激烈的競爭流程。獎研金需要博士生導師向學校推薦,而每個學校只能在其中選出兩名博士生,並代表候選人向谷歌提交申請,材料包括候選人的博士論文提案、簡歷和三封推薦信。徐海峰收到的郵件中顯示,谷歌成立了一個由研究科學家組成的專家評審團進行評估。

2017年的谷歌博士生獎研金在北美、歐洲、中東地區評選出33位優秀的博士生,而作為七位華人獲獎學生之一的徐海峰,雖然調侃著「總算可以給老闆省點錢」,但他也覺得自己非常幸運。「特別感謝所有幫助過我的人,尤其是我的導師。」

而徐海峰為何會與算法博弈論結緣,就要追溯到他的本科經歷了。在中國科學技術大學少年班學院(華羅庚班)就讀數學方向的徐海峰,於大四期間在微軟亞洲研究院劉鐵巖博士的研究小組裡實習。在高斌老師的指導下,他第一次接觸到算法博弈論,並且被它深深吸引。「那時的我覺得這是一個完美地結合了數學,計算機和經濟學,同時具備理論和實際應用價值的領域,正是我想做的東西。」

在積累了一年計算數學的基礎後,徐海峰得以在心儀的領域攻讀博士。在回顧這段歷程時,他也對劉鐵巖老師與高斌老師,以及所有研究人員表達了感激之情。

徐海峰的博士課題是從計算角度研究信息的戰略作用,是算法博弈論近年剛興起的一個熱門研究方向。目前,徐海峰除了專注於此類問題的理論基礎研究,也在導師MilindTambe領導的Teamcore小組進行偏應用型的科研工作,此前接受雷鋒網採訪的南洋理工大學的安波博士也同為這一小組的成員。從官網可以了解到,這一小組的科研主題是用人工智慧做有益於社會的事情(AIforSocialGood)。徐海峰向雷鋒網介紹道,團隊成員雖然背景不盡相同,涵蓋數學、物理、經濟學、軟體工程等專業,但他認為不同學科思維模式的交流能夠幫助各自的研究。「組裡已經實現的應用包括優化美國聯邦空警的戰略部署,優化美國海軍警衛隊的巡邏路線以及設計馬來西亞自然保護區護林人員的巡邏路線等等。」

近年來,對信息在博弈中的戰略作用的研究獲得了很多著名經濟學家和計算機科學家的關注,比如2014年獲得卡拉克獎章的史丹福大學經濟學教授MatthewGentzkow近年來發表了數篇相關論文(雷鋒網按:每兩年頒發一次的卡拉克獎授予40歲以下為經濟思想和理論做出最重要貢獻的美國經濟學家,大部分得主獲得該獎之後都獲得了諾貝爾經濟學獎,因此也有著「小諾貝爾經濟學獎」的美譽)。而對於網際網路巨頭而言,信息的戰略意義也是一個值得關注的問題。

像Facebook、谷歌這樣的大公司,雖然在大數據時代的驅動下擁有很多信息,但如何戰略性地利用這些信息實現收益最大化,就涉及到公司與同行之間以及與客戶(例如廣告商)之間的博弈。「很多時候最優的信息策略需要計算出來,所以需要人們從計算角度研究信息的戰略作用。舉個例子,谷歌對每一個網際網路用戶的描述有上千個特徵,向廣告商提供其中的哪些特徵能使收益最大化?這裡可供選擇的特徵組合超過21000種,比人體的細胞還要多很多,要從如此多的選擇中選出最優的那一個,只能求助於優化算法。」徐海峰告訴雷鋒網,他去年在谷歌實習之時,主要研究的課題就是谷歌與廣告商之間的博弈。

但在設計算法的時候,徐海峰提及存在兩個主要的難點。

首先是系統的分析難度大。在信息不對稱的情況下,連博弈參與者的行為都難以分析,更不要說計算基於其行為的最優信息策略了。

其次是不對稱信息對博弈結果存在影響。不同博弈參與者本身各自擁有不同的信息,信息策略設計者還需要考慮參與者自身擁有的信息對博弈的影響。

博弈論的算法設計與研究都是基於完全理性參與者的假設,但實際上很少有完全理性的個體。這樣一來,算法博弈論是否會淪為「空中樓閣」的紙上談兵呢?徐海峰表示,這一問題確實存在,模型有時候不能完全描述實際情況。而為了彌補這一鴻溝,可以有兩種解決方式,「一是對人的理性程度進行建模。另一種辦法是做魯棒優化,使結果適合不同理性程度的參與者。」

實際上,博弈論的決策權衡與機器學習最終面臨現實問題的情況非常類似,就像前面所說的,博弈參與者要實現「絕對理性」的可能性極小,加上複雜多變的現實狀況,可能很難直接用公式來描述。那麼這樣一來,一個順理成章的做法就是用機器學習模型來刻畫博弈參與者的行為,「這樣不同的參與者就可以被看成是不同的機器學習模型,博弈變成了機器學習模型之間的博弈。如果可以對談判人的衡量標準進行量化,那麼用機器人代替人談判是完全有可能的,在未來或許也能誕生自動商業談判、自動公司決策等很多新的行業。」

反過來,博弈論也影響了機器學習模型的設計,比如生成式模型(GANs)就是基於零和博弈而產生的。生成器模型希望通過製造以假亂真的內容來「騙」過判別器,而判別器也需要不斷提升自己的判斷能力,以甄別偽造圖像和真實圖像。

徐海峰透露,目前微軟亞洲研究院劉鐵巖博士的小組有做關於博弈論和機器學習的結合研究,採用機器學習來學習廣告商的行為,然後基於學出來的模型進行最優機制設計。而Teamcore組裡也有相關的研究工作,主要工作是在安全博弈中用機器學習模型來描述對手的策略,然後採用博弈論來進行決策。

在算法博弈論逐步成為一個新興研究領域的同時,在企業與高校分別都做過研究的徐海峰對機器學習的熱潮也頗有感觸。「在企業做研究的一個優勢是能直接看到有實際應用價值的問題,而在學校常常需要自己去想出一個有價值的課題。學校的一個優勢在於可以做一些周期更長的研究,而企業出於多方面的考慮(比如時間,經濟成本)往往需要即時可行的方案。」

而作為仍在學界做研究的學生,徐海峰覺得學術圈與時尚圈很相似,「有很多人趕時髦,也有很多人堅持自己的風格,」他平時也會關注學界的熱點課題,認為這樣對自己的研究也會有啟發。但不論如何,「我覺得做自己喜歡的有價值的課題就好。」

正是抱著解決問題的心態去做研究,徐海峰的論文在去年獲得了AAMAS的最佳學生作品獎;而他關於安全博弈的算法設計論文也入選了EC2016,並在SecMasWorkshop獲得最佳論文。

但當談起獲獎的心得與經驗時,徐海峰非常謙虛地表示,這是一件「仁者見仁智者見智」的事,「我覺得最佳論文是可遇而不可求的,很難說有一個標準。」他也提及導師對他的教誨,「導師告訴我要試著去解決最基本的問題,對問題提供最自然最完整的解決方案,至於結果,只能留給別人評判了。」

而或許這樣的研究理念,讓徐海峰獲得谷歌博士生獎研金成為了情理之中的事,「能夠研究自己喜歡的課題並得到認可,對我來說,是很好的鼓勵。」他也讓我們懂得,成功之神的垂青絕非偶然,更多的是謹慎、謙虛的努力。雷鋒網也將持續關注徐海峰的動態,見證他在算法博弈論研究上的發光發熱。

相關焦點

  • 谷歌博士生獎研金出爐,哪七位華人學生當選這一殊榮?
    當選學生所在的學校除了獲得一筆不菲的研究資金外,學生還能獲得谷歌實習機會,並與具有豐富經驗的研究院導師進行深入的交流。谷歌博士生獎研金必須由符合資格的學校提出申請(學生不得直接提出申請),而每個學校只能提名兩位博士生,競爭可謂非常激烈。
  • 俞建:我為博弈論鼓與呼
    應當說,相比最優化方法,博弈論更具普遍性,因為它是更加接近實際的你中有我且我中有你的行為互動的決策科學,它與當今世界經濟和社會發展的全球化潮流是一致的。當然,博弈論與最優化方法並不是對立的,很多博弈的平衡點,也還是要通過最優化方法來求得的,例如矩陣博弈的平衡點,就是用線性規劃的算法來求解的。
  • 計算機系博士生王鴻偉、陳哲懷獲2018年穀歌博士生獎研金
    近日,谷歌公司公布了2018年穀歌博士生獎研金的獲獎名單。計算機系過敏意教授指導的博士生王鴻偉和俞凱教授指導的博士生陳哲懷以其在自然語言處理領域突出的學術表現,從全球眾多競爭者中脫穎而出,榮獲該獎項。2018年全球共有57位學生獲得谷歌博士生獎研金,中國大陸僅有3人(另外一位獲獎者來自清華大學)。
  • 重述博弈論的「道統」:簡·奧斯丁與經濟學
    他本科就讀於加州理工學院,於1992年在美國西北大學經濟學博士畢業,導師是後來的諾貝爾經濟學獎得主羅傑·邁爾森(Roger Myerson),畢業後第一份工作是在芝加哥大學經濟系當助理教授。後來巴塞隆納的高校以他的名字命名了一個獎項,頒給在社會網絡和社會互動研究領域做出傑出貢獻的學者,兩年一屆,第一位獲獎者埃斯特·迪弗洛(Esther Duflo)在十年之後獲得了諾貝爾經濟學獎。
  • 機器學習算法與博弈論模型結合 新方法預測細菌耐藥性基因準確率高
    &nbsp&nbsp&nbsp&nbsp美國華盛頓州立大學研究人員開發出一種預測細菌耐藥性基因的新方法,通過機器學習和博弈論模型,他們能以93%—99%的準確率,預測3種不同類型革蘭氏陰性菌中耐藥基因的存在。
  • 2016谷歌教授科研獎公布,機器學習成最大贏家
    谷歌教授科研獎覆蓋包括算法及優化、計算神經科學、製冷及電力、地理學及地圖、人機互動、信息檢索和實時內容、機器學習和數據挖掘、機器感知、機器翻譯、移動領域、計算機網絡的設計、自然語言處理、物理界面及沉浸式體驗、隱私性、量子與計算、軟體工程及程序語言、語音、結構化數據,提取,語義圖片和資料庫管理、(軟硬體)系統、虛擬實境等共計21個領域。
  • 博弈論速成指南:那些融入深度學習的經典想法和新思路
    顯然,遊戲是博弈論最具可見性的實體,但它遠遠不是應用博弈論概念的唯一空間。也就是說,還有很多其他領域也受到博弈論和 AI 的共同影響。大多數需要多個「參與者」合作或競爭才能完成任務的場景都可以利用 AI 技術進行遊戲化和改進。儘管之前的陳述是一種泛化,但我認為它傳達出了一個信息:博弈論和 AI 是一種思考和建模軟體系統的方式,而不只是一種技術。
  • 博弈論速成指南:那些融入深度學習的經典想法和新思路
    顯然,遊戲是博弈論最具可見性的實體,但它遠遠不是應用博弈論概念的唯一空間。也就是說,還有很多其他領域也受到博弈論和 AI 的共同影響。大多數需要多個「參與者」合作或競爭才能完成任務的場景都可以利用 AI 技術進行遊戲化和改進。儘管之前的陳述是一種泛化,但我認為它傳達出了一個信息:博弈論和 AI 是一種思考和建模軟體系統的方式,而不只是一種技術。
  • 達爾文獎獲得者的搞笑作死經歷
    而且世界上有專門一個獎,專門頒發給每年最能作死的人,堪稱作死領域的諾貝爾獎,那就是達爾文獎。達爾文獎是在1994年一個斯坦福的教授設立的,本著對進化論的提出者達爾文的敬意,把這個獎頒給那些因為愚蠢作死的人,以表揚他們為整個人類進化做出的貢獻。不分國籍和性別,只要成功作死失去生命或生殖能力,都有機會獲獎,從而在人類基因庫中移除不合適的基因。
  • 電影《美麗心靈》原型:現代博弈論創始人約翰·納什本人的經歷比...
    1950年,約翰·納什獲得美國普林斯頓高等研究院的博士學位,他那篇僅僅27頁的博士論文中有一個重要發現,這就是後來被稱為「納什均衡」的博弈理論。1994年,他和其他兩位博弈論學家約翰·C·海薩尼和萊因哈德·澤爾騰共同獲得了諾貝爾經濟學獎。
  • 科學界罕見:圖靈獎獲得者公開支持拜登
    據外媒報導,24名圖靈獎獲得者在即將到來的美國總統大選中對前副總統喬·拜登表示支持,他們表示,他們擔心川普政府的移民政策從長遠來看可能還會對計算機研究和科技產業都帶來有害影響。谷歌傑出工程師、加州大學伯克利分校前教授David Patterson告訴媒體:「世界上最聰明的人都想來這裡(美國)讀研究生,但現在他們不願來這裡,很多人都去了別的地方。」
  • 圖靈獎獲得者、AI教父,拒絕蘋果谷歌,只為守住機器學習的聖地
    但約書亞沒有去任何大公司,他創建了世界上最大的深度學習研究小組、獨立非營利組織:蒙特婁學習算法研究所(MILA),然後拿走了圖靈獎。約書亞在貝爾實驗室進行學習和視覺算法的博士後研究,在這裡,約書亞結識了文章開頭提到的「三教父」之一的Yann LeCun,並培養了深厚的友誼。
  • 圖靈獎獲得者AI教父,拒絕蘋果谷歌,只為了守住機器學習的聖地
    但約書亞沒有去任何大公司,他創建了世界上最大的深度學習研究小組、獨立非營利組織:蒙特婁學習算法研究所(MILA),然後拿走了圖靈獎。約書亞在貝爾實驗室進行學習和視覺算法的博士後研究,在這裡,約書亞結識了文章開頭提到的「三教父」之一的Yann LeCun,並培養了深厚的友誼。
  • 量子博弈論基本原理的簡單解釋
    量子博弈論,英文Quantum Game Theory,是量子理論與博弈論相結合的一門新型理論,通過對博弈現象的認知決策過程進行建模,運用量子力學理論數學方法,研究與描述博弈現象及其對策的交叉科學。量子博弈論是在經典博弈論基礎上結合量子理論而發展起來的。為解釋量子博弈論基本原理,有必要首先得從經典博弈論及其博弈的基本概念說起。
  • 聚焦諾獎:不枯燥的經濟學理論,如何指導炒股以及成功相親 |新京報...
    用行為經濟學指導股市  2017年諾貝爾經濟學獎,被授予了美國經濟學家理察·塞勒,表彰其在行為經濟學領域的貢獻。  學者楊國英曾總結,理察·塞勒與2013年諾貝爾經濟學獎獲得者之一羅伯特・J・席勒有極大的相似性,二人均將心理學嫁接到傳統的經濟學研究之中,且他們的理論建樹均有益於大眾投資者理性參與金融博弈。
  • KDD 2020最佳論文獎出爐!谷歌北航獲獎
    在繼時間檢驗獎,新星獎,創新獎,論文獎,服務獎等獎項公布之後,最佳論文獎也已出爐,其中最佳論文獎由谷歌研究院的 Walid Krichene 和 Steffen Rendle 摘得,最佳學生論文獎由杜克大學的 Ang Li、Huanrui Yang、陳怡然和北航段逸驍
  • 《博弈論究竟是什麼》:一種促成生活中更優局面的解決問題方法
    生活中的博弈論現象博弈論在生活中有什麼作用,我們為何要了解博弈論?請思考以下問題:為何商家總愛扎堆?為何熱門旅遊景點的東西大多價格貴質量差?這些問題的答案可以從很多角度解答,其中一個經濟學角度便是博弈論。關於基礎的博弈論博弈論有三個前提設定,它假設參與者都是理性的:1.你得知道你想要什麼,並且對你想要的東西有一個明確的排序,最大化自己的利益。
  • 人類偏好的「可塑性」,從博弈說起
    在單獨進行手術時,這些行為都沒有意義,因此逆強化學習算法將無法解釋這些行為所暗示的偏好。出於這個原因,我們需要將逆強化學習從單智能體設置發展到多智能體設置,也就是說,我們需要設計一種學習算法,當人和機器人是同一環境的一部分並且相互交互時,該算法必須發揮作用。當一個人和一個機器人處於同一環境中的時候,我們就進入了博弈論的領域。
  • 著名經濟學家、博弈論大師、《美麗心靈》男主角原型約翰納什及其...
    1950年,約翰·納什獲得美國普林斯頓高等研究院的博士學位,他那篇僅27頁的博士論文中有一個重要發現,這就是後來被稱為「納什均衡」的博弈理論。
  • 圖靈獎獲得者John Hopcroft:理性看待AI浪潮,下次革命或許還需要...
    本次大會的主題為「人工智慧,未來之路」,並邀請了包括圖靈獎獲得者John Hopcroft在內的多位世界級計算機領域專家分享他們在AI領域的研究和觀點。現場有超過1500名高校師生參與。下面內容為雷鋒網記者根據幾位嘉賓的現場報告和微軟亞洲研究院資深研究員秦濤博士的解讀整理而成,附加有雷鋒網現場拍攝的PPT,以饗諸位。