博弈AI大時代崛起 AI是如何戰勝人類世界冠軍的?

2021-01-17 中國經濟網

  中國經濟網北京8月11日訊 說起人工智慧,大家可能比較熟悉的是AlphaGo,但在業界更加受人矚目的是德州撲克人工智慧程序——冷撲(Libratus)。在今年年初,Libratus戰勝美國四位頂尖德州撲克大師。那麼,Libratus是如何戰勝人類世界冠軍的?

  卡耐基梅隆大學計算機系教授、德撲AI之父 Tuomas Sandholm

  Libratus之父Tuomas Sandholm教授日前在杉數科技和鈦媒體主辦的「AI大師圓桌系列」第三場「AI時代,博弈與行為分析」中詳細闡述了Libratus如何戰勝人類世界冠軍。 Libratus使用的這些技術如何服務公眾、社會,如何去創造新的商業機會。

  AI是如何戰勝人類世界冠軍的

  德州撲克這個場景下,沒有海量的棋譜,沒有充分公開的完全信息,Tuomas Sandholm教授組織研發的Libratus系統結合優化博弈論和機器學習等算法,是迄今能夠擊敗德撲最頂級高手的唯一一種人工智慧系統,在戰略推理和戰略思維方面達到了超越人類的水平。

  在一對一無限注德州撲克中,遊戲中兩個玩家相互對決,在一系列的牌局中測試對方的策略,改善自己的戰術,並且瘋狂地唬牌。在今年一月份,Libratus完勝四個對手,贏取了1776250美元的模擬賭金,打敗了世界上最出色的撲克玩家。人類玩家Dong Kim曾對《連線》雜誌說: 「今天之前我都沒有認識到它那麼強。我覺得我好像在和一個作弊的人打牌,好像它能看到我的牌一樣。我不是在指控它作弊,它就是那麼厲害。」

  德州撲克,其實是一種非完全信息的博弈,它的難度顯著高於完全信息博弈。Tuomas Sandholm教授團隊研發的Libratus在一個完全有利於人類棋手的場景設計下,依然以壓倒性的優勢,戰勝了人類最頂尖的選手。Tuomas Sandholm教授將海量的博弈場景簡化、抽象,尋找一個近似的納什均衡最終來實現一個基於博弈論的決策。

  Libratus包括了三個模塊,分別是賽前的遊戲規則抽取和納什均衡近似,賽中用到的殘局解算(Endgame Solving)以及持續自我強化。

  博弈論中的納什均衡主要指博弈雙方的理性參與者都不會有單獨改變策略的衝動,而該系統中採用納什均衡,使得不論對手用什麼樣的策略,都不能取勝。

  在前期尋求納什均衡的過程中,採用了CFR算法(Counterfactual Regret Minimization,反事實遺憾最小化)的強化學習。這是一個源自心理學的算法,即「如果當初做了另外一種選擇就好了」的反向思考方式。這種強調試錯的方法可以讓機器自己和自己玩大量的遊戲。

  通過CFR算法,Tuomas Sandholm向Libratus描述遊戲規則後,耗時幾個月,隨機訓練100萬億手牌,Libratus最終達到了足以挑戰最優秀人類選手的水平,還開發出了一些人類沒有的玩法。

  而在殘局解算中,Libratus的改進算法包括考慮對方所犯下的錯誤,儘早開始殘局解算,對手每出一招即實時展開殘局解算(Nested Endgame Solving)等等。

  而在持續自我強化模塊,Libratus在比賽的每晚不是分析對手的問題,而是總結自己當天的主要敗筆。這就好像人類每天總結自己的弱點,再進行針對性的彌補。這樣自己的弱點越來越少,給對手的可乘之機也越來越少。這種主動防守型的打法,最壞的結果就是雙方打成平手,所謂納什均衡追求的就是一種平衡。

  打開非完美信息世界之門

  上海財經大學交叉科學研究院院長、杉數科技首席科學家葛冬冬(左),不列顛哥倫比亞大學(UBC)Sauder商學院助理教授丁弋川(右)

  Libratus是博弈AI的最新成果,是該領域達到的最新高度。但這並不意味著Libratus就已經完美。Libratus針對的是一對一比賽的場景,主要是納什均衡即針對一對一對場景,在多人博弈場景下納什均衡就不太適用。此外,Libratus針對的是每場重置籌碼的比賽,而人類不重置籌碼的比賽也未必適用。

  儘管Libratus還有局限性,但Libratus至少打開非完美信息世界的大門。

  目前Libratus已經取得的成就,可以通過機器自動化的方式,在很多商業場景中幫助人類做出戰略決策和最優化策略選擇。這就是人工智慧夢寐以求的決策自動化。

  Tuomas Sandholm表示,如果機器能夠替代人類做出戰略決策,那麼結合深度學習,就可以形成自動化的學習-決策-再學習-再決策的閉環,這才是完整的人工智慧算法。

  上海財經大學教授、奧數金牌、杉數科技科學家何斯邁

  「在現在的數據化時代,要對數據進行量化管理。一個實際調度的管理問題,決策變量就有上百萬個,而且解決的實時性非常高,必須在秒級別把這個問題解決了。我們為了調度問題,專門設計一個算法,要求在一秒內能解決,像定價、庫存等決策問題,同時還需要考慮顧客行為。顧客行為就得去學,根據數據,去仔細研究客戶到底是怎麼去做決策,不一定按照書本上的行為模型去做,往往需要結合經濟學、行為性的知識去預測行為。」上海財經大學教授何斯邁說,「用Tuomas Sandholm教授這些框架,用均衡的想法,在商業活動中去爭取到更大的利潤。」

  何斯邁介紹了杉數科技在新零售行業,特別是收益和庫存管理中應用博弈論和人工智慧的例子。

  很多國內企業開始進入數位化和數據化時代,基於數據積累要開始量化管理,需要用到博弈AI算法。比如根據友商價格、顧客價格敏感度、顧客心理價位、季節性、產品替代及互補性、促銷及拉升效應等多種量價關係要素來進行動態博弈,解決方案包括使用網絡爬蟲及機器學習來捕捉友商實際價格及分析友商價格策略,分析產品市場定位(主導者/跟隨者/競爭者),再尋找遠期利益與近期利益的動態平衡點。

  何斯邁表示,現在商業企業的規模普遍很大,在一個調度管理問題的實例中,可能涉及的決策變量就有上百萬個,而且對實時性要求非常高,必須在秒級別完成上百萬個決策變量的問題求解。何斯邁一直在杉數科技進行這方面的工作。

  葛冬冬也強調,實際上,對整數規劃來說,哪怕只有幾百個變量,求解都非常困難,極端情況下最好的商業軟體也需要很長時間才能計算出來。然而在杉數科技等的推動下,特定類型問題中百萬級變量的整數規劃問題求解,可以在1秒鐘完成

  杉數這方面的進展,是與史丹福大學的葉蔭宇教授、喬治亞理工的藍光輝教授、上海財經大學的「Leaves」優化實驗室長期艱苦合作,才能實現特定場景下秒級百萬規模變量的最優化求解。

  Libratus這樣成熟的博弈AI算法並沒有行業領域的應用限制,再加上超大規模最優化問題秒級求解的工程化能力,就能在戰略定價、產品組合優化、金融、商業談判、業務戰略、下一代安全、拍賣、醫療健康等廣泛的非完美信息場景中,實現機器決策+機器學習的完整人工智慧體系。這將對商業、經濟和整個社會的發展帶來深遠影響。

  博弈AI大時代崛起

  清華大學交叉信息研究院青年千人助理教授、博士生導師、計算經濟學研究室主任唐平中

  從囚徒困境到智豬博弈再到美女的硬幣,博弈論一再說明一個道理,就是人類的思維不同於機器。特別由於人類的社會化屬性,但凡有兩個人以上的地方就充滿著博弈的思想。因為有人的地方就有競爭,有競爭就有博弈。

  唐平中表示,博弈論在西方已經有近90年的歷史,而在中國則是於近5年得到了廣泛的關注和應用。從2009年開始的網際網路廣告拍賣設計算法,使博弈論在國內經濟界得到了重視,如今國內工業界對博弈AI的算法也有大量的需求。究其原因,是人們在研究人工智慧的時候,發現僅處理針對機器的算法遠不能滿足實際商業的需求。現代商業中往往是「人+機器」的複雜場景,而博弈論恰好是針對人類的智能算法。

  葛冬冬介紹說,在杉數科技從事項目算法開發與實施的過程,發現很多現實中的商業問題不僅僅需要考慮最優化,很多時候還需要考慮到人類的行為,這些人類行為將給問題的解決帶來額外的難度。

  比如在考慮電商定價的時候,不僅要根據以前的歷史價格來計算未來的最優價格,還要考慮到顧客和競爭對手的反應。當價格低的時候,電商顧客會根據情況囤積自己的小庫存,便宜就多買、不便宜就少買或不買,同時競爭對手也會實時比價跟隨定價。因此,在新零售等場景中,不僅僅是數據驅動,還要考慮複雜情況下的顧客和競爭對手博弈等,這就應用了很多AI技巧。

  博弈AI的崛起,正是複雜商業需求驅動的結果。

相關焦點

  • AI讓人類多少才會贏?騰訊AI絕藝讓二子戰勝了柯潔
    聚焦AI,讀懂下一個大時代!【網易智能訊1月19日消息】前天,柯潔登錄騰訊野狐圍棋與世界冠軍末日鏖戰295手之後,最終以2目半戰而勝,此後,面對圍觀群眾的呼聲,柯潔與絕藝進行對戰。據了解,面對圍棋世界冠軍柯潔,騰訊AI讓二子,這瞬間讓這場棋局變的意義重大,大家在討論,AI到底讓人類多少才能贏?
  • 其實,ai不止是一項科技,更是一種文化,一種觀念
    其實,ai不止是一項科技,更是一種文化,一種觀念。自2016年alphago在圍棋系列賽中戰勝職業棋手以來,ai已經開始在某些領域中取得進展,並且在某些問題上實現了突破。在最近的新聞中,谷歌發布的兩張miranda照片不僅僅是事實,還再次為我們揭開了ai正在開始各領域進行科學研究的新面貌。
  • 谷歌阿爾法狗、IBM深藍戰勝世界冠軍後,AI辯手又贏了
    谷歌阿爾法狗、IBM深藍戰勝世界冠軍後,AI辯手又贏了 2018-09-13 21:05  科技互聯觀察員
  • AI是如何檢測色情片的?
    就像Stripe and Square為不想在內部處理支持的企業提供現成的支付解決方案一樣,而AWS已經確立了自己作為託管網站的地位,像Zeiler的Clarifai、DeLorge的Picnix、Shapiro的Lemay.ai等創業公司正在爭相成為在線內容審核的一站式解決方案提供商。
  • AI又贏了!人工智慧戰勝世界頂尖德州撲克選手
    新華社 Pluribus在六人桌德州撲克比賽中擊敗多名世界頂尖選手。美國卡內基·梅隆大學7月11日宣布,該校和臉書公司合作開發的人工智慧(AI)Pluribus在六人桌德州撲克比賽中擊敗多名世界頂尖選手,成為機器在多人遊戲中戰勝人類的一個裡程碑。
  • 微信AI圍棋絕殺同門師兄「絕藝」,國產AI圍棋崛起
    目前,PhoenixGo已經戰勝過200多位人類棋手,這次戰勝「絕藝」倒是出乎所有人的意外。認識PhoenixGo:曾被認為是百度、阿里、Zero養的「金毛」2018年初,PhoenixGo以Bensondarr等帳號在騰訊野狐圍棋上進行實戰,目前已經戰勝200多位棋手。
  • AI到底有多厲害?真的比人類還聰明嗎?答案你很難想得到
    真的比人類還聰明嗎?答案你很難想得到人工智慧擁有著過人的能力,它廣泛運用於許多科技試驗中,大到軍事,小到炒菜,只有我們想不到的,沒有人工智慧做不到的。的確,人工智慧的時代在我們不知不覺中就到來了,要說我們什麼時候開始關注AI,那大概就是在圍棋大賽上Master大戰國際圍棋第一高手柯潔開始,AI這個話題就緊緊地圍繞在我們生活中了,AI給我們的驚喜太多太多,在其發展壯大的同時,我們也會因此而感到細思極恐。要說AI有多有能耐?那我們就以谷歌的AI作品說起。
  • 阿爾法狗能否輕鬆戰勝war3玩家?
    一位玩家在貼吧提出了自己特立獨行的觀點,玩家表示自己擅長圍棋與war3,二者對比起來,常規玩家眼中異常複雜的war3機制,其實比之圍棋簡單太多,阿爾法狗等級的人工智慧在這類遊戲上想要戰勝玩家,比之在圍棋中戰勝玩家要簡單太多,圍棋三百多落點,每一枚棋子的下落都會帶來恐怖的變量,即便是人工智慧也難以碾壓人類。
  • 世界驚嘆!「阿爾法狗」戰勝了圍棋世界冠軍 人工智慧千億市場將引爆
    谷歌人工智慧軟體「阿爾法狗」中盤戰勝世界冠軍、圍棋職業棋手李世石九段。在此之前,圍棋是唯一沒有被計算機攻克的博弈遊戲項目,這次是計算機首次在分先(註:即不讓子,平手對局)的情況下戰勝人類頂尖棋手!3月9日中午,在韓國首爾四季酒店,一場別開生面的圍棋對決吸引了全球的目光。
  • AI又盯上德州撲克? 人工智慧首次戰勝職業玩家
    他的最後一個對手、世界冠軍古力留下兩個字:絕望。  在棋壇一騎絕塵之後,網友們依然不服輸:有本事就來跟我打麻將。而人工智慧真的來了,雖然挑戰的項目不是麻將,而是和麻將有相通之處的德州撲克。在運用深度學習,反覆自我博弈之後,DeepStack學會了在每一個具體情境出現時進行推理。  這非常接近人類玩家的「牌感」,即在當前情境下對個人牌面大小的感覺,並作出相應的決策。  那麼,這次勝利能夠說明人工智慧已經擁有了人類的直覺和推理能力嗎,能說人工智慧已經讀懂人心了嗎?
  • 阿爾法狗之後的圍棋世界
    )戰勝柯潔到現在,已經有一段時間了,現在圍棋AI戰勝人類已經不是公眾新聞,但就圍棋業內而言,還是有很多故事和變化在發生。▲柯潔 IT之家配圖(配圖來自柯潔微博)綜上,柯潔依然保持著對人類頂尖棋手的高勝率,回歸人間後更加得心應手,等級分屢創新高,世界第一的位置非常穩固,領先優勢也不斷擴大。當然,韓國第一的樸廷桓最近勝率也很好,等級分已經比很多歷史上的世界第一要高了,遠遠超過世界第三,然而很可惜,依然與柯潔相差甚遠。
  • 打「王者」的AI拿下了足球世界冠軍騰訊研發「AI+遊戲」意欲為何?
    日前,騰訊宣布,其人工智慧球隊摘得足球AI比賽----首屆谷歌足球Kaggle競賽冠軍,該冠軍球隊來自騰訊AI Lab研發的絕悟WeKick版本。騰訊方面表示,「AI+遊戲」是騰訊攻克AI終極研究難題——通用人工智慧(AGI)的關鍵一步。
  • 騰訊AI「絕藝」戰勝日本棋手,柯潔稱其理解能力已超越人類
    騰訊AI「絕藝」戰勝日本棋手,柯潔稱其理解能力已超越人類 澎湃新聞記者 王心馨 虞涵棋 2017-03-27 22:20
  • ai文件用什麼軟體打開_ai文件怎麼打開
    打開APP ai文件用什麼軟體打開_ai文件怎麼打開 胡哥 發表於 2012-10-16 11:31:57 後輟為ai的文件是illustrator軟體(在廣告、印刷包裝方面使用的軟體)製作的矢量圖文件,而矢量圖的優點是如何放大圖像都不會產生馬塞克現象,即不會虛。
  • 小狸AI英語課怎麼樣?掌門旗下小狸AI課測評:來爆料了!
    隨著智能時代的到來,針對低幼齡孩子的線上教育課程也開始採用ai技術,在斑馬ai課大熱之後,2019年下半年掌門教育也開始研發AI課,並在今年2月上線了小狸AI課app,今天,魚sir就來給大家調研測評一下掌門1對1旗下的小狸ai課怎麼樣?小狸ai英語的效果到底好不好。
  • 不按常理出牌,AI在多人桌德州撲克比賽中戰勝世界頂尖選手
    美國卡內基-梅隆大學7月11日宣布,該校和臉書公司合作開發的人工智慧(AI)Pluribus在六人桌德州撲克比賽中擊敗多名世界頂尖選手,成為機器在多人遊戲中戰勝人類的一個裡程碑。美國《科學》雜誌11日在線發表的相關論文顯示,Pluribus與13名德州撲克高手進行了1萬手不限注對局的六人桌比賽,每次比賽中由機器對5名人類選手,結果機器取得勝利。
  • 中國「阿法狗」來了 騰訊「絕藝」奪世界圍棋AI冠軍
    歷史上,電腦最早掌握的第一款經典遊戲是井字遊戲,這是1952年一位博士在讀生的研究項目;隨後是1994年電腦程式Chinook成功挑戰西洋跳棋遊戲;3年後,IBM深藍超級計算機在西洋棋比賽中戰勝世界冠軍加裡·卡斯帕羅夫。
  • 「阿爾法狗鬥」升級,美一公司研發出戰勝人類飛行員的 AI 戰鬥機
    據悉,人工智慧在五輪飛行中都戰勝了班格的飛機,但每次都延長了班格的生存時間。The Next Web報導,班格表示,在前四次被擊落後,他曾試圖調整自己的降落方式,將飛機加速到500英裡每小時,並將飛機降落到13,000英尺的高空。 班格說:「我們作為戰鬥機飛行員所做的標準操作並不奏效,所以這最後一次,我試著做些改變。
  • Facebook AI 正在升維突破:教AI像人類一樣理解三維世界
    研究團隊相信,通過加強對三維物體的了解,AI 可以更緊密地連接二維和三維世界,在計算機視覺領域扮演更重要的角色,推動 3D 列印、AR 和 VR 等技術在現實生活中的進步,將這些技術拓展到更廣泛的任務上,最終像人類一樣理解三維世界。
  • 全球三十大最佳 AI 創業公司公布
    科技巨頭大力推進技術研究和平臺建設,創業公司在摸索場景應用中快速崛起,早期項目也逐漸建立起自己的商業邏輯。 機器之心根據研究實力、技術與產品、市場與行業潛力、運營能力、資本與財務狀況、創新性與實用性等多項標準,評選出四項大獎:全球三十大最佳 AI 創業公司、中國十大最強 AI 研究實力企業、中國十大最具潛力早期 AI 公司、三十大最佳 AI 應用案例。Drive.ai、流利說、追一科技等GGV紀源資本被投企業入選榜單。