下圍棋so easy,AlphaZero開始玩量子計算!

2020-12-03 新浪科技

來源:創事記

歡迎關注「創事記」微信訂閱號:sinachuangshiji

文/新智元

來源:新智元(ID:AI_era)

【新智元導讀】AlphaZero雖然在圍棋項目上戰勝了人類選手,但所需的大量算力使其很難走進尋常人的生活。最近,丹麥和德國的研究人員使用Deepmind的AlphaZero 開發了一種混合算法,將AlphaZero強大的搜索能力與量子計算有機結合起來,參數搜索速度大幅提升。

在過去的幾十年裡量子物理技術的探索中,最引人注目的就是量子計算機

量子計算機的能力,是所有現有的計算機組合加起來都無法匹敵。但到目前為止還沒有人能夠製造出一臺功能齊全的量子計算機。這就需要我們在控制量子系統的能力上向前跨一步。

為什麼 AlphaZero 能快人一步「預知未來」?

AlphaZero一開始是專門用來下圍棋的。圍棋的落子位置太多了大約有10170種。相比之下,西洋棋只有1043種可能的走位。

所以AlphaZero使用了一個深層的神經網絡,它學會了從一個特定的位置開始評估它獲勝的可能性。為了獲勝,AlphaZero有一個功能叫做蒙特卡洛樹搜索,這種方法能夠幫助它在遊戲中「預知未來」。

由於在所有可能策略中抽樣的可能性比較小,而且神經網絡只能近似估計,所以特別是在其訓練階段,蒙特卡洛樹搜索能夠極大地提高遊戲的準確性以及訓練效率。

這類似於職業棋手在下棋時能夠提前想幾步棋。訓練結果是相當驚人的,AlphaZero 很快就摧毀了專業遊戲軟體和人類玩家。例如,經過僅僅四個小時的自我對弈練習,AlphaZero 就在西洋棋中擊敗了領先的棋類軟體 Stockfish。而且這完全都是從零開始,一開始AlphaZero根本不知道遊戲規則。丹麥西洋棋大師Peter Heine Nielsen將其比作一個訪問過地球的高級外星物種。

目前AlphaZero 已經有效地在圍棋,西洋棋和星際爭霸中戰勝對手。AlphaZero成功的關鍵是將蒙特卡羅樹搜索和具有前瞻性的深度神經網絡結合起來。結果表明,從樹下方延展出來的預測信息極大地提高了深度神經網絡的精度,使預測結果更加準確集中,而非試探性的探索。

AlphaZero後發制人:30小時性能提高一個數量級

與普通計算機類似,量子計算機使用門操作(gate operations)來操縱其量子位。我們試圖通過構建分段恆定的脈衝序列來實現特定的門操作,即AlphaZero必須為每個時間步長(time-step)選擇一個脈衝幅度。物理系統在每個時間步長tj上都由一個4x4複雜的矩陣U(tj)進行數學描述,我們將其摺疊成一個長度為32的向量。這是神經網絡的輸入,如圖1所示。脈衝序列完成後,就可以將複數矩陣U(T)映射為一個實數,稱為仿真逼真度(fidelity)F,該實數的取值在0到1之間。從本質上講,仿真逼真度是一種概率度量,其中1表示100%成功。

圖1.AlphaZero使用的MCTS(左)和深度神經網絡(右)的圖示

左圖和右圖分別演示了 AlphaZero 的樹搜索和神經網絡。利用樹搜索中統一的搜索結果作為神經網絡的輸入項。神經網絡的上限輸出接近給定輸入狀態的現行策略,即 pa a pa a。同時,下限輸出提供了一個能夠預估期望最終報酬的值函數,即 v (st)(t) v (st) f (t)。在我們的工作中,我們發現以一致的形式向 AlphaZero 提供物理系統的完整信息,有利於提升它的性能,儘管這種方式可能比較難以調整以適應具有較大希爾伯特空間的系統。

神經網絡輸出一個值,該值是對最終仿真逼真度v≈F和一些移動概率p=(p1, p2, ...)的估計。兩者都在蒙特卡洛樹搜索中使用。樹由節點(狀態)和邊(狀態-動作對)組成。樹搜索從根節點開始,並通過在每個步驟中選擇動作來貫穿樹。選擇哪種行動,是通過比較每一個邊緣的內在屬性,以平衡勘探和開發的方式進行的。一旦探索到了邊緣,其內在屬性將根據搜索結果進行更新。

樹中的正向搜索將繼續,直到遇到一個以前未訪問過的節點,然後將該節點添加到樹中,並使用p初始化其邊緣。搜索中的所有訪問過的邊都將使用v在反向過程中更新。一旦執行了多次此類搜索,AlphaZero將確定一個操作並更新根節點,而丟棄樹的其餘部分。最後,基於樹搜索產生的數據對神經網絡進行更新,使得v接近保真度,並且移動概率增加了選擇更有希望動作的機會。

簡言之:蒙特卡洛樹搜索允許AlphaZero向前看幾步,從而可以在解決方案空間中進行更全面的搜索。這使得AlphaZero在長期策略至關重要的複雜任務中比大多數其他強化學習方法更具優勢。

成功實現AlphaZero之後,我們使用相同的算法超參數將其用於三個不同的量子控制問題。對於每個問題,我們將AlphaZero與更常規的算法進行了比較。例如,在圖2中,我們比較了AlphaZero和遺傳算法在50小時運行期間創建二進位脈衝的任務。在y軸上,我們繪製infidelity 1-F,這實際上是錯誤率(即越低越好)。最初,AlphaZero在學習量子力學關聯時表現不如遺傳算法,但是這個學習階段相當短。在30小時內,我們發現AlphaZero的性能比遺傳算法提高了一個數量級,並且具有大量獨特的高保真脈衝序列。

圖2.遺傳算法和AlphaZero在50小時運行期間的比較。在y軸上繪製了infidelity (1-F),這實際上是一個錯誤率

混合了AlphaZero的量子計算,搜索速度提升500倍

AlphaZero會輸給物理學家在過去15年不斷完善的高度量子化的優化算法並不奇怪。但是,如果AlphaZero死在這裡,會留下很多遺憾。

由於梯度優化算法沒有學習功能,意味著訓練過程中其性能沒有逐步提高,並且所有生成的數據都將被丟棄,而不是用於後續學習。

奧胡斯大學的團隊開始尋求一種混合算法:AlphaZero通過廣泛的探索生成了高可用的種子對象,隨後通過基於梯度的方法對它們進行優化,這種方法使解決方案的數量和質量都得到了極大的提高

實際上,AlphaZero和梯度優化解決了不同的問題:AlphaZero能學習到解決方案的基礎結構,梯度優化在種子解決方案周圍的局部空間中進行優化如果僅使用梯度優化,經過50小時的模擬,我們可能有兩個或三個有前途的解決方案,但通過我們的混合算法,可以獲得一千個

將功能強大的通用領域機器學習方法與人類專業知識、特定領域的蠻力計算相結合的結果令人振奮。西洋棋已經邁出了第一步,混合型人機團隊將專家知識和Stockfish引擎結合起來,可以同時勝過人類和算法。

最近Gary Marcus和Ernest David在他們的新書《重新啟動AI:構建我們可以信賴的人工智慧》中提出,將領域特定方法和領域通用方法與分層的受人類啟發的決策過程相結合,是未來構建強大的AI方法的核心元素之一。這可能會解決AlphaZero方法最直接的弊端之一:超參數很多,但僅在有限的範圍內有用。

在一些案例中,相同的超參數集在三種量子情況下均能很好地工作,當改變問題的設定,AlphaZero將無法解決。

量子計算機利用量子並行性大幅提高了計速度,但是問題再次出現:搜索空間的控制參數成指數級增長。AlphaZero實驗證明,神經網絡提供的近似和不完善的解決方案可以充當本地蠻力啟發式算法的強大種子生成器。

除了算法方面的優化設計,量子計算本身的性能也在飛速提升。

金子表面發現馬約拉納費米子,量子計算機時代要來了?

最近量子計算捷報頻傳。

丹麥、德國科學家奇思妙想用AlphaZero解決量子計算問題,MIT等科學家則在金子的表面,觀測到了馬約拉納費米子,從而在將粒子分離為穩定的、防錯的量子比特進行量子計算領域邁出了重要的一步,該結果發表在《美國國家科學院院刊》上。

在粒子物理學中,馬約拉納費米子是一類基本粒子,包括電子,質子,中子和夸克,它的反粒子就是它本身。由義大利理論物理學家Ettore Majorana在1937年首次提出。

馬約拉納費米子

然而不幸的是,這位物理學家提出該理論後不到一年時間,就在一次神秘的義大利海岸渡輪旅行中失蹤了。從此,大家就一直在尋找馬約拉納和他的馬約拉納費米子。最終,大家放棄了尋找馬約拉納,但卻從未停止尋找他的費米子。

現在,由MIT領導的團隊製造了在超導材料釩上生長的金納米線組成的材料表面,發現了接近零能量的特徵信號尖峰。顯然,根據目前的理論物理學來看,除了馬約拉那費米子對,沒有其他可能。

馬約拉納費米子將是理想的量子比特或量子計算機的單個計算單位,一個量子位將由成對的馬約拉那費米子組成,這是科學家長期以來,一直夢寐以求的材料!

如果該馬約拉納費米子被徹底證實,我們將提前步入量子計算時代!

參考連結:

https://aihub.org/2020/04/03/alphazero-learns-to-solve-quantum-problems/

https://www.nature.com/articles/s41534-019-0241-0

https://phys.org/news/2020-04-sighting-mysterious-majorana-fermion-common.html

相關焦點

  • 下圍棋so easy ,AlphaZero開始玩量子計算
    AlphaZero一開始是專門用來下圍棋的。圍棋的落子位置太多了大約有種。相比之下,西洋棋只有種可能的走位。 所以AlphaZero使用了一個深層的神經網絡,它學會了從一個特定的位置開始評估它獲勝的可能性。為了獲勝,AlphaZero有一個功能叫做蒙特卡洛樹搜索,這種方法能夠幫助它在遊戲中「預知未來」。
  • AlphaZero:從小白開始制霸多個遊戲
    2017 年底,DeepMind 推出了 AlphaZero——一個從零開始自學西洋棋、將棋和圍棋的系統。它最終在這三個領域都打敗了世界最頂尖的程序。DeepMind 為這些初步結果而感到興奮,也很高興看到棋壇社區成員的反應,他們在和 AlphaZero 的對戰中看到了一種靈活多變的「非常規」、突破性博弈風格,這種風格不同於之前的任何棋類程序。
  • 依據AlphaZero的混合算法,給量子核算帶來新的生機
    依據AlphaZero的混合算法,給量子核算帶來新的生機來歷:nature等AlphaZero儘管在圍棋項目上打敗了人類選手,但所需的許多算力使其很難走進尋常人的日子。但到現在為止還沒有人可以製造出一臺功用完全的量子核算機。這就需求我們在控制量子系統的才能上向前跨一步。為什麼 AlphaZero 能快人一步「預知未來」?AlphaZero一初步是專門用來下圍棋的。圍棋的落子方位太多了大約有種。相比之下,西洋棋只有種或許的走位。
  • 遊戲高手AlphaZero輕鬆解決量子計算機難題
    丹麥奧爾胡斯大學的研究人員將大名鼎鼎的人工智慧軟體AlphaZero嘗試解決量子計算機的函數優化問題,結果發現這個原本設計玩策略性遊戲的「遊戲高手」竟然無需專業人員的幹預輕鬆解決了問題。AlphaZero是谷歌旗下知名的人工智慧項目,曾打敗世界頂級象棋和圍棋大師而名聲大振。
  • 在量子尺度上玩圍棋
    一隊中國科學家對古老的遊戲圍棋進行了新的修改:將其縮小到了量子尺度。儘管遊戲本身是一個不尋常的量子實驗,但研究人員表示,這項工作可能預示著基於量子物理學的遊戲的新時代。在常規的圍棋遊戲中,玩家嘗試在棋盤上奪取領土
  • 棋類大師 AlphaZero 無師自通,「通用人工智慧」加速到來?
    這種算法不僅會從零開始學會下圍棋、西洋棋和將棋等,而且只需學習不到一天的時間就能擊敗擊敗了李世石的AlphaGo,擊敗頂尖西洋棋程序Stockfish以及頂水平的級將棋程序 Elmo。西洋棋大師尼爾森說:「我一直在猜想如果一個比我們出色的物種登陸地球,然後向我們展示他們是如何下西洋棋的話會是什麼樣的。我感覺現在我知道了。」
  • 上海交通大學金賢敏團隊研發量子圍棋,人工智慧或遇終極考驗
    近日,來自上海交通大學的金賢敏教授研究團隊開發了一種更加複雜的圍棋版本,研究人員利用光子糾纏模擬處於量子疊加狀態的棋子,開發出了量子力學版本的圍棋。通過量子力學中的固有隨機性,以增加圍棋遊戲不確定性。研究論文近日發表在 arXiv 預印本平臺。
  • AlphaZero學會控制量子計算機
    許多人知道,量子計算機是一種基於量子物理使用量子邏輯進行通用計算的設備。不同於電子計算機,量子計算用來存儲數據的對象是量子比特,它使用量子算法來進行數據操作。一個系統一次可以存在多個狀態。當翻譯成計算機語言時,這意味著量子計算機可以一次執行多個計算,這大大提高了計算速度。
  • 經濟學人| 量子計算背後的商機
    量子計算機還能加速優化問題的分析環節,優化問題指的就是試圖找出最佳辦法調控多個變量,以最大化特定結果這類問題。  這對運輸業(通過找出高效路線)和金融業(在一系列約束條件下將利潤最大化)而言都是一大福音。
  • 一個單詞搞定,so easy!
    一個單詞搞定,so easy!1)「活該」用英語怎麼說呢?在英語文化中有一句常用的俚語可以表示類似的意思。這個表達就叫做That's tough!有時候,你也可以直接說一個單詞—Tough!表示你「活該倒黴」,是不是很easy?看一下它對應的英文解釋吧。
  • 上海交大量子圍棋問世,英國皇家物理學會「點讚」論文一作女博士
    在此背景下,量子 AI 正在興起,相關研究人員已提出量子版本的機器學習算法,有的已進入實驗流程。而本次研究的主要思路,是把量子效應加入遊戲中,最終發現了量子物理和遊戲這兩個領域中的相似變量。研究使用的棋子,是以光子糾纏模擬處於量子疊加狀態的棋子,即量子棋子。
  • 上海交大量子圍棋問世,英國皇家物理學會「點讚」論文一作女博士
    遊戲中的不確定性,非常適合量子物理學中的疊加和糾纏等特徵。而量子圍棋的可調整維度,比傳統圍棋要大很多,它可以模擬各種難度的遊戲。在此背景下,量子 AI 正在興起,相關研究人員已提出量子版本的機器學習算法,有的已進入實驗流程。
  • AlphaZero誕生一周年:登上Science封面,完整論文首次公開
    具體來說,DeepMind公開了完整評估後的AlphaZero,不僅回顧、驗證了之前的結果,還補充了新的提升:除了圍棋,AlphaZero自學了另外兩種複雜棋類遊戲——西洋棋和日本將棋。論文中描述了AlphaZero如何從了解規則開始訓練,並快速學習每個遊戲成為高級玩家。博文中,Deepmind還請來了幾位AlphaZero的人類對手,比如,20年前,在「人機大戰」中被深藍打敗的前世界西洋棋冠軍加裡卡斯帕羅夫,描述了AlphaZero的棋術。
  • 量子測量:「上帝」開始玩骰子了
    說到量子測量,給大家的印象是:在量子世界,不論多少事情原則上只要有孫悟空的量子分身術,一下子變出千千萬萬個孫悟空,都可以輕而易舉地同時把它們都搞定,事實上不是這麼簡單的!量子計算機可以提高計算效率是有條件的,要對應於某些問題進行巧妙設計才行。
  • 【抗擊疫情公安在行動】防疫登記民警全程英語對話so easy
    【抗擊疫情公安在行動】防疫登記民警全程英語對話so easy 2020-02-22 22:11 來源:澎湃新聞·澎湃號·政務
  • So easy!
    So easy!首先我們的生日差三天,這個「差」,我們用apart表示。「我們生日差三天」英語就是:Our birthdays are three days apart。② The two exams are just a week apart, so I have to be prepared.這兩門考試只相隔一周,所以我必須做好準備。* 這裡的apart用於表示時間上相隔。
  • 量子計算和人工智慧的最佳時機相遇
    這是量子人工智慧研究的最佳時代!可以說,現在最關注的前沿科學技術是量子計算和人工智慧。阿爾法圍棋(Alpha Go)實際上擊敗了頂級圍棋選手,谷歌開發了一種量子計算機,聲稱能夠計算出10,000年的經典計算機...儘管這些消息有時有些噱頭,例如谷歌正在迅速成為朋友IBM指出,經典計算機只需要兩天半的時間就可以使用優化算法。
  • 你以為人類只有圍棋下不過阿爾法狗嗎?DOTA也玩不過它!
    前段時間,阿爾法狗戰勝圍棋天才李世石的消息在網上迅速走紅,當即很多網友稱,在以後,人類再也不能在圍棋界稱霸了,但是幸運的是,阿爾法狗研發公司稱,以後阿爾法狗不會在和人類進行圍棋比賽。可是,你真的以為只有圍棋你們下不過人工智慧機器人嗎?現在就連DOTA你也玩不過它!
  • 圍棋擊敗AlphaZero!各類遊戲測試碾壓前輩,谷歌DeepMind AI再添新員
    但是AlphaZero的優勢是知道它要玩的遊戲的規則。為了追求能夠自學遊戲規則的高性能機器學習模型,DeepMind設計了MuZero,它結合了基於樹的搜索(tree-based search)與學習模型,樹是一種數據結構,用於從集合中查找信息。
  • 從頭開始學習量子計算
    而量子計算機使用的是量子比特,一類遵循量子力學規律進行高速數學和邏輯運算、存儲及處理量子信息的物理裝置。 也就是說,當某個裝置處理和計算的是量子信息、運行的是量子算法時,它就是量子計算機。那麼如何系統的學習量子計算這一新興科學領域呢?下面我們從高中畢業生的知識水平開始做簡單介紹。