在2017年5月23日,一場舉世矚目的「圍棋人機對抗賽」在浙江桐鄉打響,參賽雙方分別是當時等級分排名世界第一的中國棋手柯潔九段,以及谷歌公司研製的人工智慧程序AlphaGo(國內網友親切地稱之為「阿法狗」)。
當時柯潔執黑子,阿法狗執白子,在激戰3個半小時之久後,AlphaGo執白1/4子戰勝柯潔,世人沸騰。
在一局圍棋中,平均每一步的下法大約有200種可能,棋盤上可能出現的局面總數到了遠大於宇宙中原子總數的地步。
因此,通過暴力窮舉手段預測所有的可能情況,並從中篩選中最優勢走法的思路,不適用於圍棋AI。
AlphaGo選擇了別的下棋方式:支撐AlphaGo提高棋力,打敗人類選手的「秘訣」 有三個:深度神經網絡、監督強化學習、蒙特卡羅樹搜索。
深度神經網絡是包含超過一個認知層的計算機神經網絡。對於人工智慧而言,世界是被用數字的方式呈現的。人們將人工智慧設計出不同的「層」,來解決不同層級的認知任務。這種具備許多「層」的神經網絡,被稱為深度神經網絡。
AlphaGo包含兩種深度神經網絡:價值網絡和策略網絡。價值網絡使得AlphaGo能夠明晰局勢的判斷,左右全局「戰略」,拋棄不合適的路線;策略網絡使得AlphaGo能夠優化每一步落子,左右局部「戰術」,減少失誤。兩者結合在一起,使得AlphaGo不需要過於龐大的計算也能夠走出精妙的棋局,就像人類一樣。
監督學習和強化學習是機器學習方式的不同種類。監督學習是指機器通過人類輸入的信息進行學習,而加強學習是指機器自身收集環境中的相關信息作出判斷,並綜合成自己的「經驗」。在初始階段,AlphaGo收集研究者輸入的大量棋局數據,學習人類棋手的下法,形成自己獨特的判斷方式。之後,在不計其數的自己與自己模擬對弈,以及每一次與人類棋手對弈中,AlphaGo都能並根據結果來總結並生成新的範式,實現自我提高。
最後,蒙特卡洛樹是一種搜索算法。AI在利用它進行決策判斷時,會從根結點開始不斷選擇分支子結點,通過不斷的決策使得遊戲局勢向AI預測的最優點移動,直到模擬遊戲勝利。AI每一次的選擇都會同時產生多個可能性,它會進行仿真運算,推斷出可能的結果再做出決定。