2016年,AlphaGo戰勝韓國棋王李世乭,向全世界宣示了AI在遊戲領域的強悍實力。如今DeepMind又更上一層樓,向公眾介紹不必知曉規則,也能精通各式遊戲的AI模型MuZero,並有望用於降低YouTube的運營成本。
MuZero懂得遊玩數十款雅達利(Atari)電玩遊戲、西洋棋、圍棋及日本將棋,不過與它的前輩不同的是,以往沒有一款AI能夠同時精通電玩與棋盤類遊戲,且即使不告知它遊戲規則,也能在過程中自行領悟。
DeepMind曾於2019年首度披露MuZero的存在,但直到本周才正式於《自然》期刊上,發布論文介紹這項AI技術的細節。DeepMind指出,MuZero在各式遊戲中都有頂尖表現,並展現出對未知環境的掌握能力。
懂得自行學習遊戲規則,MuZero能以有限信息做出最佳決策
「我們只是告訴系統說,用你自己構建的認知,去了解這個世界怎麼運行。」DeepMind計算機科學家大衛.希弗(David Silver)表示,「只要內部的理解成功對上了某個現實事物,那我們就滿意了。」
根據DeepMind披露的信息,MuZero的運行方式是為它所遊玩的遊戲創建一個模型,然後依照模型規劃出遊戲中最好的策略、下一步,然後通過遊玩不斷優化這個模型。
MuZero的設計理念是考慮到現實應用環境,算法不必全盤了解所有規範、準則,並創建一個100%準確的模型,而是需要在有限的信息下,達到「夠用」的程度。
與前輩AlphaGo、AlphaZero相比,MuZero能夠在沒被告知遊戲規則的情況下,精通各式遊戲。
例如,在瞬息萬變的電玩遊戲中,AI沒有充足時間解析所有可能性,但在小精靈這類遊戲中,即使只從6、7種選擇中找出最佳路徑,MuZero依舊能取得非常好的成績;而在下圍棋時,MuZero也能以較少的運算量,達到比AlphaZero更好的結果。
DeepMind解釋,具體來說MuZero會對依照三種環境要素創建模型,一是當前位置、狀況的好壞,二是最好的下一步是什麼,三是最後的結果如何。如同搭建一幅樹狀圖般,AI利用深度學習理解各個行動最後會有怎樣的結果。
MuZero有辦法從數個可能選項中,找出最好的下一步怎麼走。
希弗指出,「現實世界非常複雜混亂,沒有一本手冊告訴我們他是怎麼運行的,但人類卻可以規劃出接下來該怎麼做。」若以DeepMind的舉例來說,當看到烏雲密布的天空,預測有下雨的可能性,就會決定攜帶雨傘出門。
「這是我們首次擁有一個有辦法創建自己對世界的見解,據此做出複雜前瞻性決策的系統。」希弗提到,「(AI)可以從完全沒有先備知識的條件下開始,經由反覆測試學習世界規則,並展現出超越人類的表現。」
壓縮視頻比當代技術更厲害,MuZero有望用於降低YouTube運營成本
由於是如此突破性的AI技術,DeepMind也持續尋找它適合擔綱的工作,目前表現最好的是視頻壓縮,用類似MuZero的算法實驗後發現,它的表現比以往最好的壓縮法節省5%網絡流量。
希弗解釋,網絡上資料流量絕大部分是由視頻貢獻,倘若能夠有效壓縮視頻,便可縮減經營成本。根據思科的資料,預估到2022年時,視頻將佔據全球82%的網絡流量。
英國媒體《BBC》指出,MuZero找到的新視頻壓縮方式,也有望用於降低YouTube的運營成本,不過DeepMind暫時不願透露Google何時會利用這項技術,僅聲稱明年會有更多細節公布。
視頻已佔據全球網絡流量的大多數,《BBC》認為,YouTube有望利用MuZero的壓縮視頻技術,節省運營成本。
不單用於視頻壓縮上潛力無窮,MuZero也被認為有助於打造虛擬管家、機器人,甚至強化前陣子DeepMind宣布取得突破性進展的蛋白質摺疊預測能力。
DeepMind一直渴望利用AI對世界做出貢獻,MuZero能夠依照有限信息做出最佳判斷的能力,是AI走出屏幕進入現實的重要裡程碑。就如他們提到的,「知道撐傘能讓你免於淋溼,比分析空氣中的雨滴模型更有價值。」
特別聲明:以上內容(如有圖片或視頻亦包括在內)為自媒體平臺「網易號」用戶上傳並發布,本平臺僅提供信息存儲服務。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.