來源:智源社區
2016年,DeepMind 推出了第一個人工智慧程序 AlphaGo,在圍棋遊戲中擊敗人類。兩年後,它的繼任者AlphaZero從零開始學習圍棋、西洋棋和將棋。
現在,在《自然》雜誌的一篇論文中,DeepMind又帶來了 MuZero,這是在尋求通用人工智慧算法方面邁出的重要一步。
由於它能夠在未知環境中計劃勝利的策略,MuZero 掌握圍棋、西洋棋、shogi 和 Atari ,而不需要被告知遊戲規則。
一直以來,構建具有規劃能力的智能體是人工智慧領域的主要挑戰之一。此前,基於樹的規劃方法在西洋棋與圍棋等領域取得了巨大的成功。然而,在現實世界中,控制環境的動態變化(dynamics)通常是複雜且不可知的。因此,DeepMind團隊提出了MuZero算法,通過將基於樹的搜索與經過學習的模型相結合,可以在一系列具有挑戰性和視覺複雜的領域中,無需了解基本的動態變化即可實現超越人類的出色性能。
MuZero算法學習可迭代模型,該模型能夠產生與規劃相關的預測,包括動作選擇策略、價值函數和獎勵。據報導,在57種不同的Atari遊戲上進行評估時,MuZero算法獲得了最先進的性能。下圖是DeepMind遊戲AI的進化路徑。
AlphaZero 已經應用於化學、量子物理等領域的一系列複雜問題。而 MuZero 強大的學習和規划算法背後的理念,可能為應對機器人技術、工業系統以及其它遊戲規則尚不為人知的混亂現實環境中的新挑戰鋪平了道路。
谷歌AI啟動敏感話題審查,要求研究員在論文中「保持積極態度」
日前,來自路透社的一則報導稱,Google AI部門要求其研究人員在人工智慧的論文中給出「樂觀態度」的基調。這主要來自對包括面孔、性感分析,以及性別、種族、意識形態等在內的敏感話題類的研究論文增加的一道審查,在此之前研究人員還需要先諮詢法律、政策和公司的公關部門。該規定其中有一頁這樣寫道:「技術的進步和外部日益複雜的環境情況,導致看似有冒犯性的研究項目引發道德、聲譽、法律法規等問題。」
路透社稱,現無法確定詳細頒發日期,根據已知的三名現任員工給出的信息來看該規定始於今年6月。此外,員工還被多次要求「不要以消極的態度闡述技術」。比如,負責推薦算法論文的研究人員被告知「要格外小心,表現出積極的語氣」,該推薦算法主要用於YouTube等平臺上的內容進行個性化推薦。最終,該作者採取的措施為「將論文中有關谷歌產品的所有引用全部刪除」。
路透社還寫道,另一篇有關語言理解算法的論文「淡化了對Google Translate這一產品出錯的引用」,進行修改是為了響應審核人員的要求。
著作權歸原作者所有,轉載僅為學術分享,侵權刪。