大數據文摘出品
作者:曹培信
人們通常會派出最強大的選手和場景訓練人工智慧,但是,智能體如何應對訓練中故意碰瓷兒的「弱」對手呢?
來看看下邊的兩個場景:兩個AI智能體正在「訓練場「進行一場激烈的足球賽,一個守門、一個射門。當守門員忽然自己摔倒,攻方沒有選擇乘勝追擊,也忽然不知所措了起來。
在相撲的規則下也一樣,當其中一個隊員開始不按套路出牌時,另一個對手也亂作一團,雙方立刻開始毫無規則扭打在一起。
這樣「人工智障」的場景可不是隨意配置的遊戲,而是一項對AI對抗訓練的研究。
我們知道,通常情況下,智能體都是通過相互對抗來訓練的,無論是下圍棋的阿法狗還是玩星際爭霸的AlphaStar,都是通過海量的對局來訓練自己的模型,從而探索出獲勝之道。
但是試想一下,如果給阿法狗的訓練數據都是圍棋小白亂下的對局,給AlphaStar提供的是小學生局,結果會是如何?
近期,來自伯克利的研究人員就進行了這樣的實驗。紅色機器人與已經是專家級別的藍色機器人進行對抗訓練,紅色機器人採取一定的對抗策略攻擊藍色機器人進行的深度學習。這項研究的論文作者也在NIPS大會上對該研究進行了展示。
論文連結:
https://arxiv.org/pdf/1905.10615.pdf
在實驗中,紅色機器人為了不讓藍色機器人繼續從對抗中學習,沒有按照應有的方式玩遊戲,而是開始「亂舞」起來,結果,藍色機器人開始玩得很糟糕,像喝醉了的海盜一樣來回搖晃,輸掉的遊戲數量是正常情況下的兩倍。
研究發現,在採取對抗性政策的對局中,獲勝不是努力成為一般意義上的強者,而是採取迷惑對手的行動。研究人員通過對對手行為的定性觀察來驗證這一點,並發現當被欺騙的AI在對對手視而不見時,其表現會有所改善。
我們都知道,讓人工智慧變得更聰明的一個方法是讓它從環境中學習,例如,未來的自動駕駛可能比人類更善於識別街道標誌和避開行人,因為它們可以通過海量的視頻獲得更多的經驗。
但是如果有人利用這一方式進行研究中所示的「對抗性攻擊」 ——通過巧妙而精確地修改圖像,那麼你就可以愚弄人工智慧,讓它對圖像產生錯誤的理解。例如,在一個停車標誌上貼上幾個貼紙可能被視為限速標誌,同時這項新的研究也表明,人工智慧不僅會被愚弄,看到不該看到的東西,還會以不該看到的方式行事。
這給基於深度學習的人工智慧應用敲響了一個警鐘,這種對抗性的攻擊可能會給自動駕駛、金融交易或產品推薦系統帶來現實問題。
論文指出,在這些安全關鍵型的系統中,像這樣的攻擊最受關注,標準做法是驗證模型,然後凍結它,以確保部署的模型不會因再訓練而產生任何新問題。
因此,這項研究中的攻擊行為也真實地反映了在現實環境中,例如在自動駕駛車輛中看到的深度學習訓練策略,此外,即使被攻擊目標使用持續學習,也會有針對固定攻擊目標進行訓練的策略,攻擊者可以對目標使用模擬學習來生成攻擊模型。
或者,在自動駕駛車輛,攻擊者可以通過購買系統的副本並定期在工廠重置它,一旦針對目標訓練出了敵對策略,攻擊者就可以將此策略傳輸到目標,並利用它直到攻擊成功為止。
研究也對今後的工作提出了一些方向:深度學習策略容易受到攻擊,這突出了有效防禦的必要性,因此在系統激活時可以使用密度模型檢測到可能的對抗性攻擊,在這種情況下,還可以及時退回到保守策略。