北京時間2月10日早間消息,隨著我們創造的人工智能(AI)能力的增長,我們必須評估它在不同情況下的行為。谷歌旗下位于倫敦的AI公司DeepMind做了一個大眾關心的研究:當兩個或多個AI具有類似或沖突的目標時,它們會內斗還是合作?
DeepMind的最新研究顯示,人工智能會根據所處環境改變行為方式,這與人類類似。
根據博弈論和社會學原理,DeepMind的計算機科學家研究了人工智能在不同社會環境下的行為。在這項研究中,他們發現,如果人工智能發現自己將要失敗,那么將會表現出“更激進的行為方式”。而如果可能的收益更大,那么人工智能將學會團隊合作。
在這項研究中,人工智能參與了兩種游戲:收集水果游戲,以及“群狼”狩獵游戲。這是兩款基本的2D游戲,操縱角色的人工智能與DeepMind用于Atari游戲最初的人工智能類似。
在收集水果游戲中,DeepMind利用深度增強學習去訓練系統收集蘋果。在收集到1個蘋果時,就可以獲得1分,而蘋果將從游戲地圖上消失。
為了擊敗游戲中的對手,人工智能需要向對手發射“光束”。在被擊中兩次后,玩家將在一段時間里被迫脫離游戲。在這個游戲中,擊敗對手的方法就是將其踢出游戲,收集所有的蘋果。
研究人員在論文中表示:“很直觀地,在這個游戲中擊敗對手的策略很激進,例如頻繁瞄準對手,試圖將其踢出游戲。”研究人員尤其觀察了,當剩余蘋果數量很少時,游戲中會發生什么情況。
在游戲中人工智能走出4000萬步之后,他們發現,當剩余資源(蘋果)較少,采取行動的成本(無法得分)較高時,人工智能會采取“非常激進的策略”。論文稱:“在資源豐富、行動成本較低的環境中,人工智能會采用不太激進的策略。而貪婪的動機反映了擊敗對手,獨吞所有蘋果的沖動。”
在另一款“群狼”游戲中,游戲中的兩個角色扮演狼,追蹤第三個角色,即獵物。當兩只狼接近獵物并最終捕獲獵物時,他們都可以得分。論文稱:“一只狼可以解決獵物,但獵物的尸體可能被食腐動物搶走。”兩只狼一同行動可以避免這樣的情況出現,從而得到較高的分數。
與收集水果游戲類似,人工智能也從這樣的環境中進行了學習。在這款游戲中,人工智能角色一同行動:要么是首先找到彼此,一同狩獵,要么是找到獵物,同時等待伙伴的到來。
這表明,人工智能可以在某些任務中合作,取得最佳結果。論文第一作者、DeepMind研究科學家喬爾·Z·勒博(Joel Z Leibo)表示:“目前,我們將人工智能合作的基本原理視為科學問題,這將指導未來我們對多人工智能的研究。”
“從長期來看,這類研究將幫助我們更好地理解和控制復雜多人工智能系統的行為,例如在解決經濟、交通和環境挑戰的過程中。”他表示,“這種模式也表明,類似人類行為的某些方面是環境和學習的產物。”開發能夠合作的人工智能將幫助人類制定政策,帶來現實世界應用。
|