2018.07.06 17:46 臺北時間

比人類隊友更靠譜? DeepMind的AI會玩雷神之鎚3了

在訓練中,每一場比賽地圖都會不同。因此,智慧體不得不學習一種通用的策略,而不是記住特定的地圖或技巧。
在訓練中,每一場比賽地圖都會不同。因此,智慧體不得不學習一種通用的策略,而不是記住特定的地圖或技巧。
AI正在幫助我們持續地優化遊戲體驗。目前,AI能夠讓NPC更真實的運動和打鬥,賦予遊戲中的半獸人以人格和逼真的外表。現在DeepMind的AI能像人類一樣,通過戰略、戰術和團隊協作玩畫面定製版的雷神之錘3了。
該團隊選擇了奪旗模式(Capture The Flag,CTF)進行訓練。在該模式下,每一場遊戲地圖都會變化。AI智慧體需要學習通用的策略,來適應每一場比賽的新地圖。這對人類來說當然很容易。這些智慧體還需要團隊合作並與敵隊競爭,針對敵情調整遊戲策略研究人員在blog中寫道:「我們的AI智慧體必須要在未知的環境下從頭學習如何觀察、行動、合作和競爭,這一切都是從每場比賽中的單個強化信號——隊伍贏了還是輸了學到的。」他們訓練了許多像人類一樣能在遊戲中不斷學習的AI智慧體,每一個智慧體都由一個內部獎勵信號來驅動,這個信號可以驅使他們實現目標,比如獲取旗子。智慧體們在快節奏和慢節奏的比賽下互相比賽,並與人類玩家競賽,來提高他們的記憶能力,讓行為始終一致。研究者發現, 遊戲中AI智慧體不但比人類更出色,而且也學會了一些人類行為,如跟隨隊友,或者埋伏在敵人基地等。
本次研究的亮點在於,只以成績獎懲信號學習,通過多智慧體強化學習,訓練出在複雜條件下支持人機、機器之間協作的高適應性智慧體。

遊戲規則

CTF奪旗賽的規則很簡單,不過遊戲狀況卻很複雜。兩隊玩家在一個地圖裡保護己方,搶奪敵方的旗子。為了獲得戰術優勢,他們可以碰觸敵人,讓他們跳回出生點。在5分鐘比賽後,奪旗次數最多的隊伍獲勝。本次研究使用的遊戲是雷神之錘3競技場。它是許多第一人稱視角多人遊戲的鼻祖,由於其沉浸式遊戲體驗和對戰略、戰術、手眼協調和團隊協作的挑戰,目前這是最流行的一類遊戲,吸引了數以百萬計的玩家。遊戲中智慧體需要像人類一樣學習和行動,通過團隊協作共同抗擊敵隊的智慧體、其他類AI機器人或人類。從智慧體的視角,奪旗賽不但需要玩家在與隊友協作的同時抗擊敵人,而且還要能夠適應各種不同的遊戲狀況。

訓練方式

在訓練中,每一場比賽地圖都會不同。因此,智慧體不得不學習一種通用的策略,而不是記住特定的地圖或技巧。此外,為了模仿真實遊戲情況,智慧體探索地圖的方式與人類類似:先觀察一系列圖片圖元,然後通過遊戲控制器實現動作。
AI智慧體必須要在未知的環境下從頭學習如何觀察、行動、合作和競爭,這一切都是從每場比賽中的單個強化信號——隊伍贏了還是輸了習得的。這是個有挑戰的學習問題,最終結果基於三個強化學習的通用原則:
訓練一群相互遊戲的智能體,來保證隊友和敵人的多樣性。
每個智慧體通過自己內部的獎勵信號進行學習。這些信號能說明智慧體制定自己的目標,比如去奪旗。一個兩級的優化過程直接優化智慧體獲勝的內部獎勵,並使用強化學習來鼓勵智慧體學習策略。
智慧體們在快速和慢速兩個時間節奏下被訓練,這樣能夠增強其記憶,使得其行為前後一致。
最終形成智能體被叫做 「For The Win」(簡稱FTW),在奪旗賽中有高水準表現。重要的是,習得的智慧體策略能夠適應不同地圖尺寸、隊友種類和隊友數量。團隊選定40個人類玩家進行了一場人機錦標賽。比賽中人類和智慧體會被隨機混合組隊,作為隊友和敵人。

訓練結果

論文結果表明,FTW智慧體的表現比基線方法(Self-play + RS )更好,並且超過了人類玩家的勝率。事實上,對參與者的調查顯示,智慧體的協作能力比人類玩家更好。

理解智慧體

除了結果評估,理解這些智慧體的行為和內部遊戲表示複雜度也同樣重要。為了理解智慧體,DeepMind將智慧體的神經網路畫在平面上,觀察其啟動模式。上圖中的點表示一種遊戲情形,周圍鄰近的點表示它們具有類似的啟動模式。這些點的顏色是根據高級別奪旗賽的比賽狀態標注的,狀態包括:智慧體所在房間、雙方旗子的狀態、隊友和敵人的情況。相同顏色的一簇點表示智慧體處在相似的高級遊戲狀態中。
從來沒有人告訴這些智慧體遊戲規則,但智慧體卻能學習出遊戲的基本概念,併發展出對奪旗賽的直觀解釋。觀察發現,特定的神經元將比賽中的重要狀態直接編碼,比如當旗子被奪走,或者當隊友拿到旗子時。論文中還對智慧體的記憶使用和視覺注意力進行了進一步分析。除了那些豐富的表徵,那麼智慧體的實際表現如何呢?首先,智慧體的反應速度非常快,且有精確的命中,這可以解釋他們出色發揮的原因。然而,人工降低這個準確率和反應時間,他們的表現依舊不俗。所以這些都只是它們成功的因素之一而已。
通過無監督學習,DeepMind建立了一個智慧體和人類的原型行為,發現智慧體能夠學習出人類行為,比如跟隨隊友和在敵營埋伏。跟隨隊友等行為起初在通過強化學習和群體演化的訓練中出現。但當智慧體學習以更互補的方式「創新」合作時,這些行為就變少了。

總結

近期科學家們在複雜遊戲如星際爭霸2和Dota 2上做了非常棒的工作,而這篇論文則聚焦於奪旗遊戲,但其研究貢獻是通用的,DeepMind也期待該方法用在不同的複雜環境中。未來,DeepMind還希望進一步提升當前的強化學習和基於群體的訓練方法。該研究強調了多智慧體訓練促進人工智慧發展的潛力:利用多智慧體訓練提供的力量,並推動更高適應性的強大智慧體和人類團隊合作。
本文係由DeepTech深科技授權刊登。原文連結:比人类队友更靠谱?DeepMind 的 AI 会玩多人游戏雷神之锤 3 了!
更新時間|2023.09.12 20:27 臺北時間

支持鏡週刊

小心意大意義
小額贊助鏡週刊!

每月 $49 元全站看到飽
暢享無廣告閱讀體驗

延伸閱讀

更多內容,歡迎 鏡週刊紙本雜誌鏡週刊數位訂閱了解內容授權資訊

月費、年費會員免費線上閱讀動態雜誌

線上閱讀

更多內容,歡迎 鏡週刊紙本雜誌鏡週刊數位訂閱了解內容授權資訊

月費、年費會員免費線上閱讀動態雜誌

線上閱讀