china0114.com-日韩欧美中文免费,免费视频一区,免费视频一区,国产精品色网

公眾號
關注微信公眾號
移動端
創頭條企服版APP

決策 AI 版 “大球吃小球”Go-Bigger 發布!無需繁雜代碼也能設計游戲 AI 智能體

7536
動點科技 2021-10-29 11:01 搶發第一評

多智能體對抗作為決策 AI 中重要的部分,也是強化學習領域的難題之一。為豐富多智能體對抗環境,OpenDILab(開源決策智能平臺)開源了一款多智能體對抗競技游戲環境——Go-Bigger。同時,Go-Bigger 還可作為強化學習環境協助多智能體決策 AI 研究。

與風靡全球的agar.io、球球大作戰等游戲類似,在 Go-Bigger 中,玩家(AI)控制地圖中的一個或多個圓形球,通過吃食物球和其他比玩家球小的單位來盡可能獲得更多重量,并需避免被更大的球吃掉。每個玩家開始僅有一個球,當球達到足夠大時,玩家可使其分裂、吐孢子或融合,和同伴完美配合來輸出博弈策略,并通過 AI 技術來操控智能體由小到大地進化,憑借對團隊中多智能體的策略控制來吃掉盡可能多的敵人,從而讓己方變得更強大并獲得最終勝利。

四類小球,挑戰不同決策路徑

Go-Bigger 采用 Free For All(FFA)模式來進行比賽。比賽開始時,每個玩家僅有一個初始球。通過移動該球,玩家可吃掉地圖上的其他單位來獲取更大的重量。每個隊伍都需和其他所有隊伍進行對抗,每局比賽持續十分鐘。比賽結束后,以每個隊伍最終獲得的重量來進行排名。

在一局比賽中共有分身球、孢子球、食物球、荊棘球四類球。分身球是玩家在游戲中控制移動或者技能釋放的球,可以通過覆蓋其他球的中心點來吃掉比自己小的球;孢子球由玩家的分身球發射產生,會留在地圖上且可被其他玩家吃掉;食物球是游戲中的中立資源,其數量會保持動態平衡。如玩家的分身球吃了一個食物球,食物球的重量將被傳遞到分身球;荊棘球也是游戲中的中立資源,其尺寸更大、數量更少。如玩家的分身球吃了一個荊棘球,荊棘球的大小將被傳遞到分身球,同時分身球會爆炸并分裂成多個分身。此外,荊棘球可通過吃掉孢子球而被玩家移動。

分身球

團隊緊密配合,實現合理重量傳遞

在 Go-Bigger 中,團隊內部的合作和外部的競技對于最終的成績至關重要。因此,Go-Bigger 設計了一系列的規則來提高團隊所能帶來的收益。由于玩家的分身球重量越小,移動速度越快,更多的分身可以保證快速發育,但是會面臨被其他玩家吃掉的風險。同時,冷卻期的存在使得玩家無法靠自身擺脫這樣的風險。因此,同一隊伍中不同玩家的配合尤為關鍵。

為便于團隊內玩家的配合,Go-Bigger 設置了玩家無法被同隊伍完全吃掉的規則。Go-Bigger 還設置了單個分身球的重量上限和重量衰減,使得單一分身球無法保持過大重量,迫使其分裂以減少重量損失。在游戲后期,團隊內部的重量傳遞會顯得至關重要,合理的重量傳遞可以保證團隊在與其他隊伍對抗時獲得更大的優勢。

支持 RL 環境,提供三種交互模式

此外,為幫助用戶在強化學習領域的多智能體策略學習,Go-Bigger 也提供了符合 gym.Env 標準的接口供其使用。在一局游戲中,Go-Bigger 默認設置含有 20 個狀態幀和 5 個動作幀。每個狀態幀都會對當前地圖內所有單位進行仿真和狀態處理,而動作幀會在此基礎上,附加對單位的動作控制,即改變單位的速度、方向等屬性,或使單位啟用分裂、發射或停止等技能。

為了更方便地對環境進行探索,Go-Bigger 還提供了必要的可視化工具。在與環境進行交互的時候,可以直接保存本局包含全局視角及各個玩家視角的錄像。此外,Go-Bigger 提供了單人全局視野、雙人全局視野、單人局部視野三種人機交互模式,使得用戶可以快速了解環境規則。

三步走,快速搭建強化學習 baseline

算法 baseline 的目的是驗證某個問題環境使用強化學習算法的初步效果,對各個環節的信息做簡單梳理和分析,熟悉之后便可輕松上手比賽,在環境、算法、算力上逐步增加復雜度,設計迭代效果更強的智能體。

Go-Bigger 環境的強化學習算法 baseline 主要分為環境瘦身、基礎算法選擇、定制訓練流程三部分。其中,環境瘦身即將原始游戲環境簡化成適用于強化學習的標準環境格式;基礎算法選擇指根據環境的基本信息選擇合理的基礎 RL 算法;定制訓練流程指根據環境的特殊特征定制訓練流程。

  1. 環境瘦身
  2. 人類視角的 Go-Bigger(上)S. 翻譯成游戲引擎中的結構化信息(下):

這些人理解起來很簡單的數據表示,對計算機和神經網絡卻非常不友好,因此需要專門對這些信息做一定的加工,并根據強化學習的特性設置成標準的強化學習環境觀察空間。

  • 特征工程:
  • 原始的游戲數據需要表達游戲內容,其數值范圍波動便會較大(比如從幾十到幾萬的球體大小),直接將這樣的信息輸入給神經網絡會造成訓練的不穩定,所以需要根據信息的具體特征進行一定的處理(比如歸一化,離散化,取對數坐標等等)。
  • 對于類別信息等特征,不能直接用原始的數值作為輸入,常見的做法是將這樣的信息進行獨熱編碼,映射到一個兩兩之間距離相等的表示空間。

  • 對于坐標等信息,使用絕對坐標會帶來一些映射關系的不一致問題,相對坐標通常是更好的解決方式。
  • 從 RGB 圖像到特征圖像層

直接將原始的 RGB 2D 圖像信息輸入神經網絡,盡管結果尚可,但需要更多的數據、更長的訓練時間,以及更復雜的訓練技巧。更為簡明并有效的方式是進行 “升維”,即將耦合在一起的圖像信息離解成多個分離的特征圖像層。最終根據游戲內容定義出具體的特征圖像層,并區分各個玩家的局部視野,拼接后構成總體的特征圖像層。下圖為一玩家視野中食物球的特征圖像層:

  • 可變維度

Go-Bigger 環境中存在很多可變維度的地方,為了簡化,baseline 環境中強行截斷了單位數量,用統一的方式來規避可變維度問題。

  1. 設計動作空間

Go-Bigger 對于人類來說操作起來十分簡單,包括上下左右 QWE,這些基本的按鍵組合起來便可以誕生出許多有趣的操作,如十面埋伏、大快朵頤等。但是,游戲引擎中實際的動作空間是這樣的(動作類型 + 動作參數):

游戲引擎的這種形式在強化學習中被稱作混合動作空間,也有相應的算法來處理該問題。但基于 baseline 一切從簡這一核心,通過使用比較簡單粗暴的離散化處理,將連續的動作參數(x,y 坐標)離散化為上下左右四個方向。針對動作類型和動作參數的組合,也簡單使用二者的笛卡爾積來表示,最終將環境定義為一個 16 維的離散動作空間。

  1. 設計獎勵函數

獎勵函數定義了強化學習優化的目標方向。Go-Bigger 是一項關于比誰的隊伍更大的對抗游戲,因此獎勵函數的定義也非常簡單,即相鄰兩幀整個隊伍的大小之差。

如下圖所示兩張表示相鄰兩個動作幀,右側計分板顯示各個隊伍實時的大小數值,將當前幀的大小減去上一幀的大小,就定義得到了獎勵值。而對于整場比賽,則使用每一步獎勵的累加和作為最終的評價值。評價值最大的隊伍,將贏得本局比賽。此外,在訓練時,還通過縮放和截斷等手段將獎勵值限制在 [-1, 1] 范圍內。

  1. 基礎算法選擇

在完成對 RL 環境的魔改之后,會呈現如下基本信息:

  • 多模態觀察空間:圖像信息 + 單位屬性信息 + 全局信息
  • 離散動作空間:16 維離散動作
  • 獎勵函數:稠密的獎勵函數,且取值已經處理到 [-1, 1]
  • 終止狀態:并無真正意義上的終止狀態,僅限制比賽的最長時間

對于這樣的環境,可用最經典的 DQN 算法 + 多模態編碼器神經網絡來實現。對于各種模態的觀察信息,使用數據對應的經典神經網絡架構即可。例如,對于圖像信息,選擇一個帶降采樣的卷積神經網絡將 2D 圖像編碼為特征向量;對于單位屬性信息,需要建模各個單位之間的聯系,獲得最終的單位特征向量;對于全局信息,則使用由全連接層構成的多層感知機。在各部分編碼完成之后,將三部分的特征拼接在一起,將構成時間步的觀察特征向量,以復用最經典的 Dueling DQN 結構。以特征向量為輸入,輸出這一步選擇 16 個動作的 Q 值,并使用 N-step TD 損失函數即可完成相應訓練的優化。完整的神經網絡結構如下圖所示。

  1. 定制訓練流程

DQN 通常只用來解決單智能體的問題,而在 Go-Bigger 中一支隊伍會存在多個玩家,且一局比賽為多個隊伍混戰,因此會涉及多智能體之間合作和對抗等問題。在多智能體強化學習領域,針對該問題可展開諸多的研究方向,但為簡化設計 Go-Bigger 使用了 Independent Q-Learning(IQL)+ 自我對戰(Self-Play)的方式來實現訓練流程。

例如,對于一個隊伍中的多個智能體,團隊的最終目標是讓整個隊伍(總體積/總體量/總重量)的大小最大,因此在 baseline 中可使用 IQL 算法來實現,以高度并行化地實現整個優化過程;對于實際一局比賽中存在多個智能體的情況,則可使用樸素的自我對戰(Self-Play)這一相當簡單且非常節省算力的方式來參與比賽。評測時,會將隨機機器人和基于規則的機器人作為比賽的對手,測試驗證目前智能體的性能。

Tips:

  • 使用更高級的自我對戰(Self-Play)算法(比如保存智能體的中間歷史版本,或使用 PFSP 算法);
  • 構建 League Training 流程,不同隊伍使用不同的策略,不斷進化博弈;
  • 設計基于規則的輔助機器人參與到訓練中,幫助智能體發現弱點,學習新技能,可作為預訓練的標簽或 League Training 中的對手,也可構造蒸餾訓練方法的老師,請玩家盡情腦洞。

從零開始實現上述算法和訓練流程非常復雜,而通過決策智能框架 DI-engine(https://github.com/opendilab/DI-engine)可大大簡化相應內容。其內部已經集成了支持多智能體的 DQN 算法實現和一系列相關訣竅,以及玩家自我對戰和對抗機器人的訓練組件,只需實現相應的環境封裝,神經網絡模型和訓練主函數即可(詳細代碼參考https://github.com/opendilab/GoBigger-Challenge-2021/tree/main/di_baseline)。

幾個有意思的發現

通過上述簡單基線算法訓練出來的初級 AI 在在發育階段會將球盡量分開,以增大接觸面加快發育;在面對潛在的危險時,會避開比自身大的球,并使用分裂技能加快移動速度,防止被吃掉。這些操作都是在人類玩家的游戲過程中經常用到的小技巧。

為了進一步推動決策智能相關領域的技術人才培養,打造全球領先的原創決策 AI 開源技術生態,OpenDILab(開源決策智能平臺)將發起首屆 Go-Bigger 多智能體決策 AI 挑戰賽(Go-Bigger: Multi-Agent Decision Intelligence Challenge)。本次比賽將于 2021 年 11 月正式啟動,使用由 OpenDILab 開源的 Go-Bigger(https://github.com/opendilab/GoBigger)游戲環境。希望集結全球技術開發者和在校學生,共同探索多智能體博弈的研究。歡迎對 AI 技術抱有濃厚興趣的選手踴躍參加,和全球的頂尖高手一決勝負!

聲明:該文章版權歸原作者所有,轉載目的在于傳遞更多信息,并不代表本網贊同其觀點和對其真實性負責。如涉及作品內容、版權和其它問題,請在30日內與本網聯系。
您閱讀這篇文章花了0
轉發這篇文章只需要1秒鐘
喜歡這篇 2
評論一下 0
凱派爾知識產權全新業務全面上線
相關文章
評論
試試以這些內容開始評論吧
登錄后發表評論
凱派爾知識產權全新業務全面上線
寧波城市站
金華城市站
×
#熱門搜索#
精選雙創服務
歷史搜索 清空

Tel:18514777506

關注微信公眾號

創頭條企服版APP

china0114.com-日韩欧美中文免费,免费视频一区,免费视频一区,国产精品色网
久久精品视频网| 一区免费观看视频| 亚洲国产精品激情在线观看| 亚洲最大成人网4388xx| 久久草av在线| 欧美中文字幕一区二区三区亚洲 | 日韩一级免费观看| 亚洲视频在线观看三级| 精品一区二区三区香蕉蜜桃| 在线观看av一区二区| 国产欧美一区二区在线观看| 日韩中文字幕麻豆| 色婷婷久久一区二区三区麻豆| 久久久www成人免费毛片麻豆| 亚洲成人三级小说| 色综合久久综合网欧美综合网| 久久亚洲综合av| 日韩一区精品字幕| 在线观看不卡一区| 中文字幕在线观看不卡视频| 国产一区二区按摩在线观看| 日韩三区在线观看| 香蕉影视欧美成人| 色菇凉天天综合网| 最新久久zyz资源站| 国产成人久久精品77777最新版本| 欧美电影免费提供在线观看| 日韩精品欧美精品| 欧美日韩一区高清| 亚洲在线中文字幕| 日本电影亚洲天堂一区| 国产精品第五页| 国产91高潮流白浆在线麻豆| 欧美sm美女调教| 美女看a上一区| 欧美一区午夜精品| 日韩一区精品视频| 欧美肥妇free| 五月激情丁香一区二区三区| 欧美在线视频不卡| 亚洲综合清纯丝袜自拍| 色婷婷av一区二区| 亚洲精品成人在线| 色婷婷综合久久久久中文一区二区| 18成人在线视频| 91香蕉视频mp4| 亚洲精品高清视频在线观看| 日本精品视频一区二区| 一区二区三区精密机械公司| 在线视频观看一区| 亚洲图片一区二区| 欧美精选在线播放| 美国三级日本三级久久99| 精品欧美黑人一区二区三区| 国产又黄又大久久| 国产日韩三级在线| 成人免费福利片| 综合中文字幕亚洲| 欧美性欧美巨大黑白大战| 午夜精品久久久久| 日韩欧美一区在线| 国产一区二区三区视频在线播放| 国产午夜精品久久久久久免费视| www.色综合.com| 一区二区不卡在线播放 | 91国偷自产一区二区开放时间| 亚洲天天做日日做天天谢日日欢 | 国产精品毛片高清在线完整版| 亚洲国产欧美在线| 91官网在线观看| 一片黄亚洲嫩模| 欧美午夜在线观看| 亚洲chinese男男1069| 欧美三级日韩三级国产三级| 欧美—级在线免费片| 国产福利一区二区三区视频在线 | 国产欧美一区二区精品秋霞影院| 成人免费精品视频| 欧美xfplay| 免费在线视频一区| 精品精品国产高清a毛片牛牛| 激情五月激情综合网| 久久女同互慰一区二区三区| 国产成人免费在线视频| 欧美激情一区在线观看| gogogo免费视频观看亚洲一| 亚洲欧美中日韩| 成人精品免费视频| 亚洲福利电影网| 欧美电影在线免费观看| 久久精品99国产精品| 久久尤物电影视频在线观看| 豆国产96在线|亚洲| 日韩美女精品在线| 欧美影院午夜播放| 日韩av电影免费观看高清完整版| 欧美系列在线观看| 久久国产视频网| 日本一区二区视频在线| 99精品久久免费看蜜臀剧情介绍| 亚洲乱码中文字幕| 欧美精品亚洲二区| 狠狠色丁香婷综合久久| 中文字幕不卡在线观看| 91久久精品一区二区三| 日韩中文字幕av电影| 日韩精品中文字幕在线一区| 豆国产96在线|亚洲| 亚洲一区二区三区四区在线免费观看| 欧美一区二区视频在线观看2020| 国产一区二区影院| 亚洲免费观看视频| 精品av久久707| 91香蕉视频污在线| 青娱乐精品视频| 国产丝袜美腿一区二区三区| 91免费看`日韩一区二区| 五月激情丁香一区二区三区| 久久久精品蜜桃| 丁香桃色午夜亚洲一区二区三区 | 色婷婷精品大在线视频| 丝袜美腿成人在线| 国产亚洲制服色| 在线观看成人小视频| 久久99热这里只有精品| 综合自拍亚洲综合图不卡区| 欧美一区二区三区在线电影| 高清日韩电视剧大全免费| 1000部国产精品成人观看| 2欧美一区二区三区在线观看视频 337p粉嫩大胆噜噜噜噜噜91av | 亚洲国产综合人成综合网站| 精品免费国产一区二区三区四区| 91视频www| 久久99精品国产麻豆婷婷洗澡| 亚洲综合图片区| 久久久久国产一区二区三区四区| 日本丶国产丶欧美色综合| 麻豆成人久久精品二区三区红| 国产精品久久久久久久久免费樱桃| 欧美日韩国产美| 丁香婷婷综合激情五月色| 石原莉奈在线亚洲三区| 国产精品视频线看| 欧美一级电影网站| 色天天综合色天天久久| 亚洲精品中文在线影院| 欧美午夜免费电影| 成人午夜短视频| 美女诱惑一区二区| 亚洲精品久久7777| 久久久久成人黄色影片| 欧美日韩国产免费一区二区| 国产福利91精品| 日产欧产美韩系列久久99| 亚洲精品久久嫩草网站秘色| 久久精品在这里| 欧美一区2区视频在线观看| 91麻豆国产精品久久| 国产在线观看免费一区| 五月综合激情日本mⅴ| 亚洲欧美日韩在线不卡| 国产色91在线| 欧美xxxx在线观看| 777xxx欧美| 欧洲一区在线观看| 国产一区二区精品久久| 国内不卡的二区三区中文字幕| 日韩国产高清在线| 亚洲一线二线三线视频| 亚洲天堂久久久久久久| 欧美国产日本韩| 久久久久一区二区三区四区| 欧美人成免费网站| 欧美在线观看视频一区二区| 91色porny在线视频| 成人黄色软件下载| 国内欧美视频一区二区| 麻豆中文一区二区| 五月激情综合婷婷| 蜜臂av日日欢夜夜爽一区| 丝袜脚交一区二区| 午夜一区二区三区在线观看| 一区二区欧美精品| 日韩欧美中文字幕公布| 欧美精品在线观看播放| 首页国产欧美日韩丝袜| 日韩福利视频网| 亚洲成人在线免费| 亚洲国产精品久久不卡毛片 | 精品系列免费在线观看| 蜜桃视频一区二区| 奇米色777欧美一区二区| 午夜伦理一区二区| 自拍偷拍欧美激情| 一区二区三区欧美| 亚洲精品网站在线观看| 日韩理论电影院| 亚洲欧美aⅴ...| 久久综合色婷婷| 欧美成人精品1314www|