No date
MADIFF | Offline Multi-agent Learning with Diffusion Models
PaperRLDiffusion
快速解釋
MADIFF 把多智能體離線學習改成生成未來 joint trajectory 的問題:先用 diffusion model 規劃多個 agents 接下來會怎麼一起動,再用 inverse dynamics 把相鄰狀態轉回 actions。它的關鍵不是單純把 diffusion 套進 RL,而是把跨 agent attention 放進每一步 denoising,讓協調直接發生在生成過程中。
問題設定
- Offline MARL 裡,TD learning 容易因離線資料造成 extrapolation error。
- 若每個 agent 各自學獨立模型,容易失去 coordination;若把所有 agents 生硬串接成一個超大向量,又會浪費表示能力、破壞 agent permutation symmetry。
- 因此需要一個既能在離線 joint trajectories 上學到協調,又能支援 centralized training / decentralized execution 的生成模型。
核心想法
- MADIFF 不直接生成 actions,而是生成未來一段多 agent 的狀態軌跡;因為狀態序列通常比 action 序列更平滑、更好學。
- 為了在 denoising 過程中交換 agent 之間的資訊,模型在每個 agent 的 U-Net decoder 前插入跨 agent attention,讓每個 agent 的 latent 表徵都能看見其他 agents 的關鍵訊息。
- 訓練時使用帶 return 條件的 diffusion model;推論時用 classifier-free guidance 把採樣往高回報的 joint behaviors 拉。
- 執行時可採 centralized control,也可在 decentralized setting 只給單一 agent 的局部觀測,透過模型同時預測 teammates 的未來行為,等於把 teammate modeling 內建在 diffusion policy 裡。
關鍵公式
diffusion 的基本去噪目標為
MADIFF 生成的是未來狀態軌跡,再由 inverse dynamics 轉成 action:
inverse dynamics 與條件 diffusion 的聯合訓練可寫成
classifier-free guidance 在推論時使用
跨 agent attention 讓第 i 個 agent 能聚合其他 agents 的 latent:
- 第二式表示策略不是直接輸出 action,而是先規劃下一段可行狀態,再反推 action。
- 第三、四式把高 return 的條件引導和 agent 間資訊交換同時放進生成過程,因此 coordination 不是事後修補,而是逐步生成出來的。
模型結構
- 每個 agent 的 backbone:以 U-Net 為主體,沿時間維度做 1D convolution residual blocks 來生成個別 agent 的未來軌跡。
- 跨 agent attention:在每個 decoder block 前,把所有 agents 的 latent features 做 multi-head attention,交換協調訊息,同時保留 index-free 的表示方式。
- 條件輸入:可加入當前觀測、回報條件與空條件,支援 classifier-free guidance。
- Inverse dynamics:針對每個 agent 額外訓練 inverse dynamics model,把 o_t 與預測的 o_{t+1} 轉成 action。
- 兩種部署模式:centralized 版本一次輸出所有 agents 的 joint plan;decentralized 版本只靠單一 agent 的局部觀測規劃自身行為,並隱式預測 teammate trajectories。