HWC
← Note

No date

RvS | Reinforcement Learning via Supervised Learning

PaperRL

快速解釋

RvS 把 offline RL 改寫成一個更直接的問題:在 state s_t 下,如果我想達成某個未來 outcome omega,資料裡當時做的 action 是什麼?所以它不學 value,也不做 TD backup,而是直接學一個 outcome-conditioned behavior cloning policy。

問題設定

  • 許多 offline RL 方法很複雜,包含 value learning、bootstrapping、policy constraints 與大量超參數。
  • 同時,越來越多工作發現:若把未來目標或未來報酬當作條件,有些 RL 問題其實可以退化成 supervised learning。
  • RvS 想釐清的是:到底哪些東西是必要的?TD learning、Transformer、advantage weighting 真的是關鍵嗎,還是簡單的 conditional MLP 就夠了?

核心想法

  • 從離線 trajectory 中做 hindsight relabeling:對每個時間點 t,從未來片段 tau_{t:H} 產生一個 outcome omega。
  • 然後只做最大概似學習,讓 policy 擬合 pi(a_t | s_t, omega)。
  • 若 omega 是未來會到達的 state,就是 goal-conditioned 的 RvS-G;若 omega 是未來平均 return,就是 reward-conditioned 的 RvS-R。
  • 方法的核心不是值函數估計,而是選對 conditioning variable。條件設得好,suboptimal experience 也能變成對另一個 outcome 的有效 supervision。

關鍵公式

若把 outcome 定義成未來某個會到達的 goal state,則

f(ωτt:H)=Unif(st+1,st+2,,sH).f(\omega\mid \tau_{t:H})=\operatorname{Unif}(s_{t+1}, s_{t+2}, \dots, s_H).

若把 outcome 定義成未來平均 return,則

f(ωτt:H)=1(ω=1Ht+1t=tHr(st,at)).f(\omega\mid \tau_{t:H})= \mathbf{1}\left( \omega= \frac{1}{H-t+1} \sum_{t'=t}^{H} r(s_{t'},a_{t'}) \right).

整體訓練目標是

maxθτDtEωf(ωτt:H)[logπθ(atst,ω)].\max_\theta \sum_{\tau\in D}\sum_t \mathbb{E}_{\omega\sim f(\omega\mid\tau_{t:H})} \left[ \log \pi_\theta(a_t\mid s_t,\omega) \right].
  • 第一、二式說明 omega 不是外加標籤,而是從軌跡未來片段自動抽出來的 hindsight condition。
  • 第三式本質上就是 conditional imitation learning:給定想要的 outcome,回歸資料裡當時的 action。

模型結構

  1. 資料重標記:從 replay buffer 的 trajectory 抽出 (s_t, a_t),再從未來片段抽一個 outcome omega。
  2. Policy 網路:把 s_t 與 omega 串接後送入兩層 MLP,直接輸出 action 分布或 action 參數。
  3. 訓練方式:純最大概似,沒有 value function、沒有 Bellman backup、沒有 actor-critic 交替。
  4. 兩種常見條件:RvS-G 用 goal 做條件,適合目標導向任務;RvS-R 用 return 做條件,適合能以報酬刻畫成功程度的任務。
  5. 推論方式:測試時由使用者指定目標 goal 或目標 return,policy 再輸出對應 action。整個方法是否有效,高度取決於 outcome 的設計是否能代表任務真正的成功訊號。