No date
RvS | Reinforcement Learning via Supervised Learning
PaperRL
快速解釋
RvS 把 offline RL 改寫成一個更直接的問題:在 state s_t 下,如果我想達成某個未來 outcome omega,資料裡當時做的 action 是什麼?所以它不學 value,也不做 TD backup,而是直接學一個 outcome-conditioned behavior cloning policy。
問題設定
- 許多 offline RL 方法很複雜,包含 value learning、bootstrapping、policy constraints 與大量超參數。
- 同時,越來越多工作發現:若把未來目標或未來報酬當作條件,有些 RL 問題其實可以退化成 supervised learning。
- RvS 想釐清的是:到底哪些東西是必要的?TD learning、Transformer、advantage weighting 真的是關鍵嗎,還是簡單的 conditional MLP 就夠了?
核心想法
- 從離線 trajectory 中做 hindsight relabeling:對每個時間點 t,從未來片段 tau_{t:H} 產生一個 outcome omega。
- 然後只做最大概似學習,讓 policy 擬合 pi(a_t | s_t, omega)。
- 若 omega 是未來會到達的 state,就是 goal-conditioned 的 RvS-G;若 omega 是未來平均 return,就是 reward-conditioned 的 RvS-R。
- 方法的核心不是值函數估計,而是選對 conditioning variable。條件設得好,suboptimal experience 也能變成對另一個 outcome 的有效 supervision。
關鍵公式
若把 outcome 定義成未來某個會到達的 goal state,則
若把 outcome 定義成未來平均 return,則
整體訓練目標是
- 第一、二式說明 omega 不是外加標籤,而是從軌跡未來片段自動抽出來的 hindsight condition。
- 第三式本質上就是 conditional imitation learning:給定想要的 outcome,回歸資料裡當時的 action。
模型結構
- 資料重標記:從 replay buffer 的 trajectory 抽出 (s_t, a_t),再從未來片段抽一個 outcome omega。
- Policy 網路:把 s_t 與 omega 串接後送入兩層 MLP,直接輸出 action 分布或 action 參數。
- 訓練方式:純最大概似,沒有 value function、沒有 Bellman backup、沒有 actor-critic 交替。
- 兩種常見條件:RvS-G 用 goal 做條件,適合目標導向任務;RvS-R 用 return 做條件,適合能以報酬刻畫成功程度的任務。
- 推論方式:測試時由使用者指定目標 goal 或目標 return,policy 再輸出對應 action。整個方法是否有效,高度取決於 outcome 的設計是否能代表任務真正的成功訊號。