HWC

No date

RvS | Reinforcement Learning via Supervised Learning

PaperRL

快速解釋

RvS 把 offline RL 改寫成一個更直接的問題：在 state s_t 下，如果我想達成某個未來 outcome omega，資料裡當時做的 action 是什麼？所以它不學 value，也不做 TD backup，而是直接學一個 outcome-conditioned behavior cloning policy。

問題設定

許多 offline RL 方法很複雜，包含 value learning、bootstrapping、policy constraints 與大量超參數。
同時，越來越多工作發現：若把未來目標或未來報酬當作條件，有些 RL 問題其實可以退化成 supervised learning。
RvS 想釐清的是：到底哪些東西是必要的？TD learning、Transformer、advantage weighting 真的是關鍵嗎，還是簡單的 conditional MLP 就夠了？

核心想法

從離線 trajectory 中做 hindsight relabeling：對每個時間點 t，從未來片段 tau_{t:H} 產生一個 outcome omega。
然後只做最大概似學習，讓 policy 擬合 pi(a_t | s_t, omega)。
若 omega 是未來會到達的 state，就是 goal-conditioned 的 RvS-G；若 omega 是未來平均 return，就是 reward-conditioned 的 RvS-R。
方法的核心不是值函數估計，而是選對 conditioning variable。條件設得好，suboptimal experience 也能變成對另一個 outcome 的有效 supervision。

關鍵公式

若把 outcome 定義成未來某個會到達的 goal state，則

f(\omega\mid \tau_{t:H})=\operatorname{Unif}(s_{t+1}, s_{t+2}, \dots, s_H).

若把 outcome 定義成未來平均 return，則

f(\omega\mid \tau_{t:H})= \mathbf{1}\left( \omega= \frac{1}{H-t+1} \sum_{t'=t}^{H} r(s_{t'},a_{t'}) \right).

整體訓練目標是

\max_\theta \sum_{\tau\in D}\sum_t \mathbb{E}_{\omega\sim f(\omega\mid\tau_{t:H})} \left[ \log \pi_\theta(a_t\mid s_t,\omega) \right].

第一、二式說明 omega 不是外加標籤，而是從軌跡未來片段自動抽出來的 hindsight condition。
第三式本質上就是 conditional imitation learning：給定想要的 outcome，回歸資料裡當時的 action。

模型結構

資料重標記：從 replay buffer 的 trajectory 抽出 (s_t, a_t)，再從未來片段抽一個 outcome omega。
Policy 網路：把 s_t 與 omega 串接後送入兩層 MLP，直接輸出 action 分布或 action 參數。
訓練方式：純最大概似，沒有 value function、沒有 Bellman backup、沒有 actor-critic 交替。
兩種常見條件：RvS-G 用 goal 做條件，適合目標導向任務；RvS-R 用 return 做條件，適合能以報酬刻畫成功程度的任務。
推論方式：測試時由使用者指定目標 goal 或目標 return，policy 再輸出對應 action。整個方法是否有效，高度取決於 outcome 的設計是否能代表任務真正的成功訊號。