Online vs Offline RL
后训练对齐需要在 数据新鲜度、成本、稳定性 之间取舍:是用固定偏好集一次性训好,还是让当前策略持续采样、再打分更新?本节先厘清经典 RL 中的 离线 / 在线 定义,再映射到 LLM 偏好学习中的代表方法与选型。

上侧为 Online RL——智能体在环境中交互(trial-and-error),采集到相关经验数据后马上(或经 replay buffer)用于策略更新;下侧为 Offline RL——先由行为策略 / 人类示范构建数据集,再在固定日志上训练,无训练期环境交互。
LLM RL 不同范式:
- Online ≈ 当前 rollout + 人/RM 打分
- Offline ≈ 固定 偏好集上的 DPO 等。
区分 Online / Offline 的唯一标准:正在被训练的那个智能体(记为 B),在它自己的训练过程中,是否与环境发生实时交互。
- Offline:B 只使用事先构建好的固定数据集学习,训练循环内 不再 与环境交互。
- Online:B 在训练期间 亲自 与环境交互、采集经验,并(立即或经 replay buffer)用于更新自身策略。
这与「数据是否由当前策略产生」「是否为 on-policy / off-policy」等维度 正交;易混项见 4.4.4 On-Policy vs Off-Policy。
背景问题:若用模型 A 以 Online RL 方式(A 自己 rollout + 拿 RM 分数)采好一批轨迹 / 偏好对,再拿这份数据去训练模型 B——对 B 而言,算 Online RL 还是 Offline RL?
答案:Offline。判据只看 正在被训练的智能体(此处为 B)在 自己的训练循环里 有没有与环境实时交互。A 在线采数只说明 数据采集阶段 是在线的;B 训练时只读 A 留下的固定日志、不再现场生成或打分,B 仍是 Offline——与 A 是否在线无关。
展开:同一任务下的两种训练方式
把 环境 理解为:prompt 池 + 生成接口 + 评判管线(人类排序或 RM 打分)。
- Offline(DPO 训 B):A 曾用 Online 方式采好 10 万条 ,导出为静态数据集。训练 B 时只在这份数据上算 DPO 损失、更新权重——训练循环内 B 不再采样新回复,也不向 RM 发请求。正在被训练的 B 没有 与环境实时交互。(数据可以「很新鲜、来自在线管线」,但 B 的训练范式仍是 Offline。)
- Online(PPO-RLHF 训 B):每个 step,当前 B 对一批 prompt 现场生成 ,RM 返回分数 ,PPO 立刻用这批 更新 B;下一轮又是 新版 B 再 rollout……正在被训练的 B 在训练过程中 持续 与环境(生成 → 打分 → 反馈)实时交互。
小结:Online/Offline 描述的是 某个智能体自己的训练过程,不是整条数据流水线的标签。A 在线采数 → B 离线训,是工业界极常见的 「在线采集 + 离线训练」 组合;只有 B 在训练循环里亲自 rollout 并拿反馈,才算 B 的 Online RL。
1. 什么是离线 RL
离线强化学习(Offline RL) 指智能体 只使用已收集好的经验数据 学习策略,训练过程中 不再与环境交互。
- 用一个或多个旧策略、或人类示范,预先构建数据集(轨迹日志)。
- 在该固定数据集上运行 离线 RL 算法,得到新策略。
数据来自 行为策略 (或人类),与正在优化的 目标策略 可以不同;学习完全在「历史日志」上进行。
在 LLM 偏好学习中的含义
- 环境