持续学习与知识更新
要解决的问题
世界知识与产品政策 持续变化;若在旧数据上微调新事实,易 灾难性遗忘 旧技能。持续学习(Continual Learning, CL)研究 顺序吸收新数据 而保持旧能力。
核心困难
| 现象 | 说明 |
|---|
| 灾难性遗忘 | 新任务梯度覆盖旧任务表征 |
| 分布漂移 | 新域语言/工具与预训练差异大 |
| 算力 | 全量重训贵;小步更新不稳定 |
方法谱系
| 方法 | 机制 |
|---|
| Replay | 混合旧数据批次(经验回放) |
| 正则化 | EWC、L2 约束重要参数 |
| 参数隔离 | LoRA 新适配器 per 任务 |
| 模型合并 | TIES、DARE 合并多个微调 |
| 知识编辑 | ROME/MEMIT 点更新(见 9.2.2) |
LLM 实践配方(2025)
- 基座冻结 + LoRA:新域数据训新 adapter,路由按任务切换。
- 小比例回放:保留 5–10% 通用 SFT 数据防遗忘。
- DPO 增量:仅新偏好对,监控 旧基准 回归。
- 定期全量刷新:季度用大混合重训(大厂路线)。
评测协议
- 前向迁移:学新任务后旧任务分数。
- 后向迁移:旧模型对新任务的 zero-shot。
- 追踪面板:固定 核心基准(MMLU、HumanEval)不随版本丢弃。
工程与合规
- 版本化权重:
model-v2025-06 可回滚。
- 数据溯源:新法规域数据需 许可 审计。
- 用户告知:知识截止日期与更新日志。
局限与注意点
- 无 replay 的纯增量 SFT 几乎必然 遗忘部分能力。
- MoE 专家偏置 随新域漂移,负载均衡需重调。
- 「在线学习」开放权重 API 安全风险 极高(投毒)。
检查清单(自学 / 落地)
| 步骤 | 动作 |
|---|
| 1 | 阅读官方 primary source(报告、博客、模型卡) |
| 2 | 固定 prompt 与解码参数,在自有验证集上建基线 |
| 3 | 记录延迟、成本、上下文长度与是否启用思考模式 |
| 4 | 与相邻章节对照,画出与上下游模块的数据流 |
| 5 | 在 paper-reading 或本大纲相关节做深度笔记 |
常见误区
| 误区 | 澄清 |
|---|
| 公开基准 = 产品表现 | 必须用业务端到端任务回归 |
| 长窗口 = 长理解 | 需 Needle + 真实文档任务验证 |
| 单次实验可定论 | 固定随机种子、数据版本与评测脚本 |
延伸练习
外部参考(精选)
相关章节