跳到主要内容

持续学习与知识更新

要解决的问题

世界知识与产品政策 持续变化;若在旧数据上微调新事实,易 灾难性遗忘 旧技能。持续学习(Continual Learning, CL)研究 顺序吸收新数据 而保持旧能力。

核心困难

现象说明
灾难性遗忘新任务梯度覆盖旧任务表征
分布漂移新域语言/工具与预训练差异大
算力全量重训贵;小步更新不稳定

方法谱系

方法机制
Replay混合旧数据批次(经验回放)
正则化EWC、L2 约束重要参数
参数隔离LoRA 新适配器 per 任务
模型合并TIES、DARE 合并多个微调
知识编辑ROME/MEMIT 点更新(见 9.2.2

LLM 实践配方(2025)

  1. 基座冻结 + LoRA:新域数据训新 adapter,路由按任务切换。
  2. 小比例回放:保留 5–10% 通用 SFT 数据防遗忘。
  3. DPO 增量:仅新偏好对,监控 旧基准 回归。
  4. 定期全量刷新:季度用大混合重训(大厂路线)。

评测协议

  • 前向迁移:学新任务后旧任务分数。
  • 后向迁移:旧模型对新任务的 zero-shot。
  • 追踪面板:固定 核心基准(MMLU、HumanEval)不随版本丢弃。

工程与合规

  • 版本化权重model-v2025-06 可回滚。
  • 数据溯源:新法规域数据需 许可 审计。
  • 用户告知:知识截止日期与更新日志。

局限与注意点

  • 无 replay 的纯增量 SFT 几乎必然 遗忘部分能力。
  • MoE 专家偏置 随新域漂移,负载均衡需重调。
  • 「在线学习」开放权重 API 安全风险 极高(投毒)。

检查清单(自学 / 落地)

步骤动作
1阅读官方 primary source(报告、博客、模型卡)
2固定 prompt 与解码参数,在自有验证集上建基线
3记录延迟、成本、上下文长度与是否启用思考模式
4与相邻章节对照,画出与上下游模块的数据流
5paper-reading 或本大纲相关节做深度笔记

常见误区

误区澄清
公开基准 = 产品表现必须用业务端到端任务回归
长窗口 = 长理解需 Needle + 真实文档任务验证
单次实验可定论固定随机种子、数据版本与评测脚本

延伸练习

外部参考(精选)

类型入口
原始报告见正文 arXiv / 官方博客链接
权重与配置Hugging Face config.json 与 model card
深度领读见上文 :::tiptech-report 索引
工具链附录 D 工具生态
术语附录 B 术语表

相关章节