跳到主要内容

持续学习与知识更新

要解决的问题

世界知识与产品政策 持续变化；若在旧数据上微调新事实，易 灾难性遗忘 旧技能。持续学习（Continual Learning, CL）研究 顺序吸收新数据 而保持旧能力。

核心困难

现象	说明
灾难性遗忘	新任务梯度覆盖旧任务表征
分布漂移	新域语言/工具与预训练差异大
算力	全量重训贵；小步更新不稳定

方法谱系

方法	机制
Replay	混合旧数据批次（经验回放）
正则化	EWC、L2 约束重要参数
参数隔离	LoRA 新适配器 per 任务
模型合并	TIES、DARE 合并多个微调
知识编辑	ROME/MEMIT 点更新（见 9.2.2）

LLM 实践配方（2025）

基座冻结 + LoRA：新域数据训新 adapter，路由按任务切换。
小比例回放：保留 5–10% 通用 SFT 数据防遗忘。
DPO 增量：仅新偏好对，监控 旧基准 回归。
定期全量刷新：季度用大混合重训（大厂路线）。

评测协议

前向迁移：学新任务后旧任务分数。
后向迁移：旧模型对新任务的 zero-shot。
追踪面板：固定 核心基准（MMLU、HumanEval）不随版本丢弃。

工程与合规

版本化权重：model-v2025-06 可回滚。
数据溯源：新法规域数据需许可审计。
用户告知：知识截止日期与更新日志。

局限与注意点

无 replay 的纯增量 SFT 几乎必然 遗忘部分能力。
MoE 专家偏置 随新域漂移，负载均衡需重调。
「在线学习」开放权重 API 安全风险 极高（投毒）。

检查清单（自学 / 落地）

步骤	动作
1	阅读官方 primary source（报告、博客、模型卡）
2	固定 prompt 与解码参数，在自有验证集上建基线
3	记录延迟、成本、上下文长度与是否启用思考模式
4	与相邻章节对照，画出与上下游模块的数据流
5	在 paper-reading 或本大纲相关节做深度笔记

常见误区

误区	澄清
公开基准 = 产品表现	必须用业务端到端任务回归
长窗口 = 长理解	需 Needle + 真实文档任务验证
单次实验可定论	固定随机种子、数据版本与评测脚本

延伸练习

复现表中 一行关键结论（ablation 或小型对照实验）。
用附录 D 工具或 lm-eval 跑通评测脚本。
将未知参数整理进 9.5.3 开放问题个人笔记。

外部参考（精选）

类型	入口
原始报告	见正文 arXiv / 官方博客链接
权重与配置	Hugging Face `config.json` 与 model card
深度领读	见上文 `:::tip` 或 tech-report 索引
工具链	附录 D　工具生态
术语	附录 B　术语表

相关章节

遗忘：4.1.4 灾难性遗忘
LoRA：4.6.3
终身学习：9.2.4