Adapter
要解决的问题
全参 SFT 或 RLHF 对 7B+ 模型显存与存储压力大;多下游任务若各存一份全量权重 不经济。Adapter(适配器) 在冻结预训练权重旁插入 小模块,只训练适配参数,实现参数高效微调(PEFT)的早期主流方案。
核心概念
Adapter 层 常插入 Transformer 子层之间(FFN 后或注意力后):
h′=h+fadapter(h),fadapter(h)=Wupσ(Wdownh)
| 属性 | 典型值 |
|---|
| 可训练参数量 | 原模型 0.1%–5% |
| 推理 | 可合并或并行旁路;早期实现略增延迟 |
| 任务切换 | 换 adapter 权重、共享基座 |
与 LoRA 对比:Adapter 改 激活路径;LoRA 改 权重低秩分解。
方法 / 结构与训练