跳到主要内容

Adapter

要解决的问题

全参 SFTRLHF 对 7B+ 模型显存与存储压力大;多下游任务若各存一份全量权重 不经济Adapter(适配器) 在冻结预训练权重旁插入 小模块,只训练适配参数,实现参数高效微调(PEFT)的早期主流方案。

核心概念

Adapter 层 常插入 Transformer 子层之间(FFN 后或注意力后):

h=h+fadapter(h),fadapter(h)=Wupσ(Wdownh)h' = h + f_{\text{adapter}}(h), \quad f_{\text{adapter}}(h) = W_{\text{up}}\,\sigma(W_{\text{down}}\, h)
属性典型值
可训练参数量原模型 0.1%–5%
推理可合并或并行旁路;早期实现略增延迟
任务切换换 adapter 权重、共享基座

LoRA 对比:Adapter 改 激活路径;LoRA 改 权重低秩分解

方法 / 结构与训练

变体

  • Houlsby Adapter:每层两处 adapter(Attention + FFN)。
  • Pfeiffer / LoRA 前身类:仅在 FFN 一侧,减参数量。
  • AdaMix / 多 adapter 混合:多专家 adapter 加权(研究向)。

训练 recipe 与全参 SFT 相同(因果 LM loss),优化器只含 adapter 参数组。

工程实践

说明
框架peftAdaLora/Adapter 配置;Hugging Face 生态
显存显著低于全参;仍须加载完整基座前向
部署服务多租户时 adapter 热加载 有运维优势
对齐RM/PPO 阶段也可用 adapter(较少见,多直接用 LoRA)

2024–2026 社区 LoRA 更流行,但 adapter 概念仍见于多任务平台与 模块化合规(不同地区不同 adapter)。

代表工作

  • Houlsby et al., 2019 — Parameter-Efficient Transfer Learning for NLP.
  • Pfeiffer et al., 2020 — AdapterHub 生态。
  • He et al., 2022 — Unified View of PEFT 综述。

局限与注意点

  • 极深或极长训练时,adapter 容量可能 不足 拟合复杂对齐(个人理解:大偏好集更倾向 LoRA rank↑ 或全参)。
  • 推理若未 融合 kernel,额外分支有 latency。
  • 灾难性遗忘 关系:冻结骨干通常减轻遗忘,但极强 adapter 仍会扰动表示。

部署模式对比

模式优点缺点
热插拔 adapter多租户共享 GPU、快速切换需推理框架支持多 adapter
合并进基座部署简单、无额外分支失去「一基座多任务」灵活性
仅训练 FFN adapter参数更少复杂生成任务可能欠拟合

何时仍选 Adapter(2025–2026)

  • 平台型产品:数百个小技能 各 10MB adapter,比数百份 LoRA 更易运维(组织偏好,非技术必然)。
  • 研究 模块化安全:地区合规 adapter 与通用对话 adapter 分离。
  • 若团队已标准化 peft + LoRA,无强制理由迁移,除非 benchmark 显示明显差距。

相关章节