跳到主要内容

RWKV、RetNet

要解决的问题

在保持 可并行训练 的同时,用 线性递推 替代 full attention,降低长序列推理的 KV 增长,探索 Transformer 之外的骨干。

RWKV(Receptance Weighted Key Value)

属性说明
形式线性 RNN + 通道混合,时间混合 替代 attention
训练并行化形式(WKV 算子)
推理O(1)O(1) 状态更新 / step
生态RWKV-LM 社区模型、GGUF

强项:长生成吞吐、边缘部署。
弱项:精确拷贝、复杂检索相对 Transformer 需实测

RetNet(Retention Network)

Microsoft 提出 多尺度保留机制,统一 并行训练递推推理

Retention(Q,K,V)=并行形式递推形式\text{Retention}(Q,K,V) = \text{并行形式} \equiv \text{递推形式}
模式用途
并行训练像 Transformer block
递推推理像 RNN,省 KV

产业落地少于 RWKV/Mamba,但影响 线性注意力理论 叙述。

三者对比(直觉)

TransformerRWKVRetNet
训练并行优(特殊核)
推理 KV线性增固定状态固定状态
生态最大研究为主

工程实践

  • RWKVrwkv.cpp、Hugging Face 转换;适合 小说、语音流 长生成。
  • 与混合架构:常与少量 attention 层交替(见 9.3.3)。
  • 选型前跑 Needle、代码补全、多轮对话 三联测。

局限与注意点

  • 预训练 数据与算力 投入远小于 Transformer,同尺寸 通用榜 常落后。
  • CUDA kernel 成熟度 影响实际吞吐优势。
  • 个人理解:2025–2026 主线仍是 稀疏/压缩 Transformer,RWKV 占 细分场景(待验证)。

检查清单(自学 / 落地)

步骤动作
1阅读官方 primary source(报告、博客、模型卡)
2固定 prompt 与解码参数,在自有验证集上建基线
3记录延迟、成本、上下文长度与是否启用思考模式
4与相邻章节对照,画出与上下游模块的数据流
5paper-reading 或本大纲相关节做深度笔记

常见误区

误区澄清
公开基准 = 产品表现必须用业务端到端任务回归
长窗口 = 长理解需 Needle + 真实文档任务验证
单次实验可定论固定随机种子、数据版本与评测脚本

延伸练习

相关章节