跳到主要内容

Kimi K2(MuonClip + 超稀疏 MoE + Agent)

完整论文:Kimi K2: Open Agentic Intelligence(arXiv:2507.20534,2025)

要解决的问题

万亿参数 MoE 规模下,如何用 token 高效的 Muon 优化器 稳定预训练,并产出面向 Agent / 软件工程 的开源旗舰模型?

架构要点

项目规格
总参数1T(MoE)
激活参数32B / token
专家384 routed + 1 shared,每 token 选 8
上下文128K
注意力MLA(与 DeepSeek 路线相近)
激活SwiGLU

MuonClip 优化器

  • 基于 Muon(相对 AdamW 更高 token 效率)
  • QK-Clip:更新后缩放 Q/K 投影权重,约束 attention logit 爆炸
  • K2 在 15.5T tokens 预训练上报告 零 loss spike

详见 3.6 训练稳定性 与 DeepSeek V4 的 Muon 采用。

后训练

  • 大规模 Agentic 数据合成
  • 联合 RL 阶段:与真实/合成环境交互
  • 定位:开源非 thinking 设置 下 Agent、代码、数学、推理 SOTA 梯队之一

代表基准(论文摘要量级)

基准分数(非 extended thinking)
SWE-Bench Verified65.8
Tau2-Bench66.1
GPQA-Diamond75.1
LiveCodeBench v653.7

与相邻模型

对比Kimi K2DeepSeek-V3
优化器亮点MuonClipFP8 + MTP
Agent核心卖点V3.2+ DSA 长文
开源权重发布 base/instruct开源

参考链接