Kimi K1.5（RL Scaling）

论文：Kimi k1.5: Scaling Reinforcement Learning | 后续：8.4.2 Kimi K2

要解决的问题

在 长上下文（128K+） 与 多模态 设定下，如何通过 大规模 RL（而非仅 SFT）持续提升数学、代码与通用推理，并为 K2 万亿 MoE Agent 模型铺路？

概念	说明
RL Scaling	扩大 RL 步数、环境多样性与奖励信号，观察能力随 compute 增长
Long-CoT RL	在长链推理空间优化策略，配合长窗口训练数据
多模态 RL	图文输入下的推理与工具使用（以官方论文为准）
与 R1 对照	同属 2025 初「RL 激发推理」浪潮，细节配方不同

学习路径

本页为 第八部分大纲摘要。K1.5 尚无独立 tech-report 页时，可结合 Kimi K2 领读索引与 8.4.2 K2 对照阅读；Moonshot 官方博客与 arXiv:2501.12599 为准。

项	说明
权重版本	核对 Hugging Face revision 与 `config.json`
Chat template	与官方 tokenizer 模板一致，避免 silently truncate
思考模式	明确 API 字段（reasoning / think budget）
成本	测 prefill+decode $/1M tokens @ 典型并发
合规	许可、地域、日志留存策略

类型	入口
原始报告	见正文 arXiv / 官方博客链接
权重与配置	Hugging Face `config.json` 与 model card
深度领读	见上文 `:::tip` 或 tech-report 索引
工具链	附录 D　工具生态
术语	附录 B　术语表