GLM-4.5(ARC:Agentic / Reasoning / Coding)
技术报告与开源权重:智谱 AI | 领读:GLM-4.5
要解决的问题
在 355B MoE(约 32B 激活) 规模上,用 ARC 统一框架 同时优化 Agent(工具/多步)、推理(CoT)、代码(仓库级),避免为三类场景维护三套独立权重。
核心概念:ARC
| 支柱 | 训练/数据侧重 |
|---|---|
| A — Agentic | 工具调用轨迹、环境反馈、多轮规划数据 |
| R — Reasoning | 数学/逻辑长 CoT、可验证奖励 |
| C — Coding | 仓库上下文、补丁、执行反馈 |
架构要点
- MoE Transformer,长上下文(官方 128K 级,见 8.5.2 GLM-4.6 的 200K 升级)。
- 混合推理模式:可在「快答」与「深度思考」间切换(产品层面对标 Qwen3/R1)。
- 后训练:SFT + RL 多阶段,强调 真实 Agent 环境 与代码沙箱奖励。
与 Qwen3 / DeepSeek 对比
| GLM-4.5 | Qwen3 | DeepSeek-R1 | |
|---|---|---|---|
| 统一权重 | ARC 三合一 | /think 双模式 | 专用推理模型 |
| 开源 | 权重 + 报告 | Apache 2.0 | 开源 |
| Agent | 核心卖点 | 工具支持 | V3.2+ 长文 |
工程实践
- 部署:vLLM、官方推理镜像;MoE 需 专家并行。
- Agent 集成:Function Call schema 与 智谱 API 对齐;本地权重需自搭工具循环。
- 评测:Tau-Bench、SWE-bench、AIME 等分列 ARC 能力。
局限与注意点
- 355B 全量推理 成本高;生产常用 API 或量化版。
- Agent RL 环境泄漏(评测集工具 URL)会虚高分数。
- 中英文能力 不均衡 时需单独测 C-Eval/CMMLU。
学习路径
本页为 第八部分大纲摘要。ARC 数据配方、基准与领读见 GLM-4.5 技术报告领读。
部署与评测检查清单
| 项 | 说明 |
|---|---|
| 权重版本 | 核对 Hugging Face revision 与 config.json |
| Chat template | 与官方 tokenizer 模板一致,避免 silently truncate |
| 思考模式 | 明确 API 字段(reasoning / think budget) |
| 成本 | 测 prefill+decode $/1M tokens @ 典型并发 |
| 合规 | 许可、地域、日志留存策略 |
| 回归集 | 每次权重升级跑固定 Agent/代码用例 |
与领读配合
- 本页 不重复 paper-reading 全文;领读负责实验细节与引用索引。
- 更新模型版本时:先改 paper-reading,再回本页改摘要表。
外部参考(精选)
| 类型 | 入口 |
|---|---|
| 原始报告 | 见正文 arXiv / 官方博客链接 |
| 权重与配置 | Hugging Face config.json 与 model card |
| 深度领读 | 见上文 :::tip 或 tech-report 索引 |
| 工具链 | 附录 D 工具生态 |
| 术语 | 附录 B 术语表 |
相关章节
- 续作:8.5.2 GLM-4.6
- Agent 应用:docs Agent 区
- PEFT 落地:4.6 LoRA
- 全站索引:LLMs 入口