跳到主要内容

GLM-4.5（ARC：Agentic / Reasoning / Coding）

技术报告与开源权重：智谱 AI | 领读：GLM-4.5

要解决的问题

在 355B MoE（约 32B 激活） 规模上，用 ARC 统一框架 同时优化 Agent（工具/多步）、推理（CoT）、代码（仓库级），避免为三类场景维护三套独立权重。

核心概念：ARC

支柱	训练/数据侧重
A — Agentic	工具调用轨迹、环境反馈、多轮规划数据
R — Reasoning	数学/逻辑长 CoT、可验证奖励
C — Coding	仓库上下文、补丁、执行反馈

架构要点

MoE Transformer，长上下文（官方 128K 级，见 8.5.2 GLM-4.6 的 200K 升级）。
混合推理模式：可在「快答」与「深度思考」间切换（产品层面对标 Qwen3/R1）。
后训练：SFT + RL 多阶段，强调 真实 Agent 环境 与代码沙箱奖励。

与 Qwen3 / DeepSeek 对比

	GLM-4.5	Qwen3	DeepSeek-R1
统一权重	ARC 三合一	/think 双模式	专用推理模型
开源	权重 + 报告	Apache 2.0	开源
Agent	核心卖点	工具支持	V3.2+ 长文

工程实践

部署：vLLM、官方推理镜像；MoE 需 专家并行。
Agent 集成：Function Call schema 与 智谱 API 对齐；本地权重需自搭工具循环。
评测：Tau-Bench、SWE-bench、AIME 等分列 ARC 能力。

局限与注意点

355B 全量推理 成本高；生产常用 API 或量化版。
Agent RL 环境泄漏（评测集工具 URL）会虚高分数。
中英文能力 不均衡 时需单独测 C-Eval/CMMLU。

学习路径

本页为 第八部分大纲摘要。ARC 数据配方、基准与领读见 GLM-4.5 技术报告领读。

部署与评测检查清单

项	说明
权重版本	核对 Hugging Face revision 与 `config.json`
Chat template	与官方 tokenizer 模板一致，避免 silently truncate
思考模式	明确 API 字段（reasoning / think budget）
成本	测 prefill+decode $/1M tokens @ 典型并发
合规	许可、地域、日志留存策略
回归集	每次权重升级跑固定 Agent/代码用例

与领读配合

本页 不重复 paper-reading 全文；领读负责实验细节与引用索引。
更新模型版本时：先改 paper-reading，再回本页改摘要表。

外部参考（精选）

类型	入口
原始报告	见正文 arXiv / 官方博客链接
权重与配置	Hugging Face `config.json` 与 model card
深度领读	见上文 `:::tip` 或 tech-report 索引
工具链	附录 D　工具生态
术语	附录 B　术语表

相关章节

续作：8.5.2 GLM-4.6
Agent 应用：docs Agent 区
PEFT 落地：4.6 LoRA
全站索引：LLMs 入口