跳到主要内容

GLM-4.5(ARC:Agentic / Reasoning / Coding)

技术报告与开源权重:智谱 AI | 领读:GLM-4.5

要解决的问题

355B MoE(约 32B 激活) 规模上,用 ARC 统一框架 同时优化 Agent(工具/多步)、推理(CoT)、代码(仓库级),避免为三类场景维护三套独立权重。

核心概念:ARC

支柱训练/数据侧重
A — Agentic工具调用轨迹、环境反馈、多轮规划数据
R — Reasoning数学/逻辑长 CoT、可验证奖励
C — Coding仓库上下文、补丁、执行反馈

架构要点

  • MoE Transformer,长上下文(官方 128K 级,见 8.5.2 GLM-4.6 的 200K 升级)。
  • 混合推理模式:可在「快答」与「深度思考」间切换(产品层面对标 Qwen3/R1)。
  • 后训练:SFT + RL 多阶段,强调 真实 Agent 环境 与代码沙箱奖励。

与 Qwen3 / DeepSeek 对比

GLM-4.5Qwen3DeepSeek-R1
统一权重ARC 三合一/think 双模式专用推理模型
开源权重 + 报告Apache 2.0开源
Agent核心卖点工具支持V3.2+ 长文

工程实践

  • 部署:vLLM、官方推理镜像;MoE 需 专家并行
  • Agent 集成:Function Call schema 与 智谱 API 对齐;本地权重需自搭工具循环。
  • 评测:Tau-Bench、SWE-bench、AIME 等分列 ARC 能力。

局限与注意点

  • 355B 全量推理 成本高;生产常用 API 或量化版。
  • Agent RL 环境泄漏(评测集工具 URL)会虚高分数。
  • 中英文能力 不均衡 时需单独测 C-Eval/CMMLU。
学习路径

本页为 第八部分大纲摘要。ARC 数据配方、基准与领读见 GLM-4.5 技术报告领读

部署与评测检查清单

说明
权重版本核对 Hugging Face revision 与 config.json
Chat template与官方 tokenizer 模板一致,避免 silently truncate
思考模式明确 API 字段(reasoning / think budget)
成本测 prefill+decode $/1M tokens @ 典型并发
合规许可、地域、日志留存策略
回归集每次权重升级跑固定 Agent/代码用例

与领读配合

  • 本页 不重复 paper-reading 全文;领读负责实验细节与引用索引。
  • 更新模型版本时:先改 paper-reading,再回本页改摘要表。

外部参考(精选)

类型入口
原始报告见正文 arXiv / 官方博客链接
权重与配置Hugging Face config.json 与 model card
深度领读见上文 :::tiptech-report 索引
工具链附录 D 工具生态
术语附录 B 术语表

相关章节