跳到主要内容

GLM-4.6（200K 上下文 + 编程增强）

同系列：GLM-4.5 领读

要解决的问题

在 Agent、多文件代码仓、长文档 场景下，需要比 GLM-4.5 更长的上下文、更低的实际 token 消耗，以及 可本地部署的开源权重。

架构与规格（公开资料）

项目	GLM-4.6
架构	MoE，总参约 355B，激活约 32B
输入上下文	200K tokens
最大输出	128K tokens
许可证	MIT（开放权重）
推理栈	vLLM、SGLang 等

相对 GLM-4.5 的升级

上下文 128K → 200K
工具调用 / MCP / Agent 能力强化
真实编程任务上报告 ~15% token 节省（CC-Bench 等对比，以官方为准）
与 Claude Sonnet 4 等闭源在部分编码基准上 接近parity（~48.6% win rate 等宣传口径）

部署与获取

API：Z.ai、OpenRouter
权重：Hugging Face、ModelScope
集成：Claude Code、Cline、Roo Code 等编码 Agent 可切换模型名

与本大纲

长上下文技术：9.1 长上下文
Agent 应用：docs/03-agent-application/

参考链接