第一周 Weekly Papers

当前 AI 智能体（Agent）领域主流做法是表面编排（Surface Orchestration）——借助 LangGraph、CrewAI 等框架，在模型之外维护一个编排器，每轮对话都向大模型注入流程指令并解析输出。这种方式存在三大痛点：每次对话都需要调用高成本前沿大模型、流程逻辑会大量消耗上下文窗口、以及企业私有流程被迫暴露给第三方 API 供应商。尽管已有研究表明将流程"编译"进模型权重是可行的，但开发者实际采用率极低。

本文提出"地下智能体（Subterranean Agent）"方案：将业务流程图通过微调"编译"进小规模语言模型的权重，使模型在运行时无需任何外部编排器即可自主执行流程。与传统编排方案的根本区别在于：编排器仅在训练阶段用于生成合成对话数据，推理阶段完全消失，用户直接与已"内化"了流程知识的模型对话。换句话说，持久性的结构知识属于权重，而瞬态的上下文信息属于提示词——二者各归其位。

整体流程（四步编译管线）：

定义流程图：将业务流程表示为有向图 F=(N, E, n₀, T)，节点对应对话轮次（含角色和提示模板），边对应状态转移条件，终端节点区分成功/放弃/升级等结果。
合成对话数据生成：遍历流程图中所有合法路径，结合随机采样的场景变量（目的地、预算、用户性格等），用 Claude Sonnet 4.5 逐轮生成自然对话。生成的对话不含任何流程标注，结构隐含在对话走向中。
全参数微调：对小模型（实验中使用 Qwen 2.5 3B / Qwen3 8B）进行全量参数微调（Full Fine-tuning）。论文特别指出 LoRA 等低秩方法在流程内化任务上效果显著不如全量微调，因为流程内化需要修改模型深层的隐式状态追踪行为。
无编排部署：推理时仅给模型一条极简系统提示（如"你是一名旅行预订助手"），无流程指令、无状态注入，模型依赖训练中学习到的统计规律自主执行流程。

关键机制：

流程内化 vs. 流程注入：传统方式每轮将流程图内容塞入提示词；编译方式让模型通过大量覆盖所有路径的对话训练，将流程"记"在权重里，运行时的提示词长度恒定，不随流程复杂度增长。
复杂流程适应性：保险理赔场景含55个节点、6个决策枢纽、2381条唯一路径，通过多次随机种子重复生成训练数据来增加覆盖度，验证方法在复杂流程上的可扩展性。
重新编译周期：流程变更时只需重新走一遍数据生成+微调流程，在生产级硬件上耗时仅 30~50 分钟，等同于一次 CI/CD 发布周期。

实验横跨三个场景，每种条件各评测 200 个场景，以 LangGraph 编排器和上下文基线（In-Context Baseline）为对照：

质量（1~5分制）：

场景	编译模型规模	达到上下文基线的比例	与 LangGraph 编排器对比
旅行预订	3B	任务完成、一致性约 83~88%；优雅处理/自然度约 82%	信息准确性反超（4.75 vs 4.21，p<0.001）
Zoom 客服	8B	87~98%	与使用约70倍参数量前沿模型的编排器持平
保险理赔	8B	87~98%	持平；失败率更低（9% vs 17%）

3B 编译模型在 4/5 项质量指标上显著优于同规模的编排方案（p<0.001）
失败率对比：旅行场景编译模型 5.5% vs 编排器 24%；保险场景 9% vs 17%
GPT-4.1 独立评审复验结果与 Claude 评审一致，结论稳健

成本：

每轮对话成本比上下文基线低 128~462 倍（自托管带来约 65 倍 per-token 降低 + 2~7 倍 token 用量减少）
推理延迟在保险场景降低 2.8 倍
流程越复杂，优势越大（因为编译模型的提示词长度恒定）

灵活性：

流程更新后重新编译耗时 30~50 分钟，远非开发者普遍担忧的"漫长重训练"

「地下智能体（Subterranean Agent） 通过将业务流程图编译进小模型权重（全量微调），实现了接近前沿大模型 87~~98% 的对话质量，且推理成本降低两个数量级，流程更新仅需 30~~50 分钟重新编译。」

Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost