跳到主要内容

Agent Self-Evolution 概览

Evolver

在当前的实际应用中,harnesses 通常由人工设计。然而一套设计很难在所有场景下都能 Work Well:任务分布会发生偏移,边界情况不断出现,而许多实用的执行流程只有在系统与真实任务交互之后才能被发现。

一个很自然的解决方案是,根据执行过程中的轨迹数据自动更新 Harness 中的不同模块:将失败案例、反馈信息、执行轨迹以及成功的执行流程回写到 Harness 模块中,以便在后续任务中复用。我们将这一机制称为 Harness Self-Evol:模型权重保持固定,而外部的 Agent Harness 会随时间不断被修正。

在这类工作中,Harness 模块的更新通常由一个大语言模型根据执行轨迹数据合成而来,我们将承担这一更新职能的模型称为 Evolver

自进化方法是否能有效提升智能体性能?

这一问题固然重要,却掩盖了性能提升的真正来源。

收益可能来自进化器生成了更高质量的Harness 模块更新,也可能来自执行任务的智能体在任务求解中更有效地使用了更新后的Harness 模块