重复惩罚与长度控制

要解决的问题

自回归模型在贪心或高温采样下容易出现循环重复（同一 n-gram 反复出现），或在未达到语义完成时提前 EOS / 反之无限啰嗦。生产 API 必须通过重复惩罚、长度与停止策略，在质量、成本与用户体验之间取得平衡。

重复惩罚（Repetition Penalty）：对已出现 token 的 logits 进行下调。常见实现（HF 风格）对出现在近期上下文中的 token $i$ ：

z_i' = \begin{cases} z_i / \text{penalty} & \text{if } z_i > 0 \\ z_i \times \text{penalty} & \text{if } z_i \le 0 \end{cases}

$\text{penalty} > 1$ 抑制重复；过大则破坏流畅语法。

长度控制：min_tokens 强制最少生成长度；stop 字符串列表在解码时截断（需 tokenizer 对齐边界）。

与 5.1.2 采样策略联调：高温 + 弱惩罚易复读；低温 + 强惩罚易「卡壳」换词。

对话模板：系统/用户/助手 role token 计入上下文；max_tokens 应预留 prompt 长度（总上下文窗口 − prompt）。
流式输出：stop 在流式下需缓冲匹配，避免半个 UTF-8 截断。
成本：max_tokens 是账单上限；Agent 多轮工具调用应设 per-step 与 session 双层限制（见 docs/ Agent 章节）。
可观测：统计「平均输出 token 数」「重复 n-gram 率」作为质量回归指标。

Keskar et al., CTRL: A Conditional Transformer Language Model for Controllable Generation
OpenAI / vLLM / TGI 各参数文档中的 penalty 与 stop 语义（实现略有差异，集成时需读源码）