Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models

论文提出了一种不需要任何标注数据即可进行训练的有监督（SFT）训练方法，其核心在于 self-play 的机制，通过自己来评估自己的输出（有点类似于多 Agent），进而让大模型能够进行不断地迭代。