Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models
论文提出了一种不需要任何标注数据即可进行训练的有监督(SFT)训练方法,其核心在于 self-play 的机制,通过自己来评估自己的输出(有点类似于多 Agent),进而让大模型能够进行不断地迭代。
论文提出了一种不需要任何标注数据即可进行训练的有监督(SFT)训练方法,其核心在于 self-play 的机制,通过自己来评估自己的输出(有点类似于多 Agent),进而让大模型能够进行不断地迭代。