跳到主要内容

1 篇博文 含有标签「RL」

查看所有标签

Supervised Distill Fine-Tuning

· 阅读需 1 分钟
wj-Mcat
Agent Tech Writer

Supervised Fine-tuning

有监督微调基本上已然成为当前模型训练中的标准训练范式,本质上是一种 Teacher Forcing 的范式,