模型蒸馏

模型蒸馏旨在在不影响模型性能的基础上,减模型参数量,减少部署的压力。

类似于用一个更小的模型来学习大模型中的知识点。

介绍

名词解释

  • teacher -> 原始模型或模型ensemble
  • student -> 蒸馏得到的模型
  • transfer set -> 用来迁移teacher知识、训练student的数据集合
  • soft target -> teacher输出的预测结果(一般是softmax之后的概率)
  • hard target -> 样本原本的标签
  • temperature -> 蒸馏目标函数中的超参数
  • born-again network -> 蒸馏的一种,指student和teacher的结构和尺寸完全一样
  • teacher annealing -> 防止student的表现被teacher限制,在蒸馏时逐渐减少soft targets的权重


参考链接:


转载请注明: 小猫杂货铺 模型蒸馏

目录