跳到主要内容

评估指标(BLEU、ROUGE、METEOR、BERTScore)

分类任务常用指标(Accuracy / Recall / Precision)见 1.2.4 评估指标与交叉验证

rouge

主要用于对比一个文本和多个文本之间相似度的指标

主要用于对比一个文本和多个文本之间相似度的指标

bleu

主要用于机器翻译的任务当中

从上述的 show case 中可以看出,是根据输入文本中的 n-gram 匹配长度来计算的,同时还具有顺序信息

从上述的 show  case 中可以看出,是根据输入文本中的 n-gram 匹配长度来计算的,同时还具有顺序信息

从上述的 show  case 中可以看出,是根据输入文本中的 n-gram 匹配长度来计算的,同时还具有顺序信息

LLM Alignment 中的评估

Truthfulness

Helpfulness

Effectiveness

Creativity

Safety

参考资料

https://research.aimultiple.com/large-language-model-evaluation/

https://github.com/huggingface/evaluate/tree/main/metrics