013、微调中的评估体系:自动化指标与人工评估设计
微调中的评估体系:自动化指标与人工评估设计从一次深夜调试说起上周三凌晨两点,我在实验室盯着屏幕上的评估报告发愣。模型在BLEU分数上比基线高了3个点,但实际跑出来的生成结果简直没法看——格式混乱、逻辑跳跃,甚至出现了明显的常识错误。那一刻我突然意识到:我们太依赖那几个数字指标了,而真正的模型表现远不是几个分数能概括的。自动化指标:必要的“快照”自动化指标就像汽车的仪表盘,能快速告诉你当前速度、转速,但没法告诉你这车开起来舒不舒服、过弯稳不稳。常用指标工具箱:# 典型评估代码片段defcalculate_metrics(predictions,references):# BLEU - 机器翻译的老朋友,但对语义不敏感# 这里踩过坑:BLEU高不代表翻译质量好,可能只是n-gram匹配度高bleu_score=corpus_bleu(references,predictions)# ROUGE - 文本摘要常用,关注召回率# 注意:ROUGE-L对长序列评估比较稳定rouge_scores=rouge.get_scores
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2528136.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!