大型语言模型人类评估中的认知偏差考量
大型语言模型LLM能够生成极其流畅的自然语言文本而这种流畅性可能会蒙蔽人类的思维使其忽略内容的质量。例如心理学研究表明高度流畅的内容可能被视为比不够流畅的内容更真实、更有用。对流畅言语的偏好是认知偏差的一个例子即大脑采取的一种捷径这种捷径虽然在进化上有用但也可能导致系统性错误。在本年度计算语言学协会ACL会议上发表的一篇立场论文中通过将LLM的现实世界评估与人类心理学研究进行比较得出了关于认知偏差的实践性见解。科学依赖于实验结果的可信度在LLM时代以正确的方式衡量正确的指标对于确保可信度至关重要。例如在一个旨在确定LLM的输出在特定应用场景如提供法律或医疗建议中是否真实有用的实验中考虑诸如流畅度和用户的认知负荷等因素至关重要。如果冗长、流畅的内容导致用户忽略了关键错误并对有缺陷的内容给予高分那么实验设计就需要重新调整。因此对于评估真实性等任务建议将内容分解为单个事实并由人类评估者仅判断给定事实是否正确——而不是为整个内容分配一个数值评分。在负责任的人工智能RAI评估中考虑人类背景也很重要有毒和刻板印象是由评估者主观判断的。因此模型的评估者应尽可能多样化。在评估LLM时探询它们相对于特定用例的优缺点也至关重要。最终用户会向LLM提出各种问题。在医疗等安全关键型应用中考虑这种多样性尤为重要因为这些领域错误成本可能很高。同样同一个提示可以用多种方式构建测试场景需要反映这种可变性。如果不能做到这一点得到的评估数据可能无法代表模型在实际应用中的性能。评估标准也同样重要。虽然有通用的优秀评估方法如“有帮助、诚实、无害”HHH基准但特定领域的评估标准可以更加深入。例如在法律领域可能需要了解模型在给定证据的情况下预测案件结果的能力有多强。科学实验的另一个基本原则是可重复性这一原则同样适用于LLM评估。虽然自动化评估程序是可重复的但人工评估可能会因评估者的个性、背景、情绪和认知状态而异。论文强调人类评估本身并不能建立一个黄金标准需要理解评估我们系统的用户的认知行为。最后人类评估的实践性体现在时间和成本上。人工评估是一个昂贵的过程了解评估的哪些方面可以自动化或简化对于更广泛地采用至关重要。在论文中作者将这些论点提炼为对大型语言模型进行人工评估的六个关键原则并将其归纳为首字母缩写词ConSiDERS代表一致性、评分标准、区分度、用户体验、责任和可扩展性一致性人类评估的结果必须可靠且可推广。评分标准评分标准必须既包含通用标准如可读性又要根据目标任务或领域的目标进行调整。区分度评估测试集必须能够区分生成式LLM的能力和弱点。用户体验在实验设计和结果解释中评估必须考虑评估者的体验包括他们的情绪和认知偏差。责任评估需要符合负责任的人工智能标准考虑偏见、安全性、健壮性和隐私等因素。可扩展性为促进广泛采用人类评估必须是可扩展的。关于该框架应用的更多详细信息请参阅论文“ConSiDERS——人类评估框架重新思考生成式大型语言模型的人类评估”。FINISHED更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2427984.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!