2025_NIPS_Handling Missing Responses under Cluster Dependence with Applications to Language Model Ev
文章主要内容总结本文聚焦集群依赖下存在缺失响应的均值估计问题,核心围绕双重稳健(DR)估计器展开研究,旨在解决AI模型评估(如大语言模型人工标注)中常见的缺失标注与数据集群相关性两大挑战。文章分两种场景分析:一是同质抽样下的集群缺失数据,二是序列抽样下含时间依赖的集群缺失数据;通过理论推导建立DR估计器的渐近正态性,提出集群稳健方差估计方法,并通过模拟实验和OpenAssistant对话数据集验证方法有效性,最终证实考虑集群依赖能实现无偏估计和有效量化不确定性。创新点拓展DR估计器的理论边界,首次在集群依赖场景下(允许集群规模无界)建立渐近正态性,揭示收敛速率与集群内相关性、干扰函数估计误差相关。提出序列抽样场景下的历史信息总结变量(S_{gt}),解决时间依赖导致的干扰函数建模难题,适配大语言模型多轮交互评估等实际场景。验证集群稳健方差估计的必要性,通过实验证明传统独立假设下的方差估计会低估不确定性,而本文方法能实现名义覆盖率。采用非参数建模思路,兼容现代机器学习方法估计干扰函数,避免传统参数假设的局限性,提升方法适用性。Abstract(摘要翻译)人工标注在评估生成式AI模型性能中起着关键作用。然而,实践中存在两个常见挑战:缺失标注(目标响应变量)和人机交互中的集群依赖(例如,同一用户提出的问题可能高度相关)。可靠的统计推断必须同时解决这两个问题,以在通过人工标注估计平均得分时实现无偏估计并恰当量化不确定性。本文分析了在缺失数据分析和因果推断中广泛使用的
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2442203.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!