相似度系列8:unify-BARTSCORE: Evaluating Generated Text as Text Generation

news2025/7/6 21:33:15

BARTSCORE: Evaluating Generated Text as Text Generation

这篇文章是用生成模型解决问题,根据生成模型中输入和输出的差别,代表不同的评测方面。

不足:针对不同的任务选择bart score的输入和输出?different input and output contents
weight 为什么等权重?

摘要部分

One of big challenge of the these applications is how to evaluate the genertated texts are actually flent, accruate, or effective.
The general idea is that models trained to convert the gererated text to a reference output or the source text will achieve higher scores when the gererated text is better.

在introduction中,介绍背景和research community jobs之后,转到现在的问题上,however …This lead to potential under-utilization of the pretrain model.
然后,新的一段,介绍自己的工作.In this paper we ....

新的一段,介绍result 。Experimentally,we evaluate ....

方法

问题定义:
In this work, we focus on
conditional text generation (e.g., machine translation), where the goal is to generate a hypothesis
(h = h1, · · · , hm) based on a given source text (s = s1, · · · , sn). Commonly, one or multiple
human-created references (r = r1, · · · , rl) are provided to aid this evaluation

人类是怎么评价相关工作的?

  1. 信息性(INFO)。生成的假设在多大程度上抓住了源文本的关键思想[18]。
  2. 相关性(REL)。生成的假说与源文本的一致性如何[19]。
  3. 流畅性(FLU)。文本是否有格式问题、大小写错误或明显不符合语法的句子(如片段、缺失的成分)而导致文本难以阅读[13]。
  4. 连贯性(COH)。文本是否从一个句子到另一个句子建立起一个关于主题的连贯的信息体[7]。
  5. 事实性(FAC)。生成的假说是否只包含源文本所包含的语句[30]。
  6. 语义覆盖率(COV)。生成的假说覆盖了多少参考文本的语义内容单元[50]。
  7. 适当性(ADE)。输出是否传达了与输入句子相同的意思,而且没有任何信息被丢失、添加或扭曲[29]。

前人工作——使用不用的模型评价
T1: Unsupervised Matching. Unsupervised matching metrics aim to measure the semantic equivalence between the reference and hypothesis by using a token-level match

BERTScore [76], MoverScore [77] or discrete string space like ROUGE [35], BLEU [51], CHRF [53]

T2: Supervised Regression. Regression-based models introduce a parameterized regression layer

BLEURT [63], COMET [57] and traditional metrics like S
[52], VRM [21].

T3: Supervised Ranking. Evaluation can also be conceived as a ranking problem, where the main
idea is to learn a scoring function that assigns a higher score to better hypotheses than to worse ones

COMET [57] and BEER [65]

T4: Text Generation. In this work, we formulate evaluating generated text as a text generation task
from pre-trained language models. The basic idea is that a high-quality hypothesis will be easily
generated based on source or reference text or vice-versa.

PRISM

bart score

根究文本生成的顺序,或者可以描述为参考句子和生成句子,判断bart score描述的是哪个方面。
在这里插入图片描述
- - 忠实度(s → h):从源文件到假设的p(h|s,θ)。这个方向衡量的是基于源文本产生假设的可能性有多大。潜在的应用场景是§2.2中介绍的事实性和相关性。这个衡量标准也可用于估计只衡量目标文本的质量,如连贯性和流畅性(§2.2)。
- - 精度(r→h):从参考文本到系统生成的文本p(h|r, θ)。这个方向评估了根据黄金参考文献构建假设的可能性,适用于**以精度为重点**的情况。
- - 召回率(h→r):从系统生成的文本到参考文本p(r|h,θ)。这个版本量化了假设生成黄金参考文献的难易程度,适用于总结任务中基于金字塔的评估(即第2.2节中介绍的语义覆盖率),因为金字塔得分衡量了系统生成的文本所覆盖的细粒度语义内容单位(SCU)[50]。
- - F得分(r ↔ h)。考虑到两个方向,并使用精度和召回率的算术平均数。该版本可广泛用于评估参考文本和生成文本之间的语义重叠(信息量、充分性,详见第2.2节)。

变体

加不加prompt,在哪加?

  1. 在生成文本还是在原始输入文本中加prompt
  2. prompt制作的问题,是采用hard craft 方法还是soft prompt 方法。——

人为制作的方式,在种子prompts的基础上,收集其他的prompts.

  1. prompt数量的问题
    在这里插入图片描述

测评

测评是采用Pearson Correlation[15]测量两组数据之间的线性相关。Spearman Correlation [73] 评估两个变量之间的单调关系。Kendall’s Tau[27]测量两个测量量之间的顺序关联。准确度,在我们的实验中,衡量事实性文本和非事实性文本之间正确排名的百分比。

实验

机器翻译实验

在这里插入图片描述

data2 text 实验

文本总结实验

在这里插入图片描述

细粒度分析

在这里插入图片描述
第一张图片是在不同top-k的机器翻译系统下,不同metric的性能变化趋势。可以发现,当k增加的时候,BA下降趋势是较为平稳的。BA的相关性也是优于几个模型的。
(折线图分析的是下降趋势和整体性能)

第二张图是分析,在不同的reference length条件下的模型性能。整体来看,BA平稳。但性能上,用了tie with other unsupervied models.

第三张图是分析prompt的影响,分为了三种。分别测评的。

bias分析

在这里插入图片描述
BARTScore is less effective at distinguishing the quality of extractive summarization systems while much better at distinguishing the quality of abstractive summarization systems.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/7054.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Allegro 172版本自动放置层叠

Allegro 172版本自动放置层叠 Allegro 172版本支持自动放置层叠,无需手动绘制,效果如下图 具体操作步骤如下 选择Manufacture-选择Cross Section Chart命令 会出现一个对话框 常用参数介绍如下 Chart Unit 是层叠单位 Maximun Chart height 是层叠的高度 X-Scale Factor…

预约挂号项目之预约挂号模块

目录一、预约挂号详情1、需求分析2、api接口2.1 、controller代码:2.2 、Service类接口:2.3 、添加service接口实现:学习指南: https://www.zhihu.com/question/351439302/answer/2362637429?utm_id0 一、预约挂号详情 1、需求…

[数据结构]链表OJ题 (三) 链表的中间结点、链表中倒数第k个结点、合并两个有序链表、链表分割、链表的回文结构

作者: 华丞臧. 专栏:【数据结构】 各位读者老爷如果觉得博主写的不错,请诸位多多支持(点赞收藏关注)。如果有错误的地方,欢迎在评论区指出。 推荐一款刷题网站 👉 LeetCode刷题网站 文章目录一、链表的中间结点题目描述…

Python学习笔记(十六)——Numpy

Numpy NumPy(Numerical Python的简称)是高性能科学计算和数据分析的基础包, 其中包含了数组对象(向量、矩阵、图像等)以及线性代数等。 NumPy库主要功能 • ndarray(数组)是具有矢量算术运算和复杂广播能力的多维数组。 • 具有用于对数组数…

项目资源管理从学会向上管理开始

“如何一句话证明你当过项目经理?” 这个话题在网上引发了广大项目管理人的兴趣,纷纷发表了个人看法(变相吐槽)。各种回答戳中笑点,同时也表达了作为项目经理的心酸。  “普通的薪资水平,却要为整个项目的…

基于微信公众平台API的菜谱小程序 的设计与实现

摘 要 由于人们生活水平的不断提高,人们对网络的需求也是不断提高,但是又不想通过下载各种不常用的app增加手机内存。小程序正好就可以做到这个特点,不用下载、及实际用、用完就走,现在很多的行业兴起,尤其餐饮行业最…

D. Decrease the Sum of Digits

Problem - 1409D - Codeforces 题意: 你得到了一个正整数n。在一次移动中,你可以使n增加1(即使n:n1)。你的任务是找出为了使n的数位之和小于或等于s,你需要执行的最小移动数。 你必须回答t个独立的测试案例。 输入 输入的第一…

基于最小二乘支持向量机(LS-SVM)进行分类、函数估计、时间序列预测和无监督学习(Matlab代码实现)

📝个人主页:研学社的博客 💥💥💞💞欢迎来到本博客❤️❤️💥💥 🏆博主优势:🌞🌞🌞博客内容尽量做到思维缜密,…

Webpack基础使用 + 高级配置【重点!】

http://xxpromise.gitee.io/webpack5-docs/senior/optimizePerformance.html#code-split 笔记好评!!!!一定要把网址记好,真的nice!!!! 只是发博客记录一下,没…

java后端pageHelper分页实现方法

文章目录背景方法一:mysql的limit进行分页方法二:使用插件Mybatis-PageHelper(拦截器原理)1、本质2.实现步骤引入依赖修改application.yml修改代码总结背景 当一次查库数据量较大,不光给数据库带来压力,同时前端渲染页面压力也很…

Linux权限

系列文章目录 Linux 环境搭建以及xshell远程连接_crazy_xieyi的博客-CSDN博客 Linux常用命令详解_crazy_xieyi的博客-CSDN博客 文章目录 一、用户操作二、三种角色三、文件类型和访问权限四、修改文件权限一、用户操作 Linux下有两种用户:超级用户(roo…

Java - SpringBoot整合Shiro之缓存功能

Java - SpringBoot整合Shiro之缓存功能前言一. SpringBoot 整合Redis1.1 配置 RedisTemplate1.2 Shiro整合Redis缓存配置1.3 测试前言 在 上一篇文章 主要讲了Shiro权限授权和认证跳过。本篇文章就主要讲解如何整合Shiro和Redis。这样就避免携带同一个Token的时候,…

百趣代谢组学文献分享:真假肥胖?代谢组说了算

肥胖是当今社会面临的很普遍的健康问题之一,超重会显著增加患糖尿病和心血管疾病的风险。而在日常生活中,我们发现有些肥胖者健康状况良好,而有些相对较瘦的人,却存在患糖尿病和心血管疾病的风险。 百趣代谢组学文献分享&#xf…

基于STM32结合CubeMX学习Free-RT-OS的源码之信号量与互斥量

目录 CUBEMX上的配置以及使用 信号量 互斥量 CUBEMX上的配置以及使用 信号量与互斥量都是从队列中衍生出来的,他们是一种特殊的队列。不同的地方在于:他们不含有队列的数据部分,只有队列结构体。 定义属性(这里只有一个名字)和…

Handler 消息队列中的同步屏障——Message

Message 分为3种:普通消息(同步消息)、屏障消息(同步屏障)和异步消息。我们通常使用的都是普通消息,而屏障消息就是在消息队列中插入一个屏障,在屏障之后的所有普通消息都会被挡着,不…

隐式类型转换(整形提升)

隐式类型转换1.定义2.整形提升例子3.char的取值范围和一些技巧1.定义 1.c的整形算术运算总是至少以缺省整形类型的精度来进行的。 2.为了获取这个精度,像字符型,短整形在使用之前会转换为整形,这种转换被称为整形提升 3.整形提升时补最高位的…

Baklib|信息管理和知识管理是如何影响你的业务的?

有效的信息和知识管理可以让您消除库和共享知识。本文讨论了信息管理和知识管理的来龙去脉。信息管理和知识管理通常可以互换使用,但也有关键的区别。了解这些差异以及它们如何影响您的业务,可以使您优化管理策略、简化工作流程并提高生产率。 本文涵盖…

灰色GM(1,1)模型及其在电力负荷预测中的应用附Matlab代码

✅作者简介:热爱科研的Matlab仿真开发者,修心和技术同步精进,matlab项目合作可私信。 🍎个人主页:Matlab科研工作室 🍊个人信条:格物致知。 更多Matlab仿真内容点击👇 智能优化算法 …

【每日一题】LFU 缓存

一个缓存结构需要实现如下功能: void set(int key,int value):加入或者修改 key 对应的 value int get(int key):查询 key 对应的 value 值 但是缓存最多放 K 条记录,如果新的 K 1 条记录需要加入,就需要根据策略删掉…

【面试题】如何替换项目中的if-else和switch

给大家推荐一个实用面试题库 1、前端面试题库 (面试必备) 推荐:★★★★★ 地址:前端面试题库 在项目中,往往会看到很多的if-else或者switch,项目会变得很臃肿,而且不易阅读&…