论文信息

名称	内容
论文标题	HPT: Hierarchy-aware Prompt Tuning for Hierarchical Text Classification
论文地址	https://arxiv.org/abs/2204.13413
研究领域	NLP, 文本分类, 提示学习, 层级标签文本分类
提出模型	HPT(Hierarchy-aware Prompt Tuning)
来源	EMNLP 2022
源码	https://github.com/wzh9969/HPT

阅读摘要

本文是较早把Prompt应用到层级多标签文本分类领域的论文。思路是把层级标签分层编入到Pattern中，然后修改损失函数以适应多标签的分类任务。

[0] 摘要

作者在描述创新点和思路时，主要抓住gap这个词：

1、使用预训练语言模型PLM微调做层级多标签文本分类的常规方法，与掩模语言模型(MLM)预训练任务之间存在巨大差距，所以要把分类任务移植为MLM的形式，来弥补差距。

2、MLM任务是多分类任务，层级多标签分类是多标签分类任务，两者的损失函数不一样，存在差距。

作者思路就是弥补上述两个差距。

[1] 介绍

层次文本分类HTC是一个多标签文本分类问题，分类结果对应于层次结构的一条或多条路径。

在这里插入图片描述
上图中，(a)表示传统PLM解决HTC的模型结构，文本直接输入PLM里面去编码，层级标签信息会建模成树型或图型结构（通常是GAT，即图注意力网络）。

【注】由于文本编码模型这块已经有点饱和了，所以你可以看到现在好多硕士论文都在探索“标签相关性”的概念，这个概念就会与GAT或者图有关。

尽管Fine tuning取得了成功，但GPT3的问世引起了大家对Prompt Learning的思考：Fine tuning可能限制了微调模型充分利用PLM中的知识。因此要使用Prompt，弥合PLM的下游任务和预训练任务之间的差距，从而充分挖掘PLM的潜力。

当使用Prompt Learning(或者说MLM任务)解决HTC任务时，就会产生两个问题：

1、掩模语言模型(MLM)的标签是平面的，HTC的层次结构标签怎么拓展到MLM任务上。

2、MLM任务是多分类任务，层级多标签分类是多标签分类任务，如何设置损失函数。

如上图中(b)，作者把层级信息注入到MLM任务的Soft Pattern中，以解决问题1；使用零界多标签交叉熵损失解决问题2。

[2] 相关工作

[2.1] HTC

根据使用标签层次结构的方式，HTC的现有工作可以分为局部方法和全局方法：局部方法为每个节点或级别构建分类器，而全局方法仅为整个图构建一个分类器。

早期的全局方法忽略了标签的层次结构，并将问题视为扁平的多标签分类。后来，一些研究尝试通过元学习、强化学习和注意力模块来合并标签结构。虽然这些方法可以捕获分层信息，但通过结构编码器直接编码整体标签结构可以进一步提高性能。

[2.2] Prompt tuning

主要介绍了Hard Prompt和Soft Prompt。

[4] 方法

介绍了两点：怎么把树形标签结构过渡到MLM任务中；怎么解决多标签文本分类的损失。
在这里插入图片描述

【注】如上图：
part 1是模板，可以看到在常规文本输入之后，还拼接了一些特殊的伪标签；
part 2是分层感知提示模块，标签树的每一层都做一个标记 $t_i$ ，放入模板中， $t_i$ 后面还跟了 $e_{[PRED]}$ 来预测这个标记，经过MLM模型后，标记 $t_i$ 只会预测对应层级的标签，文中称之为层级约束Hierarchy Constraint；
part 3是MLM任务的损失，许多Prompt Text Classification论文里面又称为auxiliary loss，其实是BERT会对输入随机mask掉15%后计算的损失，它和我们计算分类的损失可以认为是独立的，互不干扰；
part 4是层级分类的损失函数，论文中没有使用常规的多标签分类损失BCELoss，而是提出了Zero-bounded Multi-label Cross Entropy Loss。

[4.1] 分层感知提示

层级约束

为了合并标签层次结构，提出分层提示。由于标签层次结构是树状结构，因此基于层次结构的深度来构造模板。

给定一个预定义的标签层次yh = (Y, E)，深度为L，输入文本为x，则模板为[CLS] x [SEP] [V1] [PRED] [V2] [PRED]…”[vl] [pred] [sep]。特殊的[PRED]令牌进行标签预测，表示多标签预测。

对于verbalizer，为每个标签yi创建一个可学习的虚拟标签单词vi，并通过对其对应标记的平均嵌入来初始化其嵌入vi。如图2中绿色部分所示，不预测一个槽中的所有标签，而是根据标签的层将标签分成不同的组，并约束[PRED]只预测一个层上的标签。为此，每个模板词[Vi]后面跟着一个[PRED]标记，用于第i层的预测。

层级注入

层级约束只引入了标签的深度，但缺乏它们的连通性与层级结构。为了解决标签层次的连通性问题，文章提出层级注入。

如part 2的蓝色部分，作者使用GAT来编码标签信息，并把层级信息注入到输入的模板中。