Editing Language Model-based Knowledge Graph Embeddings

基于语言模型的知识图谱嵌入
原文链接：https://arxiv.org/abs/2301.10405
Comment: AAAI 2024.03

摘要

基于语言模型的KG嵌入通常部署为静态工件，这使得它们在部署后如果不重新训练就很难修改。在本文中提出了一个编辑基于语言模型的 KG 嵌入的新任务。
此任务旨在促进对 KG 嵌入进行快速、数据高效的更新，而不会影响其他方面的性能。
构建了四个新的数据集E-FB15k237、AFB15k237、E-WN18RR 和 A-WN18RR，并评估了几个知识编辑基线，这些基线表明以前的模型处理所提出的具有挑战性的任务的能力有限。我们进一步提出了一个简单而强大的基线，称为 KGEditor，它利用超网络（引入额外参数层）来编辑/添加事实。

引言

研究的背景与动机
- KG的重要性：结构化知识的表示形式，广泛应用于信息检索、问答系统、推荐系统等任务，其质量直接影响下游应用的效果。
- 语言模型与KG嵌入的结合：近年来，预训练语言模型（BERT、GPT）被用于生成KG实体和关系的嵌入向量（KG embeddings），这类方法能够捕捉丰富的语义信息，优于传统基于规则或统计的方法。
- 静态模型的局限性：当前基于语言模型的KG嵌入通常是静态的（即训练后参数固定），无法动态适应KG的更新需求（如新增事实或修正错误）。这导致知识过时、模型与现实知识脱节等问题。
本文的核心任务与目标
- 提出新任务：定义“编辑KG嵌入”的任务，具体包括两种场景：
  - EDIT（编辑）：修正KG中错误的事实（错误的实体关系）。
  - ADD（添加）：向KG中新增知识（添加新的实体-关系对）。
- 目标：在不重新训练整个模型的前提下，通过局部调整实现对KG嵌入的高效编辑，同时保持其他知识的完整性。
方法和创新点
- KGEditor 方法：提出一种基于超网络的轻量级编辑框架，通过引入额外参数层，仅修改与目标知识相关的嵌入，避免全局扰动。
- 数据集构建：为评估编辑效果，构建了四个新数据集（E-FB15k237、A-FB15k237、E-WN18RR、A-WN18RR），分别对应编辑和添加任务。
- 评价准则：
  1. 知识可靠性（Knowledge Correctness）：编辑后的知识是否准确。
  2. 知识局部性（Knowledge Locality）：编辑操作对其他知识的影响是否最小。
  3. 知识效率（Knowledge Efficiency）：编辑过程是否资源友好（如计算和存储开销）。
主要贡献
- 任务定义与数据集：首次明确“编辑KG嵌入”的任务，并构建了标准化数据集，为后续研究提供基准。
- KGEditor 方法：提出一种高效、灵活的编辑框架，能够快速更新KG嵌入，同时避免知识遗忘。
- 实证分析：通过对比实验验证了KGEditor在可靠性、局部性和效率上的优势，揭示了当前方法在编辑KG嵌入上的不足。

方法

任务定义

任务目标：在不重新训练整个语言模型的前提下，对基于语言模型生成的KG嵌入进行局部修改，以实现动态更新知识图谱中的实体或关系，同时保持其他知识的完整性。
任务分类
- KG的知识定义（h,r,t）h头实体，r关系，t尾实体
- EDIT
  - 目标：修正知识图谱中已存在的错误事实
  - 知识定义(h,r,y,a)或(y,r,t,a)其中y为错误/过时实体，a表示真确要替换y的实体
- ADD
  - 目标：向知识图谱中新增实体或关系。
  - 同时需要维护模型的稳定性其中 x′ 和 y′ 分别表示模型中存储的事实知识的输入和标签
评估指标
- 知识可靠性(Knowledge Reliability)
  - 编辑后的嵌入是否能正确预测目标事实
  - 指标：Succ@k（Top-k的比例）
- 知识局部性(Knowledge Locality)
  - 编辑KG嵌入后对原有知识的影响
  - 其中 x′ 是从原始的预训练数据集中采样获取的， f(x′;W)≤k 代表的是由原始参数 W 的模型预测的rank值小于 k 的统计， W~ 表示的是更新后的参数。
  - 其中 Redit 和 Rorigin 代表的模型编辑前后需要编辑数据集的平均rank值， Rs_edit 和 Rs_origin 表示的是模型编辑前后参考数据集的平均rank值。
- 知识效率(Knowledge Efficiency)
  - 旨在评估编辑的效率
  - 指标：编辑器的参数量和编辑时间

数据集构建

基础数据集
- Freebase（FB15k237）：一个大规模知识图谱，包含实体、关系和三元组，广泛用于KG嵌入研究。
- WordNet（WN18RR）：一个基于语义的词汇数据库，包含词与词之间的层次化关系。
衍生数据集
- EDIT任务：E-FB15k237, E-WN18RR
- ADD任务：A-FB15k237, A-WN18RR
关键构建步骤
- 排除简单样本（数据预处理）
  - 问题：预训练语言模型（PLM）本身已包含大量事实知识，可能直接预测正确尾实体，干扰编辑效果评估。
  - 解决方案：筛选 预测排名 > 2,500 的三元组作为候选集。将预测排名<2500的视为简单样本，剔除。
  - 目的：数据过滤，为后续任务提供高质量评估集
- EDIT 任务数据集构建
  - 目标：训练和评估修正错误知识的能力
  - 构造流程：
    1. 生成错误知识：从现有知识图谱中随机破坏三元组以生成损坏的数据集
    2. 训练需编辑的模型：用损坏数据集微调PLM，生成一个包含错误知识的待编辑模型。
    3. 过滤：
      - Edit Dataset：模型预测结果错误的三元组
      - 参考集 (L-Test)：模型依旧预测正确的（用于评估知识局部性）。
- ADD任务数据集
  - 目标：评估新增未见知识的能力
  - 数据划分：
    - 预训练集：原始训练集（不含新增三元组）。
    - 新增集 (Train)：完全独立的新三元组（从困难样本中选择）。
  - 关键区别：
    - 直接使用新增集作为测试集（因新增知识从未出现在预训练数据中）。
  - 参考集 (L-Test)：同EDIT任务，用于检验新增知识是否干扰原有知识。

基于语义模型的KGE

FT-KGE：微调方式
- 将三元组 (h, r, t) 转换为文本序列（例如：[CLS] + h描述 + [SEP] + r描述 + [SEP] + t描述）。
- 任务形式：二元分类（判断三元组是否有效）：y∈{0,1} 表示三元组正确性。
PT-KGE：提示调优方式
- 将三元组转换为自然语言提示（例如：“h r [MASK]”），将链接预测转化为掩码预测任务。
- 实体扩展：将 KG 中所有实体视为语言模型的特殊 token，扩展词汇表。
- 任务形式：预测掩码位置的实体：
KGEditor 编辑框架独立于 KGE 构建方法，可同时应用于 FT-KGE 和 PT-KGE 生成的嵌入。

编辑KGE的基线模型

外部模型编辑器
- 利用超外部网络来获取参数的偏移并添加到原始模型参数中进行编辑（将原始实体 y 替换为实体 a）修改的保持全局的一致性
- 核心思想：通过外部超网络生成参数更新量（ΔW），间接修改原模型参数。
- 代表方法：
  - **KE：**使用双向LSTM作为超网络，学习参数更新量 ΔW。
  - MEND：用MLP预测微调梯度的低秩分解，生成轻量级参数更新。适用于大模型（如BART、GPT-3）的高效编辑。
- 优势：灵活性强，不直接改动原模型结构。
- 局限：需额外训练超网络，参数量较大。
附加参数编辑器
- 核心思想：在模型内部添加可训练参数层，调整输出分布以实现编辑。
- 代表方法：CALINET
  - 假设FFN存储事实知识，通过添加带“校准记忆槽”的小型FFN层调整原FFN输出。
  - 参数量小，但编辑能力有限。
- 优势：参数量少，计算高效。
- 局限：依赖FFN存储知识的假设，对复杂编辑任务效果不佳。

KGEditor

利用超外部网络来更新 FFN 中的知识（上：EDIT，下：ADD）。

KGEditor融合外部模型编辑器和附加参数编辑器的优势，提出一个简单健壮的基线模型。
使用双向LSTM构建超网络。对 ⟨x、y、a⟩ 进行编码，用特殊的分隔符将它们连接起来，给LSTM。然后双向 LSTM 的最后的输出送到 FNN 中，以生成用于知识编辑的单个向量H。
低秩梯度变换

评估

实验设置

数据集：使用构建的数据集E-FB15k237、AFB15k237、E-WN18RR 和 A-WN18RR
模型初始化：使用预训练数据集（EDIT任务用被破坏的训练集，ADD任务用原始训练集），基于BERT初始化KG Embedding
训练与评估：
- 编辑器（Editor）使用训练集训练，测试集评估
- ADD任务直接使用训练集评估（因新知识未出现在预训练中）
微调方式：采用PT-KGE作文默认设置

主要结果

EDIT任务：
- KGE_FT：直接微调所有参数;KGE_ZSL：不调整任何参数;K-Adapter：使用适配器微调参数。CALINET：扩展FNN;KE和MEND：使用外部编辑器
- 知识可靠性：KGEditor在Succ@1和Succ@3上显著优于基线。
- 知识局部性：KGEditor的RK@3最高，表明其最小化对原有知识的干扰。
- 效率：KGEditor参数量（38.9M）远低于KE（88.9M）和MEND（59.1M），且推理时间更短。
ADD任务：
- 可靠性：KGEditor在Succ@1接近全参数微调（KGE_FT），且显著优于其他编辑器。
- 局部性：KGEditor的RK@3最高，且RKroc（稳定性变化率）最低。
KG初始化方法对比：PT-KGE在知识可靠性（ERroc）和局部性（RKroc）上均优于FT-KGE，表明Prompt更适合编辑任务。
编辑知识数量的影响：
- 单次编辑中修改的三元组数量
- 所有模型的Succ@1下降，但KGEditor和KE的局部性（RK@3）更稳定，MEND则显著下降。
可视化案例：编辑后目标实体（如"Marc Shaiman"）进入预测中心，其他实体位置基本不变，直观验证了知识可靠性和局部性。