实体链接与消歧:将文本提及映射到知识库实体的方法
点击“AladdinEdu你的AI学习实践工作坊”注册即送-H卡级别算力沉浸式云原生集成开发环境80G大显存多卡并行按量弹性计费教育用户更享超低价。一、引言试想这样一个场景我们阅读新闻时看到“苹果发布了新款手机”我们的大脑几乎瞬间就能明白这里的“苹果”指的是那家总部位于加州库比蒂诺的科技公司而不是一种水果。这种将文本中的模糊提及与真实世界具体对象关联起来的能力是人类语言理解中一项基础且关键的认知功能。在自然语言处理NLP中模拟这一能力的任务被称为实体链接Entity Linking, EL又称实体消歧Entity Disambiguation。实体链接的正式定义为给定一个文本中的实体提及Entity Mentionm mm以及一个目标知识库Knowledge Base, KBK \mathcal{K}K任务是将m mm映射到K \mathcal{K}K中它所指向的特定实体e ∈ K e \in \mathcal{K}e∈K。如果K \mathcal{K}K中不存在该提及对应的实体则将其链接到一个特殊的空实体NIL。例如句子“乔丹率领公牛队夺得六次总冠军”中“乔丹”提及应被链接到维基百科中的“迈克尔·乔丹”篮球运动员实体而非“乔丹”国家或“乔丹体育”品牌。实体链接在知识图谱构建、智能问答、信息检索、推荐系统、文本理解等众多NLP应用中扮演着不可或缺的角色。以知识图谱构建为例从海量文本中抽取的三元组如乔丹效力于公牛队必须将主语和宾语实体链接到知识库中已有节点才能实现知识的有效融合与推理。在问答系统中问题“苹果公司的CEO是谁”只有先正确链接“苹果公司”实体系统才能查询知识库返回准确答案。然而实体链接是一项极具挑战的任务核心难点在于实体歧义性和实体多样性。实体歧义性同名异义指同一个名称可能对应多个不同的实体如“Washington”可以指美国首都、美国第一任总统或一所大学。实体多样性异名同义指同一实体在文本中可能以不同的名称形式出现如“美国”“美利坚合众国”“U.S.A.”均指向同一个国家实体。此外知识库覆盖度有限、上下文信息稀疏、新兴实体不断涌现等因素进一步加剧了实体链接的难度。本文旨在对实体链接与消歧技术进行系统性的梳理与剖析。第二节介绍实体链接的任务定义、知识库基础与评测体系第三节详述实体链接系统的经典框架与核心技术模块第四节深入探讨候选实体生成与先验概率计算方法第五节重点阐述基于神经网络的上下文匹配与排序模型第六节分析全局一致性消歧方法与图模型第七节介绍面向特定场景的高级主题跨语言链接、零样本链接、中文实体链接第八节总结与展望。二、实体链接基础2.1 任务形式化定义设M { m 1 , m 2 , … , m n } \mathcal{M} \{m_1, m_2, \dots, m_n\}M{m1,m2,…,mn}为输入文档D DD中识别出的所有实体提及通常由命名实体识别工具预先标注。对于每个提及m i m_imi其表面形式Surface Form为s i s_isi上下文为c i c_ici可以是包含该提及的句子或窗口内的词。知识库K \mathcal{K}K是一个有向图或关系数据库包含大量实体节点e ∈ E e \in \mathcal{E}e∈E每个实体具有名称、别名、描述文本、属性、关系等信息。实体链接的目标是为每个m i m_imi预测一个实体e i ∈ E ∪ { NIL } e_i \in \mathcal{E} \cup \{\text{NIL}\}ei∈E∪{NIL}使得e i e_iei是m i m_imi在文档语境中所指的真实世界实体。根据是否利用文档中多个提及之间的关联性实体链接可分为局部模型和全局模型。局部模型独立地为每个提及选择最优实体仅依据该提及自身的上下文全局模型则联合消歧文档中的所有提及考虑实体之间的语义一致性例如同一文档中的实体更可能属于同一领域或具有密切关系。2.2 常用知识库实体链接的性能高度依赖于知识库的规模与质量。常用的开放域知识库包括维基百科Wikipedia最广泛使用的知识源每个页面标题对应一个实体包含摘要文本、信息框、分类标签、超链接和重定向页面。维基百科的超链接天然提供了大量的“提及-实体”对应标注是实体链接训练数据的金矿。DBpedia从维基百科抽取的结构化知识库为每个维基百科实体定义了统一资源标识符URI并提供丰富的属性与关系。YAGO融合了维基百科的分类体系与WordNet的语义层次实体数量庞大且质量较高。Freebase谷歌早期构建的大规模协作知识库后被迁移至Wikidata。Wikidata维基媒体基金会维护的结构化知识库支持多语言是当前最活跃的开放知识库项目。2.3 评测数据集与指标实体链接领域有多个经典的评测基准AIDA CoNLL-YAGO基于路透社新闻语料的评测集包含AIDA-train、AIDA-A、AIDA-B三个子集是使用最广泛的英文实体链接数据集。TAC KBP Entity Discovery and LinkingEDL由美国国家标准与技术研究院NIST组织的年度评测涵盖新闻和论坛文本注重跨文档实体链接和NIL聚类。Web QuestionsWebQ基于Freebase的问答对数据集常用于评测实体链接在问答系统中的应用效果。GERBIL一个统一的实体链接评测框架集成了多个数据集和评测工具便于不同系统间的公平比较。评测指标通常采用微平均准确率或宏平均F1值。对于需要区分NIL的场景还会报告链接准确率仅考虑知识库内实体和NIL召回率。三、实体链接系统的经典框架一个典型的实体链接系统通常包含三个核心模块候选实体生成Candidate Generation对于每个提及从知识库中快速召回一小部分可能的候选实体。目的是降低后续排序的计算负担。候选实体排序Candidate Ranking利用提及的上下文信息对候选实体列表进行精细打分和排序选出最匹配的实体。不可链接提及预测NIL Prediction判断提及是否在知识库中没有对应实体若是则返回NIL或将其聚类为新的实体。早期方法如Bunescu Pasca, 2006Cucerzan, 2007主要依赖信息检索技术如TF-IDF向量空间模型计算提及上下文与实体描述文本的相似度。随后研究者引入实体先验概率P ( e ∣ s ) P(e|s)P(e∣s)即给定表面形式s ss时指向实体e ee的概率作为排序的重要特征。典型的先验概率从维基百科的超链接锚文本中统计得出。图模型在全局实体链接中发挥了重要作用。Han等人2011提出了基于图的重排序算法将文档中的提及-候选实体构建为图节点表示候选实体边表示实体间的语义关联度如维基百科页面间的超链接然后使用PageRank或随机游走算法联合推断所有提及的实体标签。四、候选实体生成与先验概率4.1 候选实体生成方法候选生成模块需要在数秒内从百万甚至千万级的实体中筛选出几十个候选同时保证高召回率。主要方法包括名称字典映射离线构建表面形式到实体列表的映射字典。数据源包括维基百科锚文本、页面标题、重定向页面、消歧页面。这是最常用且有效的方法。例如“USA”的映射字典可能包含实体“United States”、“United States of America”、“USA Network”等。别名扩充通过规则生成实体的常见变体如缩写“IBM”→“International Business Machines”、大小写转换、去除后缀等。搜索引擎辅助将提及及其上下文作为查询提交给搜索引擎从返回的页面标题中提取实体候选。这种方法可以覆盖字典未收录的新实体但依赖外部API且耗时。命名实体识别NER标签约束如果提及被NER标注为“PERSON”则可过滤掉类型为“LOCATION”或“ORGANIZATION”的候选实体提升精确率。4.2 实体先验概率P ( e ∣ s ) P(e|s)P(e∣s)实体先验概率P ( e ∣ s ) P(e|s)P(e∣s)反映了在没有任何上下文信息时表面形式s ss指向实体e ee的可能性。它主要从大规模超链接语料中统计得出P ( e ∣ s ) count ( s → e ) ∑ e ′ count ( s → e ′ ) P(e|s) \frac{\text{count}(s \rightarrow e)}{\sum_{e}\text{count}(s \rightarrow e)}P(e∣s)∑e′count(s→e′)count(s→e)其中count ( s → e ) \text{count}(s \rightarrow e)count(s→e)是维基百科中锚文本为s ss、目标页面为e ee的超链接数量。然而先验概率面临稀疏性问题许多表面形式在维基百科中出现频次极低导致概率估计不可靠。缓解方法包括回退平滑对于低频提及回退到更一般的形式如利用词干提取或编辑距离聚类。跨语言先验融合融合多个语言版本维基百科的统计数据提高覆盖度。神经网络估计训练模型直接从表面形式和实体名称的字符级表示预测先验得分。五、基于深度学习的局部排序模型深度学习的兴起极大地推动了实体链接性能的提升。局部排序模型仅使用提及的局部上下文c cc和候选实体e ee的信息来计算匹配得分不考虑文档内其他提及。5.1 实体表示学习如何将知识库中的实体表示为可供神经网络计算的向量是深度学习实体链接的基础。常见方法包括基于描述的表示使用实体维基百科页面的首段摘要文本通过词袋模型或CNN/LSTM编码为向量。基于知识图谱嵌入利用TransE、DistMult等知识图谱嵌入方法将实体表示为低维向量编码其结构化关系信息。基于实体名称的表示对实体名称进行字符级编码捕捉词缀和拼写特征。5.2 经典神经排序模型DeepEDGanea Hofmann, 2017是较早将神经网络用于实体链接的代表性工作。它使用一个注意力机制聚合提及上下文中与候选实体相关的信息。具体而言对于提及的每个上下文词计算其与候选实体描述的相似度作为注意力权重加权求和得到上下文向量然后与候选实体向量拼接送入全连接网络进行打分。NTEEYamada et al., 2016则采用双塔结构一个塔编码提及上下文另一个塔编码候选实体描述利用内积计算匹配得分。该方法计算效率高适合大规模候选排序。5.3 基于预训练语言模型的排序BERT等预训练语言模型的出现将实体链接带入了一个新阶段。基于BERT的实体链接模型通常采用Cross-Encoder架构将提及上下文与候选实体描述拼接输入BERT模型取[CLS]位置的输出向量接一个线性分类器输出匹配得分。例如BLINKWu et al., 2020是Facebook AI提出的实体链接模型采用双编码器架构一个BERT编码提及上下文另一个BERT编码候选实体描述通过点积计算相似度。双编码器可以预先计算所有实体的向量在推理时仅需编码提及并执行近似最近邻搜索实现了毫秒级的链接速度。BLINK在AIDA数据集上取得了超过95%的准确率。GENREDe Cao et al., 2021提出了一种生成式实体链接框架它将实体链接转化为Seq2Seq任务给定提及及其上下文直接生成目标实体的唯一名称如“Michael Jordan [basketball player]”。这种方法将候选生成和排序合二为一在多个数据集上刷新了SOTA。5.4 代码示例基于BERT的双编码器实体链接以下是一个简化的基于BERT的双编码器实体链接代码片段使用HuggingFace Transformersimporttorchimporttorch.nnasnnfromtransformersimportBertModel,BertTokenizerclassDualEncoderEL(nn.Module):def__init__(self,bert_model_namebert-base-uncased):super().__init__()self.encoderBertModel.from_pretrained(bert_model_name)self.tokenizerBertTokenizer.from_pretrained(bert_model_name)self.projectionnn.Linear(768,300)# 投影到低维空间defencode_mention(self,context_left,mention,context_right):# 构造输入 [CLS] context_left [Ms] mention [Me] context_right [SEP]textf{context_left}[Ms]{mention}[Me]{context_right}inputsself.tokenizer(text,return_tensorspt,truncationTrue,max_length128)outputsself.encoder(**inputs)mention_emboutputs.last_hidden_state[:,0,:]# [CLS]向量returnself.projection(mention_emb)defencode_entity(self,entity_title,entity_desc):textf{entity_title}[SEP]{entity_desc}inputsself.tokenizer(text,return_tensorspt,truncationTrue,max_length128)outputsself.encoder(**inputs)entity_emboutputs.last_hidden_state[:,0,:]returnself.projection(entity_emb)defforward(self,mention_emb,entity_emb):# 点积相似度returntorch.matmul(mention_emb,entity_emb.T)# 在实际应用中需要预先计算所有实体向量并用FAISS构建索引六、全局一致性消歧局部模型独立处理每个提及忽略了同一文档中实体之间的关联性。全局模型利用主题一致性假设同一文档中出现的实体往往属于相同或相关的语义范畴。例如一篇关于篮球比赛的文档中若出现了“乔丹”“公牛队”“NBA”则“乔丹”更可能是篮球运动员而非物理学家。6.1 概率图模型与条件随机场早期全局模型采用条件随机场CRF或循环置信传播Loopy Belief Propagation进行联合推理。每个提及m i m_imi对应一个随机变量y i ∈ E ∪ { NIL } y_i \in \mathcal{E} \cup \{\text{NIL}\}yi∈E∪{NIL}CRF的能量函数包括一元势函数ψ u ( y i ) \psi_u(y_i)ψu(yi)由局部模型给出的实体-提及匹配得分。二元势函数ψ p ( y i , y j ) \psi_p(y_i, y_j)ψp(yi,yj)衡量实体y i y_iyi和y j y_jyj之间的语义关联度常用指标包括维基百科页面间的超链接数、Jaccard相似度、知识图谱嵌入相似度等。推理阶段通过最大后验概率MAP估计找到使总能量最大的实体标签序列。6.2 基于图神经网络的全局模型近年来图神经网络GNN成为实现全局实体消歧的热门工具。典型的做法是构建一个由提及节点和候选实体节点构成的异质图边包括提及-实体匹配边、实体-实体关联边然后通过多轮消息传递聚合全局信息最终更新每条提及-实体边的得分。GNEDHu et al., 2021是代表性的工作它使用关系图卷积网络R-GCN建模实体间的多种关系如超链接、类别、属性并设计了一种提及-实体交互机制实现了文档级联合消歧。6.3 端到端的联合消歧与指代消解实体链接与指代消解Coreference Resolution高度相关。指代消解旨在识别文档中指代同一实体的所有提及如“特朗普”“他”“前总统”形成共指链。将两者联合建模可以互相增益实体链接为指代消解提供外部知识指代消解则为实体链接提供更丰富的局部上下文。E2E-CorefLee et al., 2017虽主要面向指代消解但其提及跨度排序思想被后来的联合模型广泛借鉴。最新的研究趋向于将实体链接、指代消解、关系抽取统一到一个图结构中进行联合推理。七、高级主题与特定场景实体链接7.1 不可链接提及NIL处理现实文本中总有一定比例的实体不在知识库中称为NIL提及。准确识别NIL对系统的实用性至关重要。处理方法包括阈值法设定一个置信度阈值若最高候选实体得分低于该阈值则预测为NIL。二分类法训练一个专门的NIL分类器输入为提及的最高候选得分、候选得分分布等特征。NIL聚类在跨文档场景下将相同表面形式且上下文相似的NIL提及聚类为虚拟实体等待后续人工审核或知识库扩充。7.2 跨语言实体链接跨语言实体链接Cross-lingual EL旨在将一种语言的提及链接到另一种语言的知识库实体或者将多种语言的提及统一链接到语言无关的知识库如Wikidata。核心挑战在于语言间的语义鸿沟。主流方法利用多语言预训练模型如mBERT、XLM-R将不同语言的文本编码到共享向量空间然后在该空间中进行实体检索。另一种思路是借助维基百科的跨语言链接Inter-language Links构建对齐语料训练跨语言实体表示。7.3 零样本与少样本实体链接零样本实体链接Zero-shot EL处理训练时未见过的实体。随着新实体不断涌现这一能力愈发重要。解决方案包括基于实体描述的泛化模型不记忆特定实体的向量而是学习如何将提及上下文与任意实体的描述文本进行匹配。这样只要新实体有描述文本模型即可对其进行链接。基于预训练语言模型的生成式链接GENRE等模型直接生成实体名称具备一定程度的零样本能力因为PLM在预训练时已见过大量实体名称。7.4 中文实体链接的特殊挑战中文实体链接面临一些独特的语言学挑战分词歧义中文无天然分词边界分词错误可能改变实体提及的边界。例如“南京市长江大桥”分词为“南京市/长江大桥”或“南京/市长/江大桥”会导致完全不同的实体。繁简体与异体字中文存在简繁体、异体字同一实体可能有多种字形表示如“台灣”“台湾”。复杂的缩略与别名中文机构名、人名常使用缩略形式如“北大”→“北京大学”且缺乏空格和大小写提示。音译多样性外国人名地名音译不统一如“特朗普”“川普”。应对策略包括构建高质量的中文表面形式-实体映射字典如基于百度百科、中文维基百科、利用汉字笔画和拼音特征增强模型、设计针对中文的预训练模型如ERNIE、BERT-wwm。中文实体链接数据集近年涌现了如CLEEK中文实体链接评测集、CLUE中的实体链接任务等推动了中文EL研究。八、挑战与未来展望尽管实体链接技术取得了长足进步在迈向通用、鲁棒、可解释的实体理解系统途中仍面临诸多挑战开放域与长尾实体现有模型在常见实体上表现优异但对长尾实体维基百科中页面短、链接少的实体和完全新兴实体仍力不从心。如何利用结构化知识和常识推理来弥补文本信号的稀疏性是关键。多粒度实体消歧提及可能指向不同粒度的实体。例如“中国”可指国家实体也可指“中国政府”或“中国代表队”。现有知识库的实体粒度固定需研究动态粒度匹配方法。上下文窗口限制长文档中决定实体含义的关键信息可能距离提及很远如篇章主题。如何有效建模长距离上下文依赖是重要方向。效率与可扩展性实时应用要求实体链接在毫秒级完成。基于双编码器和稠密检索的方法已初见成效但如何平衡精度与效率仍是工程难点。可解释性与可信度用户需要知道模型为何做出某个链接决策。未来系统应能高亮上下文中的关键证据词并提供实体关系的解释路径。多模态实体链接随着图文、视频内容的爆炸式增长如何利用图像、音频等多模态信息辅助实体消歧成为新兴课题。例如一段视频中出现埃菲尔铁塔的图像可极大提升“Paris”链接到法国巴黎实体的置信度。知识库演化与持续学习知识库是动态变化的新实体加入、旧实体更新。实体链接系统应具备持续学习能力在不遗忘旧知识的前提下适应知识库的演化。九、结语实体链接与消歧是连接非结构化文本与结构化知识世界的核心桥梁。从早期的名称字典匹配到当前基于超大规模预训练模型的深度语义匹配实体链接技术经历了从符号到嵌入、从局部到全局、从单语到多语的深刻范式变革。今天我们已能在新闻、百科等规范文本上实现超过95%的链接准确率实体链接技术也已广泛应用于搜索引擎、智能问答、知识图谱构建等实际产品中。然而面对开放域Web上无穷无尽的语言变化和不断涌现的新实体现有技术仍显稚嫩。零样本学习、多模态融合、可解释推理等前沿方向或将引领下一波突破。我们期待随着自然语言理解技术的持续进步未来的实体链接系统能够像人类一样仅凭寥寥数语便可穿透名称的迷雾精准定位那个独一无二的世界实体。参考文献主要工作列举Bunescu, R., Pasca, M. (2006). Using encyclopedic knowledge for named entity disambiguation.EACL.Cucerzan, S. (2007). Large-scale named entity disambiguation based on Wikipedia data.EMNLP-CoNLL.Han, X., Sun, L., Zhao, J. (2011). Collective entity linking in web text: a graph-based method.SIGIR.Ganea, O. E., Hofmann, T. (2017). Deep joint entity disambiguation with local neural attention.EMNLP.Yamada, I., Shindo, H., Takeda, H., Takefuji, Y. (2016). Joint learning of the embedding of words and entities for named entity disambiguation.CoNLL.Wu, L., Petroni, F., Josifoski, M., Riedel, S., Zettlemoyer, L. (2020). Scalable zero-shot entity linking with dense entity retrieval.EMNLP.De Cao, N., Izacard, G., Riedel, S., Petroni, F. (2021). Autoregressive entity retrieval.ICLR.Hu, L., Ding, J., Shi, C., Shao, C., Li, S. (2021). Graph neural network for entity linking with fine-grained entity typing.ACL Findings.Lee, K., He, L., Lewis, M., Zettlemoyer, L. (2017). End-to-end neural coreference resolution.EMNLP.Hoffart, J., Yosef, M. A., Bordino, I., Fürstenau, H., Pinkal, M., Spaniol, M., … Weikum, G. (2011). Robust disambiguation of named entities in text.EMNLP.点击“AladdinEdu你的AI学习实践工作坊”注册即送-H卡级别算力沉浸式云原生集成开发环境80G大显存多卡并行按量弹性计费教育用户更享超低价。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2518649.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!