基于少样本学习和思维链提示的知识概念抽取方法研究

news2026/5/21 22:01:07

佘霖琳熊龙洋陆雪松华东师范大学数据科学与工程学院上海 200062摘要知识概念抽取在教育、医疗、金融领域均有重要的应用价值。知识概念抽取属于命名实体识别的一个细分任务但是由于缺乏数据集和知识概念实体类型的特殊性直接将通用命名实体识别方法运用到知识概念抽取任务中往往效果不佳。鉴于上述挑战利用开源大语言模型提出了基于少样本学习和思维链提示的知识概念抽取方法。首先通过对比学习训练关注了实体语义的文本表征并采用K-近邻算法提升检索到的少样本示例的相关性。其次采用思维链提示的方法展示样本以提升大语言模型在知识概念抽取任务中的推理能力。在多个数据集上的实验结果表明基于少样本学习和思维链提示的知识概念抽取方法总体上表现出了优于现有方法的效果。关键词知识概念抽取; 命名实体识别; 大语言模型DOI:10.11959/j.issn.2096-0271.2025033引用格式佘霖琳, 熊龙洋, 陆雪松. 基于少样本学习和思维链提示的知识概念抽取方法研究[J]. 大数据, 2026, 12(2): 97-110.She L L, Xiong L Y, Lu X S. Research on knowledge concept extraction method based on few-shot learning and chain-of-thought prompting[J]. Big Data Research, 2026, 12(2): 97-110.0 引言知识概念抽取是指从文本或数据集中提取出有意义的知识概念的过程在学习资源标注、知识概念推荐、知识图谱构建等领域具有重要应用价值。例如在慕课MOOC平台上海量的教学资源需要标注相应的知识概念以便教师组织授课内容、平台推荐学习资源。在医疗领域知识概念抽取被用于从文本病历中提取临床信息广泛应用于临床决策支持、护理质量改进等各个领域。知识概念本质上是一种实体因此其抽取过程是自然语言处理中的命名实体识别named entity recognitionNER方法的一种应用。NER方法用于从文本中识别出具有特定意义的实体名称并将其分类为预先定义好的类别。这些实体可以是人名、地名、组织机构名、时间、日期、货币、百分比等。例如在“华为公司于2024年发布了三折叠屏手机MateXT非凡大师”句子中“华为公司”会被识别为组织机构名“2024年”会被识别为时间“MateXT非凡大师”会被识别为产品名。常见的NER方法包括基于人工规则的方法、基于统计机器学习的方法和基于深度学习的方法。利用NER方法研究人员可以从视频、课件、文本等教学资源中提取关键概念和术语从而提高知识概念抽取的准确性。然而知识概念抽取也面临有别于传统NER方法的挑战。一是研究人员已经为传统NER方法构建了大量数据集涵盖了金融、文化、新闻等众多领域相反地用于训练知识概念抽取的数据集非常有限并且包含的学科类别也相对较少。二是知识概念抽取不只是提取知识概念实体更重要的是提取的必须是与教学资源相关的关键知识概念实体同时需要自动过滤无关的知识概念实体。例如在心理学课程文本“我们在亲密关系那节课里讲到如何促进你和配偶之间的关系今天我们就着重来讲一讲积极心理学怎么样可以帮助你培养出一个更好的孩子”中“亲密关系”和“积极心理学”就是关键知识概念“配偶”和“孩子”是实体但不是相关的知识概念。因此应用传统NER方法完成知识概念抽取任务其性能存在一定的局限。近年来大语言模型large language modelLLM逐渐成为完成自然语言处理任务的主流技术其丰富的知识储备和出色的指令遵循能力为知识概念抽取任务提供了另一种可行的方法即利用提示工程提示LLM从数据中抽取知识概念。少样本学习的提出更是展现了LLM在不需要大样本数据训练的情况下通过少量示例就能出色完成任务的能力。知识概念抽取涉及多领域、多学科其现有的标注数据仅涉及部分学科且数据量匮乏难以进行大样本训练使用LLM结合少样本学习成为适配该任务的解决方案。当前基于LLM的代表性NER方法包括GPT-NER和PromptNER。前者通过基于少样本学习的提示工程将NER方法从序列标注任务转变为基于LLM的文本生成任务。后者在提示中加入模块化定义在示例中融入思维链chain-of-thoughtCoT使LLM在NER任务上运用得更加灵活提升了识别准确率。上述方法尽管取得了不错的效果但其应用于知识概念抽取任务时仍然效果欠佳主要挑战在于如何选取最佳的示例用于少样本学习以及如何用CoT提升知识概念抽取的精度。针对上述挑战本文提出一种基于少样本学习和思维链提示的知识概念抽取few-shot learning and chain-of-thought prompting for knowledge concept extractionFCKCE方法以提升抽取的精度。首先本文采用对比学习训练关注了实体语义的文本表征用于从训练集中检索文本-知识概念对从而提升检索到的少样本示例的相关性。其次本文对PromptNER中的CoT提示进行了改进以期提升LLM在知识概念抽取任务上的理解与推理能力使其更关注与教学资源相关的关键知识概念。本文采用了学科数据集和通用NER数据集进行实验实验结果表明FCKCE方法在大多数数据集上取得了优于现有方法的效果并且这一效果在不同的大模型上都得以体现。1 相关工作1.1 知识概念抽取知识概念抽取被广泛应用于MOOC平台其原因是课程数量的快速增长导致海量教学资源的维护愈发困难学生更容易陷入知识迷航因此需要为学习资源标注知识概念构建知识图谱从而为学习资源推荐和学习路径规划提供便利。为了自动标注知识概念国内外学者及研究团队提出了许多从学习资源中抽取知识概念的方法。早期的工作采用引入外部数据源知识的方法来提高知识概念抽取的精准度。例如Medelyan等构建了KEA系统利用从特定领域词库中收集的术语和短语的语义信息来增强包含知识概念的关键短语提取的性能。Rospocher等从语料库中提取特定领域的关键概念列表按相关性对其进行排序然后应用各种评估指标来评估领域本体相对于关键概念列表的术语覆盖率。Berend等专注于科学出版物的知识概念提取并提出了一组用于监督学习的新特征包含短语级、语料库级和基于维基百科的外部知识特征。上述方法都利用了外部源中包含的显式语义知识。随着机器学习和深度学习方法的兴起近年来知识概念抽取主要采用数据驱动的方法。Pan等和Lu等首先采用嵌入方法计算知识概念的表征随后提出了基于图传播的方法对知识概念进行排序并将排序靠前的知识概念作为抽取的结果。Wu等和Albahr等提出的基于统计排名的方法用于从MOOC视频中提取包含知识概念的关键短语并进行排名。上述传统方法均取得了不错的效果但仍然存在噪声和不完整标注的问题无法有效解决未登录词out-of-vocabularyOOV和域外out-of-domainOOD的问题特别是在知识概念抽取任务上这些问题更加突出。1.2 基于LLM的命名实体识别GPT-4、Qwen和Llama 2等LLM在广泛的自然语言处理任务中取得了重大进展为人工智能技术的发展带来了新的转折点。由于其巨大的搜索空间和广泛的训练数据LLM拥有大量的知识并具备解决OOV、OOD问题的潜力。然而LLM虽然擅长理解上下文和会话语言生成但在NER任务上的表现并不理想。近期的研究表明LLM具有优秀的上下文学习能力。上下文学习通过将输入-输出演示集成到提示文本中使现成的模型不仅不需要额外的微调且可以同时实现类似的优秀性能。然而在NER任务上尽管LLM采用了一些上下文样本作为提示但与SOTAstate of the art方法仍存在显著的性能差距这可能是由于LLM缺乏特定领域的学习和对NER任务的理解欠佳。这种限制被归因为LLM的“缺乏专业性”。因此使用LLM直接处理NER任务仍然是一项具有挑战性的工作。GPT-NER是最早应用LLM处理NER任务的方法之一其将NER序列标注式任务在LLM上转变为文本生成式任务在实体左右两侧添加特殊符号使用少量上下文样本提示GPT-3生成包含特殊符号的文本然后通过识别特殊符号提取命名实体实现了与有监督学习基准模型相同性能的水平。随着GPT-4的推出LLM在垂直领域的表现以及进行多步推理的能力得到进一步提升。UniversalNER提出了一种以任务为中心的针对性蒸馏技术结合指令微调开发了一个在开放域上的NER方法。研究发现当面对复杂的推理任务时LLM仅使用端到端推理方法往往表现不佳但通过添加逐步推理的过程可以提高其推理能力这被称为CoT提示。CoT提示使模型能够更准确地理解问题的复杂性和推理过程。此外这种方式让模型生成了一系列的推理步骤使模型的推理过程有了一个更透明的呈现进一步提高了可解释性。PromptNER通过在提示中加入模块化定义以及在示例中融入CoT的方式使LLM在NER任务上能够突破之前仅使用上下文学习的效果将端到端的推理模式拆解为一步步推理的模式展现了LLM灵活适应NER任务的潜力。现有工作主要采用以下两种自回归输出格式。容纳原始输入文本以包含实体标签信息被称为增强语言形式。直接使用定制的、易于解析的结构化格式输出所有实体类型标签和实体被称为结构化注释形式。这两种方式都存在某些缺陷其中增强语言形式需要复制所有原始输入文本从而增加输出长度导致推理效率低下。结构化注释形式以自回归的方式生成所有的标签和实体意味着每个后生成的标签实体对都依赖于其之前生成的标签实体对导致序列长度过长。本文针对这两种输出格式的缺点突破语言形式输出的冗余与结构化注释形式输出的繁杂提出融入CoT的简明高效的输出格式以少样本示例的方式提示LLM按示例格式输出。2 FCKCE方法本节主要介绍FCKCE方法的细节FCKCE方法的整体流程如图1所示。首先本文采用对比学习训练待抽取文本句子的表征随后对于每一个待抽取的句子采用K-近邻算法从训练集中选取与其表征最接近K的句子及其对应的知识概念抽取结果作为少样本示例最后基于CoT构建少样本示例并构建完整的提示模板提示LLM生成知识概念。图1 FCKCE方法的整体流程2.1 基于对比学习的文本表征学习为了选取更相似的少样本示例本文首先采用对比学习来训练待抽取知识概念的文本的表征以期得到更有区分度的文本表征。本文使用双向编码器表示bidirectional encoder representations from transformerBERT模型对输入文本进行嵌入然后引入多层感知机multilayer perceptronMLP对BERT模型生成的嵌入进行非线性变换以增强文本嵌入的表达能力。具体来说本文首先加载预训练的BERT模型和相应的分词器。对于长度为的输入句子将其转化为对应的词嵌入表示如式1所示。其中表示句子中的第个词汇表示词汇对应的初始嵌入表示。1通过BERT模型生成其隐藏状态矩阵。2随后对输出的隐藏状态进行平均池化得到输入句子的全局嵌入向量其中表示词汇对应的隐藏状态向量。3以往的研究主要采用BERT模型生成的第一个向量作为句子表征进行后续研究这种方法主要关注句子的语义信息。本文则进行了改进采用所有词输出的平均池化作为句子表征。这些表征不仅包含了句子的语义信息还关注到了词语间的相似度比以往的方法更能捕捉知识概念实体间的复杂关联。在BERT模型生成的嵌入基础上MLP作为一个非线性变换模块由5层全连接神经网络组成每层后接ReLU激活函数其计算过程如下。45678其中和分别为每一层的权重和偏置参数最终得到输入句子S的表征向量。在得到每个句子的表征后本文采用对比学习来进一步提高其表征能力。具体来说对于训练集中的每一个句子选取M个与其表征最相似的句子作为正样本选取N个与其表征最不相似的句子作为负样本。本文采用余弦相似度来计算句子表征之间的相似度。随后本文采用最小化负对数似然函数作为句子的对比损失即最大化与每一个正样本的表征的相似度且最小化与每一个负样本的表征的相似度计算式如下。9其中exp(·)为指数函数sim(·)为余弦相似度函数。训练完毕后每一个句子的表征将会在语义和知识概念类型上与其相似的句子更相似而与其不同的句子更具有区分度。这种方式可以在后续少样本学习时尽可能避免噪声样本的引入。2.2 少样本示例选取在提示中加入少样本示例通常可以有效提升LLM的指令遵循能力而如何选取样本示例是发挥少样本学习有效性的关键。在选取样本时应尽可能挑选和输入与文本语义接近的示例否则可能会降低LLM回复内容的准确性。为了挑选合适的少样本示例用于提示LLM进行知识概念抽取本文采用基于句子表征的K-近邻算法从验证集中选取示例。具体来说对于给定的测试句和验证集中的候选句子采用前文训练得到的表征模型获取的表征向量与候选句子集合的表征向量。随后计算与候选句子集合的每一个句子表征之间的余弦相似度。10最后根据计算结果选取与最相似的K个表征对应的句子及其CoT推理过程作为提示LLM的少样本示例以实现所选取的句子在语义和知识概念上都尽可能与测试句相近。2.3 CoT提示本文首先构建了用于抽取知识概念的提示模板该模板分为5个部分知识概念定义、涉及学科、任务描述、提示对需要排除的特殊情况的举例如日期、代词以及少样本示例。其中少样本学习能够提升LLM的指令遵循能力但在复杂任务上的推理能力仍然受限。知识概念抽取并非简单的推理任务首先需要确定文本所属的学科然后推理每个实体是不是该学科的一个知识概念进一步判断其是不是文本的主要内容最终确定其是不是文本的关键知识概念。鉴于上述要求本文采用CoT提示的方式来抽取知识概念。为了探索LLM的潜在推理能力一个标准的方法是在CoT提示示例中引入不同的推理过程并从中选取效果最佳的推理路径。通常为了保证推理过程的多样性可以采用较高性能的LLM如GPT-4来自动构建推理过程并通过聚类方法选择具有代表性的路径生成示例。然而由于未能融入人类价值自动生成的CoT推理路径会遇到一些挑战如质量差、存在幻觉以及与事实不符等问题。因此本文采取手动与自动相结合的方式来构建推理过程先利用少量人工构建的推理过程示例来提示GPT-4生成更多不同的推理路径随后进行人工检查筛选出有效的推理过程并将其作为提示模板的重要组成部分。基于上述方法本文确定了CoT推理的过程首先确定给定的短语属于什么学科然后确定是否能认定其为知识概念。具体的结构要求为输出的每一行首先是一个候选知识概念紧接着以CoT的方式阐述该候选知识概念短语的特点分析其是否满足知识概念的要求最后得出是不是知识概念的结论。完整的知识概念抽取提示模板如图2所示。其中第一段描述包含了知识概念的定义、待抽取概念的学科类别、知识概念抽取任务描述以及关于注意事项的提示。后续是采用K-近邻算法选出的5个示例其中例1、3、4、5是正例各包含了一段MOOC课堂教学视频的字幕文本以及关于文本中知识概念的CoT推理过程例2是一个反例文本中不包含知识概念。最后输入待抽取知识概念的句子要求LLM按照示例输出结果。图2 完整的知识概念抽取提示模板3 实验结果与分析3.1 数据集本文采用MOOCCube数据集验证FCKCE方法的效果。这是一个包含20个学科的中文数据集。包括由全国科学技术名词审定委员会审定的超过10万个知识概念的专家词典以及来自315个课程的字幕语料库平均每个课程包含167 496个未标记的字符序列。其训练集没有知识概念标注验证集和测试集分别包含来自17门课程的272个和522个由专家标注的句子包含15 375个与学科相关的知识概念。由于缺乏其他包含知识概念的公开数据集为了验证FCKCE方法的泛化能力本文评估其在通用NER任务上的表现。本文选取了广泛使用的英文NER数据集CoNLL03和CrossNER。CoNLL03包含多种语言下的4类命名实体人物、地点、组织和不属于前3类的杂项实体名称。其中的英文数据取自路透社语料库包含从1996年8月至1997年8月的路透社新闻报道。训练集和验证集由1996年8月底10天的数据构成分别包含14 987个和3 466个句子。测试集由1996年12月的数据构成包含3 684个句子。CrossNER涵盖政治、自然科学、音乐、文学和人工智能5个不同领域的句子分别由该领域的专家提供实体类别。例如音乐领域包含音乐流派、歌曲、乐队、专辑、音乐艺术家、乐器等人工智能领域包含任务、产品、算法、研究员、指标、大学等。5个领域的训练集、验证集和测试集均包含数百个已标注的句子且数量略有不同。3.2 实验设置在对比实验中对于每一个句子本文选取5个正样本和250个负样本计算对比损失。此外本文设置BERT模型的嵌入大小为768批大小为32学习率为2×10-5优化器为Adam训练30个轮次后收敛。在知识概念抽取实验中考虑到实验数据集涉及中英文两种语言本文选取对中文、英文文本理解与生成能力都较强的开源大模型Yi-34B和Qwen1.5-32B并分别设置temperature为0.95和0.9设置少样本示例的数量为5个。3.3 对比模型和评价指标对于每个大模型本文分别采用SimpleNER、GPT-NER、PromptNER和本文提出的FCKCE方法来比较性能。其中SimpleNER采用简单的提示方法仅仅给出知识概念抽取的任务描述采用5个固定样本作为示例每个样本包含句子和抽取的知识概念。GPT-NER的提示模板中包含知识概念抽取任务和将该任务转换为文本生成任务的描述采用SimCSE模型对句子进行表征并根据表征相似度选取最相似的5个句子和转化后的文本作为少样本示例。PromptNER的提示模板和FCKCE方法类似但是没有“涉及学科”部分“提示”部分也不如FCKCE方法详细仅提示了日期、时间、形容词和动词不属于实体。此外PromptNER采用固定的5个样本作为示例每个样本都包含句子和提取知识概念的CoT。与FCKCE方法不同PromptNER的CoT推理顺序与FCKCE方法的正好相反即首先给出实体是不是知识概念的结论随后阐述得出结论的理由。本文采用准确率、召回率和F1分数作为评价指标。其中准确率用于衡量所抽取的实体中确实是知识概念的比例召回率用于衡量所有知识概念中被正确抽取的比例F1分数是综合考虑准确率和召回率的融合指标。这3个指标越高说明模型性能越好。3.4 知识概念抽取结果与分析MOOCCube的知识概念抽取结果见表1。由表1可知在Yi模型上FCKCE方法的表现超过了GPT-NER和PromptNER但是略低于SimpleNER。本文推测复杂提示反而效果欠佳的原因可能是过长的指令导致Yi理解过载。事实上相关文献已经验证过长的输入会使LLM的推理能力下降。尽管如此FCKCE方法的表现仍优于GPT-NER和PromptNER这证明了本文设计的K-近邻算法和CoT提示推理方法的有效性。这一结果在Qwen模型上更显著FCKCE方法在Qwen上取得了优于其他3种方法的最佳表现。表1 MOOCCube的知识概念抽取结果本文从FCKCE方法中删除对比学习模块以及用固定示例代替K-近邻算法选取少样本示例构建了两个消融模型FCKCE w/o CL和FCKCE w/o KNN验证上述模块的作用。MOOCCube上FCKCE方法消融实验结果见表2。由表2可知在Yi和Qwen两个模型上两个消融模型相较FCKCE方法的性能均大幅下降。这证明了本文设计的对比学习模块和K-近邻算法模块的有效性。表2 MOOCCube上FCKCE方法消融实验结果本文利用全部验证集共272条标注数据以LoRA方式进行微调以对比大样本学习与少样本学习效果MOOCCube上FCKCE方法与大模型微调对比结果见表3。由表3可知在Yi和Qwen两个模型上微调之后模型各项指标提升幅度仅为1%2%而这部分提升需要耗费大量的标注数据以及训练时间与计算资源。由此可以看出在数据量缺乏的场景下少样本学习更适合知识概念抽取任务而本文提出的少样本学习配合CoT提示的方法使模型在只有少量标注数据时也能达到出色的效果。表3 MOOCCube上FCKCE方法与大模型微调对比结果3.5 命名实体识别结果与分析为了验证FCKCE方法的泛化能力本文在通用NER任务上对比前述方法的性能。对于CoNLL03本文直接在整个数据集上进行实验。对于CrossNER本文分领域进行实验。CoNLL03和CrossNER上通用NER方法的F1分数的实验结果见表4。由表4可知FCKCE方法在大多数情况下取得了最佳表现。其中FCKCE方法在CoNLL03和CrossNER的人工智能领域上表现略差于SimpleNER其原因可能是过长的提示模板导致Yi的推理性能下降。表4 CoNLL03和CrossNER上方法通用NER的F1分数实验结果3.6 案例分析概率论与统计推断课程的文本案例1如图3所示心理学课程的文本案例2如图4所示。图3和图4展示了MOOCCube中的两段文本以及用前述4种方法提取的知识概念。为了便于观察本文将正确提取的知识概念标注为灰色。FCKCE方法在这两个案例中均提取了最多的真实知识概念并且提取的非知识概念实体也是最少的。第一段文本来自概率论与统计推断课程由于这类课程的知识概念比较明确因此4种方法均提取了较多的知识概念。第二段文本属于心理学课程知识概念体系相对较为模糊因此4种方法相较案例1均有下降尤其是GPT-NER未能提取任何正确的知识概念。FCKCE方法虽然提取了3个非知识概念实体但是成功抽取了所有真实的知识概念。图3 概率论与统计推断课程的文本案例1图4 心理学课程的文本案例24 结束语针对缺乏数据集和知识概念实体类型特殊性的挑战本文利用开源LLM提出了一种基于少样本学习和思维链提示的FCKCE方法。一方面本文用对比学习训练关注了实体语义的文本表征并采用K-近邻算法提升检索到的少样本示例的相关性另一方面本文采用CoT提示的方法展示样本提升了LLM在知识概念抽取上的理解与推理能力。本文采用学科数据集和通用NER数据集进行实验实验结果表明FCKCE方法在大多数数据集上取得了优于现有方法的效果并且这一效果在Yi和Qwen两个开源LLM上都得到了体现。参考文献见原文点击篇末『阅读原文』阅读及下载本文作者简介佘霖琳女华东师范大学数据科学与工程学院硕士生主要研究方向为教育领域大模型应用。熊龙洋男华东师范大学数据科学与工程学院本科生主要研究方向为教育领域大模型应用。陆雪松男华东师范大学数据科学与工程学院副教授主要研究方向为数据驱动的计算教育学。相关阅读人工智能生成内容技术综述基于大模型的具身智能任务规划研究从单智能体到多智能体代码大语言模型赋能的知识图谱关键技术综述联系我们:Tel:010-53859533010-53879208E-mail:bdrbjxintong.com.cnhttp://www.j-bigdataresearch.com.cn/转载、合作010-53879255大数据期刊《大数据Big Data ResearchBDR》双月刊是由中华人民共和国工业和信息化部主管人民邮电出版社主办中国计算机学会大数据专家委员会学术指导北京信通传媒有限责任公司出版的期刊已成功入选中国科技核心期刊、中国计算机学会会刊、中国计算机学会推荐中文科技期刊以及信息通信领域高质量科技期刊分级目录、计算领域高质量科技期刊分级目录并多次被评为国家哲学社会科学文献中心学术期刊数据库“综合性人文社会科学”学科最受欢迎期刊。关注《大数据》期刊微信公众号获取更多内容

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2632817.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！