【医学实体识别】从糖尿病论文和临床指南中,做关键信息分类

news2025/7/19 15:12:00

从糖尿病论文和临床指南中,做关键信息分类

    • 实体识别
      • 输入输出
        • 疾病实体
        • 治疗实体
        • 常规实体
      • 算法设计
        • BiLSTM-CRF 论文
        • BiLSTM-CRF 应用
        • BiLSTM-CRF VS 大模型
    • 构建知识图谱

 


实体识别

比赛:https://tianchi.aliyun.com/competition/entrance/231687/information

如果你有一本关于糖尿病治疗的厚重书籍,而你只想快速找到有关“胰岛素治疗”的部分。

没有目录或索引,这将是一项耗时且乏味的工作。

这就是命名实体识别技术的用武之地,它可以帮助你快速定位到书中提及“胰岛素治疗”的所有部分,就像是自动生成了一个非常详细的目录。

在糖尿病论文和临床指南的实际应用中,这项技术可以帮助识别并标注出各种重要信息,比如:

  • 疾病名称(如2型糖尿病)
  • 症状(如血糖波动)
  • 治疗方法(如口服药物、胰岛素注射)
  • 药物名称(如二甲双胍)
  • 研究结果(如药物有效性数据)

通过这种方式,医生和研究人员可以更有效地获取信息,不仅节省时间,还可以帮助他们更好地理解疾病和治疗方法,从而提高病人的治疗效果。

举个例子,假设我们有一篇关于2型糖尿病治疗的学术论文,论文中包含了以下句子:

“在一项关于2型糖尿病的随机对照试验中,研究人员发现,与安慰剂相比,服用二甲双胍的患者在血糖控制方面表现得更好。”

在这句话中,命名实体识别(NER)的任务是识别并分类句子中的关键信息。具体来说:

  1. 疾病实体:“2型糖尿病”被识别为一个疾病名称。
  2. 药物实体:“二甲双胍”被识别为药物名称。
  3. 处理或干预措施:“服用二甲双胍”和“安慰剂”作为两种不同的治疗方法。
  4. 研究方法实体:“随机对照试验”是一种研究设计类型,也是一个重要的实体。

进行命名实体识别后,系统可以自动提取这些信息,将它们标注为以下实体类型:

  • 疾病和症状:2型糖尿病
  • 药物名称:二甲双胍
  • 治疗方法:服用二甲双胍、安慰剂
  • 研究方法:随机对照试验

 


输入输出

输入:一段糖尿病相关的文本

输出:每个实体和对应的类别

在这里插入图片描述
 


疾病实体
  1. 疾病名称 (Disease): 如I型糖尿病
  2. 病因 (Reason): 疾病的成因,例如胰岛素抵抗
  3. 临床表现 (Symptom): 症状和体征,如头晕、便血
  4. 检查方法 (Test): 用于诊断的实验室或影像学检查,如血脂检测
  5. 检查指标值 (Test_Value): 具体数值,如甘油三酯>11.3 mmol/L

 


治疗实体
  1. 药品名称 (Drug): 如胰岛素
  2. 用药频率 (Frequency): 用药次数,如一天两次
  3. 用药剂量 (Amount): 例如500mg/天
  4. 用药方法 (Method): 如口服,静脉注射
  5. 非药治疗 (Treatment): 非药物性治疗,如按摩、针灸
  6. 手术 (Operation): 如代谢手术
  7. 不良反应 (SideEff): 用药后的不良反应

 


常规实体
  1. 部位 (Anatomy): 解剖部位和生物组织,如胰岛细胞
  2. 程度 (Level): 病情严重程度或治疗效果,如病情轻微
  3. 持续时间 (Duration): 症状或用药的持续时间,如头晕持续了一周

 


算法设计

NER是自然语言处理领域的一个核心任务,目标是识别文本中的实体,如人名、地名、组织名等,并将其归类为预定的类别(上述的疾病实体、治疗实体、常规实体)。
 


BiLSTM-CRF 论文

论文:https://arxiv.org/pdf/1508.01991.pdf

解读:Bi-LSTM-CRF:其结合了 BI-LSTM 的上下文捕获能力和 CRF 的标签关系建模

BI-LSTM-CRF模型的独特优势在于它结合了双向LSTM的能力来捕获长距离的双向上下文依赖性,并通过CRF层来精确地建模标签之间的约束关系,从而在复杂的序列标注任务中提供了显著的性能提升。

例如,在一个医疗健康记录的命名实体识别任务中,BI-LSTM-CRF模型能够利用前文提到的症状信息和后文提到的治疗措施来确定某个术语是特定疾病的名称。

同时,CRF层能够确保识别出的实体标签在整个序列中保持一致性,例如不会将疾病的部分名称错误地标记为药物。

这种双向上下文理解与强大的标签序列建模,使得BI-LSTM-CRF在提取和分类文本中的专业术语方面比单纯的LSTM或CRF模型表现更加出色。
 


BiLSTM-CRF 应用

使用BiLSTM联合CRF模型,对单词序列进行实体识别:

这张图展示的是一个用于命名实体识别(Named Entity Recognition, NER)的双向长短时记忆网络(BiLSTM)与条件随机场(CRF)的结合模型。

在自然语言处理中,命名实体识别是识别文本中特定类型(如人名、组织名)的任务。

图的底部是输入层,有一个单词序列(( w_0, w_1, …, w_4 ))。这些单词通过嵌入层转换为向量表示,然后输入到BiLSTM层,BiLSTM可以捕获序列的前向和后向依赖性。

BiLSTM层的输出是每个单词对于不同实体类别的分数(例如B-Person表示一个人名的开始,I-Person表示人名的内部,B-Organization表示组织名的开始,I-Organization表示组织名的内部,O表示不属于任何实体类别)。

这些分数在图中用黄色方框表示。

BiLSTM层之上是CRF层,CRF层能够利用上下文信息来提高预测的准确性。

在图中,每个单词的实体类别被CRF层评估,以得出最终的实体识别结果。

最顶层的红框内,展示了每个单词最可能的实体类别及其置信度分数,例如,0.9表示很高的置信度,该词是一个人名的开始(B-Person)。

 


BiLSTM-CRF VS 大模型

BiLSTM-CRF模型相对于传统的方法有如下优点:

  1. 双向上下文理解:BiLSTM通过考虑前向和后向上下文信息,能更好地理解语言中词汇的双向依赖性,从而提高实体的识别准确性。
  2. 序列标注能力:CRF在BiLSTM的基础上进一步提升了模型的序列标注能力。它不仅考虑了单个标签的分数,还考虑了标签之间的转换概率,这有助于模型学习到更复杂的依赖关系,例如B-标签后通常跟随I-标签。

相比之下,大模型如BERT、GPT-4、RoBERTa等,是基于Transformer架构的预训练语言模型(PLMs)。

这些大模型在处理NER任务时的不同点包括:

  1. 上下文感知:这些大模型经过大规模数据集预训练,对语境有更深的理解,因此在理解复杂的语言结构和隐含意义方面更加出色。
  2. 无需特征工程:传统的模型,如BiLSTM-CRF,可能需要精心设计的特征来识别实体,而PLMs可以直接从原始文本中学习到这些特征。
  3. 迁移学习:预训练模型可以很容易地适应新任务(通过微调),因为它们已经在广泛的语言上下文上接受了预训练。
  4. 计算成本:大模型需要更多的计算资源来进行预训练和微调,而相对较小的模型如BiLSTM-CRF在资源有限的情况下可能更易于部署和使用。

大模型往往在准确性和理解能力上优于传统模型,但也需要更多的计算资源。

然而,BiLSTM-CRF等模型在数据集较小、计算资源有限或需要快速原型开发时仍然非常有用。

 


构建知识图谱

这个过程是为了实现医疗知识图谱项目中的实体识别功能。

在医疗知识图谱中,实体识别是一个关键的步骤,用于从文本中自动识别出有意义的信息,如疾病、症状、治疗方法等实体。

这些实体和它们之间的关系构成了知识图谱的基本元素。

通过对医疗文本进行实体识别,可以抽取和整理出结构化的医学知识,从而支持更高级的医疗应用,比如智能问诊、病例分析等。

在这个过程中,首先选择了一个相对更优质的医疗数据集 ChineseBLUE/cMedQANER 来训练命名实体识别模型。

这是因为高质量的数据集可以提供更准确的训练基础,有利于提高实体识别的准确性。

接下来,通过修改配置文件、数据处理脚本等步骤,适配新的数据集格式和内容,以确保模型能够有效地学习到从文本中识别医疗实体的能力。

实体识别模型训练完成后,将模型封装成一个包,方便在知识图谱项目的其他部分调用。

例如,当处理用户的医疗咨询问题时,可以利用这个实体识别模型来分析问题文本,识别出里面提到的医疗实体,然后根据这些实体和知识图谱中的信息进行匹配,找到最合适的答案或建议给用户。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1547080.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

以太网PHY,MAC及其通信接口介绍

本文主要介绍以太网的 MAC 和 PHY,以及之间的 MII(Media Independent Interface ,媒体独立接口)和 MII 的各种衍生版本——GMII、SGMII、RMII、RGMII等。 一:简介 从硬件的角度看,以太网接口电路主要由MA…

下载最新VMware,专业版本

VMware - Delivering a Digital Foundation For BusinessesRun any app on any cloud on any device with a digital foundation built on VMware solutions for modern apps, multi-cloud, digital workspace, security & networking.https://www.vmware.com/ 官网地址

Mysql新建数据库报错1044

mysql创建数据库报错 1044 - Access denied for user ‘root‘%‘ to database ‘XXX‘ 解决参考:MySQL新建表:1044 - Access denied for user ‘root‘%‘ to database ‘XXX‘终极解决方案_cannot create table [sheet]: 1044 - access denied -CSDN博…

Git学习(一)基于本地操作:Git初识、Git安装(Linux-ubuntu)、Git 基本操作、分支管理

目录 Git 初识 Git 安装(Linux-ubuntu) Git 基本操作 创建 Git 本地仓库 配置 Git 认识工作区、暂存区、版本库 添加文件 查看 .git 文件 修改文件 版本回退 撤销修改 情况一:对于工作区的代码,还没有 add 情况二&am…

面试经典150题【101-110】

文章目录 面试经典150题【101-110】9.回文数61.加一172.阶乘后的069.x的平方根50.Pow(x,n)149.直线上最多的点数52.N皇后II120.三角形最小路径和64.最小路径和63.不同路径II 面试经典150题【101-110】 6道偏数学的题和4道二维dp 9.回文数 一开始想转为字符串再判断。后来发现…

盛⽔最多的容器【双指针】

首先我们设该容器的两边为左右两边界。 这道题中的:盛⽔最大容量 底 * 高 左右两边界距离 * 左右两边界的较短板。 这道题如果用暴力求解,是个人都能想到怎么做,遍历所有的情况即可。 有没有更好的办法呢?我是搜了资料了解的。我…

计算机视觉技术:美颜SDK在直播平台的集成与优化

当下,美颜技术在直播平台中的应用变得愈发重要。接下俩,小编将深度讲解计算机视觉技术在美颜SDK集成与优化方面的应用,以提升直播平台的用户体验。 一、美颜技术的发展 传统的美颜功能只是简单地对图像进行柔化处理,而现在的美颜…

论文导读 | 漫谈图神经网络

本文主要介绍图神经网络相关内容,包括图神经网络的基本结构以及近期研究进展。 背景 在实际生活中,许多数据都可以用图的形式表达,比如社交网络、分子模型、知识图谱、计算机网络等。图深度学习旨在,显式利用这些数据中的拓扑结…

各类主流电商API商品采集接口的权限控制和功能权限控制

主流电商平台的API接口类型 参数说明 通用参数说明 url说明 /平台/API类型/ 平台:淘宝,京东等, API类型:[item_search,item_get,item_search_shop等]version:API版本key:调用key,测试key:test_api_keysecret:调用secret,测试secret:(不用填写…

思腾合力携AI服务器亮相第二十一届中国电博会

博会已发展成为海峡两岸IT产业界规模最大、参展企业最多、产业配套最全的知名展会之一,今年以“数字赋能、创新制造”为主题,线下参展企业达400家。展会期间,举办了论坛与产业洽谈会等系列活动,进一步推动了两岸电子信息产业融合发…

码垛机与人工搬运:效率与安全性的比较分析

在现代包装行业中,泡沫箱因其轻便和保温特性被广泛用于商品的包装与运输。随着自动化技术的不断发展,码垛机成为提升泡沫箱生产效率、降低劳动强度的关键技术。本文旨在比较码垛机与人工码垛在泡沫箱生产中的优势,并探讨自动化码垛的未来发展…

4、事件修饰符、过滤器、自定义指令、生命周期

一、事件修饰符 按键别名enter 回车 delete 删除键 esc取消键 space 空格键 <script> export default {name: "KeyUp",methods:{keyUp(e){ console.log(e) }},skip(){window.location.href "http:www.xx.com"} } </script> <template>…

数学算法(算法竞赛、蓝桥杯)--最大公约数,欧几里得算法

1、B站视频链接&#xff1a;G05 最大公约数 欧几里得算法_哔哩哔哩_bilibili 题目链接&#xff1a;[NOIP2001 普及组] 最大公约数和最小公倍数问题 - 洛谷 #include <bits/stdc.h> using namespace std; typedef long long LL; LL x,y,ans;LL gcd(LL a,LL b){return b0?…

网工内推 | 松下电器,解决方案工程师,最高25K,IE认证优先

01 松下电器 招聘岗位&#xff1a;基盘解决方案架构师 职责描述&#xff1a; 1、网络的规划设计&#xff0c;架构实施和故障排渣以及调优 2、负责网络设备的选型、搭建、系统监控、故障解决、性能优化 3、负责对集团内相关业务&#xff0c;进行提案或项目管理相关工作 4、对…

Java多线程的常用方法和使用

多线程 哈喽大家好&#xff0c;我是薛慕昭&#xff0c;今天来回顾一下java的多线程&#xff0c;例如实现的方法等。 一、多线程常用方法 下面我们演示一下getName()、setName(String name)、currentThread()、sleep(long time)这些方法的使用效果。 public class MyThread e…

编译安装飞桨fastdeploy@FreeBSD(失败)

FastDeploy是一款全场景、易用灵活、极致高效的AI推理部署工具&#xff0c; 支持云边端部署。提供超过 &#x1f525;160 Text&#xff0c;Vision&#xff0c; Speech和跨模态模型&#x1f4e6;开箱即用的部署体验&#xff0c;并实现&#x1f51a;端到端的推理性能优化。包括 物…

铁威马TOS 6.0 Beta全球公测进行中,快来体验一下吧!

铁威马TOS 6.0 Beta已经正式上线啦 大家体验了吗? 今天和大家分享TOS 6.0的更新指南 01TOS 6 Beta更新指南 为了更好的体验TOS 6 请细阅以下指南 敲重点&#xff01; 本次更新仅适用于TOS 5.1.123 或以后的版本&#xff1b;如您的设备不符合更新条件&#xff0c;请勿更新…

2024年道路运输企业主要负责人证模拟考试题库及道路运输企业主要负责人理论考试试题

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2024年道路运输企业主要负责人证模拟考试题库及道路运输企业主要负责人理论考试试题是由安全生产模拟考试一点通提供&#xff0c;道路运输企业主要负责人证模拟考试题库是根据道路运输企业主要负责人最新版教材&#…

速看!2024广州国际服务机器人产业博览会

2024广州国际服务机器人产业博览会 时间&#xff1a;2024年12月19-21日 地点&#xff1a;中国进出口商品交易会琶洲展馆 近年来我国服务机器人智能化、个性化水平快速提升&#xff0c;使其需求领域不断扩展&#xff0c;销售额不断增长。尤其是疫情带动服务机器人需求增长&am…

To 有缘看到的,To 同处困境无助中的,To myself

To 有缘看到的&#xff0c;To 同处困境无助中的&#xff0c;To myself To 有缘看到的朋友&#xff1a; 我们生而为人&#xff0c;而不是什么神仙妖怪&#xff0c;自然逃不脱凡尘种种不易。我和你们都一样&#xff0c;甚至可以说我的条件并不好&#xff0c;我也不是什么智者&…