基于机器学习的心脏病预测模型构建与可解释性分析

news2025/6/6 18:40:51

一、引言

  心脏病是威胁人类健康的重要疾病之一,早期预测和诊断对防治心脏病具有重要意义。本文利用公开的心脏病数据集,通过机器学习算法构建预测模型,并使用 SHAP 值进行模型可解释性分析,旨在为心脏病的辅助诊断提供参考。

 

二、数据准备与预处理

1. 数据加载

  数据集来源于 Kaggle 公开的心脏病数据集(heart.csv),包含 303 条样本和 14 个特征,目标变量为是否患有心脏病(target,0 表示无,1 表示有)。关键代码如下:

data = pd.read_csv('heart.csv')
print(f"数据规模: {data.shape}")  # 输出:数据规模: (303, 14)
print("目标分布:\n", data['target'].value_counts(normalize=True))

  目标分布显示正负样本比例约为 6:4,存在轻微不平衡,后续通过分层抽样处理。 

2. 特征划分

数值型特征:年龄、血压、胆固醇等连续变量,共 6 个。

分类型特征:性别、胸痛类型、血糖等离散变量,共 8 个。

cat_features = ['sex', 'cp', 'fbs', 'restecg', 'exang', 'slope', 'ca', 'thal']
num_features = [c for c in X.columns if c not in cat_features]

 

3. 预处理流程 

采用 ColumnTransformer 构建预处理管道:

数值型特征:标准化(StandardScaler)

分类型特征:独热编码(OneHotEncoder,丢弃第一个类别避免多重共线性)

preprocessor = ColumnTransformer([
    ('num', StandardScaler(), num_features),
    ('cat', OneHotEncoder(drop='first', handle_unknown='ignore'), cat_features)
])

 

 

三、模型训练与对比 

1. 算法选择与超参数调优

选取 4 种经典分类算法,使用 GridSearchCV 进行 5 折交叉验证,以 F1 分数为优化指标:

随机森林(RF):调优参数包括树的数量(n_estimators)和最大深度(max_depth)

逻辑回归(LR):调优参数为正则化系数(C)

决策树(DT):调优参数为最大深度(max_depth)

支持向量机(SVM):调优参数为正则化系数(C)和核函数(kernel)

2. 训练流程

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y  # 分层抽样保持样本分布
)

for name, cfg in model_configs.items():
    pipe = Pipeline([('pre', preprocessor), ('model', cfg['model'])])
    grid = GridSearchCV(pipe, cfg['params'], cv=5, scoring='f1', n_jobs=-1)
    grid.fit(X_train, y_train)  # 训练模型
    # 计算评估指标

 

3. 模型性能对比 

模型

最佳参数

准确率

精确率

召回率

F1 分数

ROC-AUC

rf

{'model__max_depth': 10, 'model__n_estimators': 200}

0.87

0.88

0.85

0.86

0.93

lr

{'model__C': 1.0}

0.85

0.85

0.83

0.84

0.91

dt

{'model__max_depth': 10}

0.83

0.83

0.82

0.82

0.89

svm

{'model__C': 1, 'model__kernel': 'rbf'}

0.86

0.87

0.83

0.85

0.92

结论:随机森林(RF)在 F1 分数和 ROC-AUC 指标上表现最优,选为最终模型。 

 

 

四、模型可解释性分析(SHAP 值) 

1. SHAP 原理简介

  SHAP(SHapley Additive exPlanations)基于合作博弈论,通过计算每个特征对预测结果的贡献度,实现模型可解释性。

2. 特征重要性分析

 (1)条形图

 

(2)摘要图(Beeswarm) 

 

 

五、结论与展望 

 

1. 结论

  随机森林模型在心脏病预测中表现最佳,准确率达 87%,F1 分数 0.86。关键影响因素为冠状动脉钙化数量、地中海贫血筛查结果和运动后 ST 段变化,与医学常识一致,验证了模型的合理性。

 

2. 改进方向

  尝试集成学习(如 Stacking)或深度学习模型(如神经网络)。引入更多临床特征(如家族病史、生活习惯等)提升模型泛化能力。针对不平衡数据采用 SMOTE 等过采样技术优化。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2401985.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

谷粒商城-分布式微服务项目-高级篇[三]

十五、商城业务-支付 15.1 支付宝支付 15.1.1 进入“蚂蚁金服开放平台” 支付宝开放 平台地址: 支付宝开放平台 15.1.2 下载支付宝官方 demo,进行配置和测试 开发者文档:支付宝开放平台文档中心 电脑网站支付文档:小程序文…

实现购物车微信小程序

实现一个微信小程序购物车页面,包含以下功能: 需求说明: 商品列表:显示商品名称、价格、数量加减按钮,支持修改商品数量(数量≥1)。 全选 / 反选功能:顶部 “全选” 复选框&#…

26考研 | 王道 | 计算机组成原理 | 四、指令系统

26考研 | 王道 | 计算机组成原理 | 四、指令系统 文章目录 26考研 | 王道 | 计算机组成原理 | 四、指令系统1.指令系统0.指令集体系结构1. 指令格式1.按地址码数目不同来分2.指令-按指令长度分类3.指令-按操作码长度分类4.指令-按操作类型分类 2. 扩展操作码指令格式 2.指令的寻…

在 Windows 系统安装 Git

前往官网下载Git - Downloads 目录 一、下载安装包 二、安装 Git 三、安装完成 四、验证安装 五、问题解决 解决步骤 一、下载安装包 点击页面右侧 “Download for Windows” 按钮。 点击页面最上方 “Click here to download” ,下载 Git for Windows/x64 …

基于InternLM的情感调节大师FunGPT

基于书生系列大模型,社区用户不断创造出令人耳目一新的项目,从灵感萌发到落地实践,每一个都充满智慧与价值。“与书生共创”将陆续推出一系列文章,分享这些项目背后的故事与经验。欢迎订阅并积极投稿,一起分享经验与成…

【性能调优系列】深入解析火焰图:从基础阅读到性能优化实战

博客目录 一、火焰图基础:结构与阅读方法二、深入分析火焰图:关键观察点与性能瓶颈识别1. 识别最宽的函数块2. HTTP 请求处理分析3. 数据库操作分析4. 业务逻辑分析 三、性能优化实战:从火焰图到解决方案1. 线程池性能优化2. 数据库访问优化3…

Docker 与容器技术的未来:从 OCI 标准到 eBPF 的演进

Docker 的出现无疑是云计算发展史上的一个里程碑。它以其直观的打包、分发和运行方式,极大地简化了应用程序的部署和管理,从而推动了微服务架构和 DevOps 文化的普及。然而,容器技术的未来并非仅仅局限于 Docker,它正朝着更深层次的标准化和更底层的操作系统内核创新方向演…

PLC远程控制网关支持多塘口水环境数据边缘计算与远程安全传输的配置指南

一、项目背景 渔业养殖是关系到我国食物安全和海洋经济发展的重要产业,随着科技的不断进步,传统的养殖模式面临着诸多挑战,如养殖环境复杂、水质变化难以实时监测、设备运行状态不稳定等,这些问题不仅增加了养殖成本,还…

C++11 中 final 和 override 从入门到精通

文章目录 一、引言二、final 关键字2.1 final 关键字的基本概念2.2 final 关键字的语法2.3 final 关键字的使用示例2.3.1 防止类被继承2.3.2 防止虚函数被重写 2.4 final 关键字的使用场景2.5 final 关键字的注意事项 三、override 关键字3.1 override 关键字的基本概念3.2 ove…

大数据-275 Spark MLib - 基础介绍 机器学习算法 集成学习 随机森林 Bagging Boosting

点一下关注吧!!!非常感谢!!持续更新!!! 大模型篇章已经开始! 目前已经更新到了第 22 篇:大语言模型 22 - MCP 自动操作 FigmaCursor 自动设计原型 Java篇开…

git互联GitHub 使用教程

一、下载git Git 公司 右键 git config --global user.name "name" git config --global user.email "email" ssh-keygen -t rsa -C email :生成的ssh密钥需要到github 网站中保存ssh 二、GitHub新建repository 三、本地git互联GitHub 找…

SpringBoot+Mysql实现的停车场收费小程序系统+文档

💗博主介绍💗:✌在职Java研发工程师、专注于程序设计、源码分享、技术交流、专注于Java技术领域和毕业设计✌ 温馨提示:文末有 CSDN 平台官方提供的老师 Wechat / QQ 名片 :) Java精品实战案例《700套》 2025最新毕业设计选题推荐…

面向对象进阶 | 深入探究 Java 静态成员与继承体系

个人主页 文章专栏 文章目录 个人主页文章专栏 一、static(静态)1.static 静态变量代码展示内存图 2.static 静态方法工具类:练习: 3.static注意事项4.重新认识main方法 二、继承1.继承概述2.继承的特点3.子类到底能继承父类中的…

人脸识别技术成为时代需求,视频智能分析网关视频监控系统中AI算法的应用

一、应用背景:时代需求与技术革新的双重驱动​ 1)传统安防系统的困境​:传统监控系统依赖人工逐帧筛查海量视频,在人流密集场所极易漏检,且缺乏实时锁定和主动预警能力,面对突发安全事件响应迟缓。​ 2&a…

pc端小卡片功能-原生JavaScript金融信息与节日日历

代码如下 <!DOCTYPE html> <html lang"zh-CN"> <head><meta charset"UTF-8"><meta name"viewport" content"widthdevice-width, initial-scale1.0"><title>金融信息与节日日历</title><…

Go语言学习-->第一个go程序--hello world!

Go语言学习–&#xff1e;第一个go程序–hello world! 1 写代码前的准备 1 创建编写代码的文件夹 2 使用vscode打开3 项目初始化 **go mod init*&#xff08;初始化一个go mod&#xff09;Go Module 是 Go 1.11 版本引入的官方依赖管理系统&#xff0c;用于替代传统的 GOPATH…

高雄市12岁以下身心障碍儿童口腔保健合作院所名单数据集

描述&#xff1a; 关键字&#xff1a;儿童、口腔、保健、院所、名单 字段特征&#xff1a;序号、院所分级、合作医疗院所、市话、地址 语言&#xff1a;繁体 行数/数量&#xff1a;129行&#xff0c;5列 数据量 &#xff1a;7.27KB 格式&#xff1a;CSV、JSON、XML 目录…

破局新能源消纳难题!安科瑞智慧能源平台助力10KV配电网重构未来

一、政策驱动&#xff1a;新型配电网迎来 “智慧化” 刚需 随着分布式光伏、工商业储能、电动汽车充电桩等新型电力设施大规模并网&#xff0c;传统 10kV 配电网正面临 “高渗透、强波动、多交互” 的运行挑战。2025 年 6 月 1 日正式实施的《配电网通用技术导则》&#xff08;…

TIA博途中的程序导出为PDF格式的具体方法示例

TIA博途中的程序导出为PDF格式的具体方法示例 如下图所示&#xff0c;选中想要导出为PDF的程序块&#xff0c;右击选择“打印”&#xff0c; 如下图所示&#xff0c;选择“导出为WPS PDF” 或者“Microsoft Print to PDF”&#xff0c; 如下图所示&#xff0c;设置文档布局相关…

【大模型:知识图谱】--4.neo4j数据库管理(cypher语法1)

使用neo4j的cypher语法对图数据库进行管理&#xff1b;官网地址&#xff1a;Create, start, and stop databases - Operations Manual 目录 1.neo4j--简介 1.1.Neo4j版本的标准数据库 1.2.默认数据库 1.3.每用户主数据库 1.4.system数据库 2.neo4j--数据库管理 2.1.命名…