时间序列分类|MedSpaformer：多粒度token稀疏化的可迁移Transformer模型

news2026/4/15 8:48:08

MedSpaformer: a Transferable Transformer with Multi-granularity Token Sparsification for Medical Time Series Classification注意: 该论文在v1版本2025年3月19日中名为 “Sparseformer”在后续版本v2/v3中更名为 “MedSpaformer”作者: Jiexia Ye, Weiqi Zhang, Ziyue Li, Jia Li, Fugee Tsung机构:香港科技大学广州香港科技大学德国科隆大学发表时间: 2025年3月19日v12025年5月29日更新v22025年8月17日更新v3论文链接: https://arxiv.org/abs/2503.15578源码The code is provided in the supplementary material研究背景与动机医疗时间序列Medical Time Series, MedTS分类对于临床诊断至关重要但面临四大核心挑战挑战描述多尺度模式病理特征跨越毫秒如癫痫尖波到分钟如慢波振荡复杂跨通道关系多传感器数据如12导联ECG编码空间分布的生物标志物信息冗余不同尺度和通道中的冗余段引入噪声和计算低效标签稀缺临床标注数据集有限尤其是罕见疾病现有Transformer模型主要专注于预测任务未能充分利用MedTS的独特特性单时间戳方法难以捕捉粗粒度模式全时间戳方法可能忽略细粒度局部细节多粒度方法如PatchTST、Crossformer局限于单通道输入Medformer虽有多粒度跨通道能力但缺乏有效抑制冗余信号的机制核心贡献MedSpaformer模型整体架构┌─────────────────────────────────────────────────────────┐ │ MedSpaformer │ ├─────────────────────────────────────────────────────────┤ │ 时间序列编码器 │ 自适应标签编码器 │ │ (Time Series Encoder) │ (Adaptive Label Encoder) │ ├─────────────────────────┼───────────────────────────────┤ │ ┌─────────────────┐ │ 标签文本描述 → ClinicalBERT │ │ │ 多粒度分割 │ │ ↓ │ │ │ Multi-granularity│ │ 可学习投影器 → D维统一空间 │ │ │ Segmentation │ │ │ │ └────────┬────────┘ │ │ │ ↓ │ │ │ ┌─────────────────┐ │ │ │ │ 粒度内层次稀疏 │ │ │ │ │ Intra-granularity│ │ │ │ │ Encoding (TSDA)│ │ │ │ └────────┬────────┘ │ │ │ ↓ │ │ │ ┌─────────────────┐ │ │ │ │ 粒度间编码 │ │ │ │ │ Inter-granularity│ │ │ │ │ Encoding (TSDA)│ │ │ │ └────────┬────────┘ │ │ │ ↓ │ │ │ ┌─────────────────┐ │ │ │ │ 跨通道编码 │ │ │ │ │ Cross-channel │ │ │ │ │ Encoding (TSDA)│ │ │ │ └────────┬────────┘ │ │ │ ↓ │ │ │ 时间序列嵌入 HX │ 标签嵌入 Hy │ │ (D维) │ (D维) │ └─────────────────────────┴───────────────────────────────┘ ↓ 对比学习优化最大化相似度核心创新模块Token-Sparse Dual Attention (TSDA) 块设计灵感模拟医生的两阶段诊断过程——先整体症状情境化再聚焦生物标志物分析结构组成输入序列 H ∈ R^(L×D) ↓ ┌─────────────────────────────────────┐ │ Stage 1: Self-Attention │ │ 自注意力层 │ │ H_self Attn_self(H, H, H) │ │ 建模全局时间依赖捕获所有token的 │ │ 成对交互解决局部模式歧义 │ └─────────────┬───────────────────────┘ ↓ ┌─────────────────────────────────────┐ │ Stage 2: Token-Sparse Attention │ │ 稀疏token注意力层 │ │ │ │ 可学习查询 Q_aug f(Q, E_prior) │ │ (融合领域先验知识) │ │ │ │ H_sparse Attn_sparse(Q_aug, H_self, H_self) │ │ Softmax(Q_aug(H_self·W_K)^T/√d) · H_self·W_V │ │ │ │ 输出: K ≪ L 个token实现计算减少 │ │ 同时保留关键特征消除无关信息 │ └─────────────────────────────────────┘关键特性输入长度无关可训练参数仅依赖于预定义的查询数K和维度D而非输入长度L动态特征精炼通过领域引导的可学习查询聚焦于最具信息量的token多粒度层次稀疏编码粒度内编码Intra-Granularity使用多个TSDA块K3token数配置为[128, 64, 32]渐进式噪声抑制保留层次化判别模式H_k TSDA_k(H_{k-1}; Θ_k, O_k) 其中 O_k O_{k-1}实现渐进式token压缩粒度间编码Inter-Granularity将各粒度的表示拼接后通过TSDA块建模跨粒度关系自注意力建立全局上下文稀疏注意力压缩信息多粒度配置使用粒度集合 S {25, 50, 100, 150} 捕获多尺度时间模式跨通道编码Cross-Channel Encoding通道级表示 {h_c}_{c1}^C → 拼接为 H_C ∈ R^(C×D_c) ↓ Self-Attention: 计算所有通道的密集成对相关性 ↓ Token-Sparse Attention: 将C个通道压缩为O_cross个任务特定交互原型 ↓ MLP投影 → 最终时间序列嵌入 H_X ∈ R^D关键优势可训练参数仅依赖于输出token数O_cross和维度D而非通道数C支持跨异构数据集部署如6通道ICU监护仪 vs 12通道可穿戴设备自适应标签编码器Adaptive Label Encoder解决问题传统one-hot编码难以适应异构标签空间或泛化到未见类别设计标签文本描述 T_y → ClinicalBERT冻结语言模型 ↓ 可学习投影器W1, W2, b→ ReLU激活 ↓ D维统一空间中的自适应标签嵌入 H_y损失函数L(Θ) -Σ log[exp(sim(H_X, H_y)) / Σ_j exp(sim(H_X, H_j))]实验结果数据集7个医疗数据集数据集领域样本数类别数通道数序列长度APAVA 阿尔茨海默病 5,967 2 16 256 (EEG)ADFTD 阿尔茨海默病 69,752 3 19 256 (EEG)PTB 心脏病 64,356 2 15 300 (ECG)PTB-XL (4类) 心脏病 17,110 4 12 1000 (ECG)PTB-XL (5类) 心脏病 17,110 5 12 1000 (ECG)TUSZ (2类) 癫痫 22,040 2 19 6000 (EEG)TUSZ (4类) 癫痫 2,891 4 19 6000 (EEG)监督学习性能F1分数模型 APAVA ADFTD TUSZ(2) TUSZ(4) PTB-XL(4) PTB-XL(5) PTB 平均DLinear 0.486 0.292 0.648 0.735 0.234 0.243 0.593 0.461TimesNet 0.706 0.465 0.767 0.854 0.479 0.513 0.776 0.652Medformer 0.706 0.461 0.823 0.841 0.584 0.514 0.811 0.677MedSpaformer 0.813 0.472 0.854 0.893 0.578 0.542 0.850 0.715关键发现MedSpaformer在7个数据集上均达到最佳性能平均F1分数比次优的Medformer高出约4%通过聚焦有用的多粒度token并渐进式丢弃冗余信息提取更高层次的通道交互少样本学习Few-shot Learning在{5, 10, 20, 30, 40, 50}-shot设置下评估MedSpaformer在所有shot设置下均表现最佳仅5个样本训练时性能已超过多数基线模型零样本学习Zero-shot Learning实验类型设置结果领域内迁移同领域数据集间迁移 4个最佳性能跨领域迁移不同领域间迁移 3个最佳性能对比 DLinear (50-shot) MedSpaformer零样本性能更优对比 DLinear (监督学习) MedSpaformer在APAVA、PTB-XL上零样本性能更优里程碑据作者称这是首个支持跨任务零样本学习的时间序列分类Transformer框架消融研究配置 APAVA ADFTD TUSZ(2) TUSZ(4) PTB-XL(4) PTB-XL(5) PTBw/o 多粒度 0.785 0.452 0.803 0.853 0.557 0.514 0.813w/o 通道注意力 0.782 0.460 0.816 0.868 0.562 0.535 0.835w/o 标签编码器 0.801 0.467 0.845 0.881 0.579 0.540 0.846MedSpaformer 0.813 0.472 0.854 0.893 0.578 0.542 0.850贡献度排序多粒度机制最重要移除后性能下降约7%稀疏注意力移除后性能下降约6%通道注意力移除后性能下降约5%对EEG数据集更显著标签编码器提供约2%的性能提升效率分析在APAVA数据集上的对比模型参数量每轮训练时间 F1分数Autoformer 4.5M 最快 0.718Medformer 2.1M 较快 0.706MedSpaformer 8.4M 中等 0.813TimesNet 12.3M 较慢 0.706结论MedSpaformer在效率与效果之间取得平衡以合理的参数量和训练时间实现显著更高的性能。关键创新总结创新点技术实现解决的问题Token稀疏双注意力 TSDA块自注意力稀疏注意力信息冗余、计算效率多粒度层次编码粒度内粒度间TSDA块堆叠多尺度时间模式捕获跨通道编码通道级TSDA处理复杂跨通道依赖建模自适应标签编码 ClinicalBERT 可学习投影跨数据集标签空间对齐输入输出异构性支持稀疏编码机制变长序列、变通道数处理结论与意义MedSpaformer通过以下设计实现了医疗时间序列分类的突破临床启发式设计模拟医生的两阶段诊断过程渐进式信息精炼从多粒度到跨通道的层次化特征提取跨数据集可迁移性支持监督、少样本、零样本学习首个零样本Transformer实现跨任务零样本迁移该研究为医疗AI中的标签稀缺问题提供了有效解决方案具有广泛的临床应用潜力。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2519305.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！