1. 引言
心脏瓣膜疾病是全球高致死率的心血管疾病之一,早期诊断对改善预后至关重要。心音信号包含了瓣膜开合与血液流动的病理特征,是临床筛查的核心依据。然而,传统听诊依赖医生经验,存在主观性强、难以识别微弱杂音等局限[1]-[3]。近年来,机器学习与深度学习在心音分类中展现出巨大潜力,能自动提取复杂特征并处理大规模数据[4]。
尽管现有研究取得了一定进展,但仍面临诸多挑战。在特征提取方面,Liang [5]、Springer [6]及Yaseen [7]等人分别利用小波包分解、隐马尔可夫模型及MFCC进行尝试,但多局限于单一特征域,难以全面捕捉非平稳信号特征。在模型方面,Raza [8]和Khan [9]等人虽然引入了深度学习,但现有方法在处理数据不平衡、捕捉时序长依赖关系以及抗噪鲁棒性方面仍有不足。
针对上述问题,本文提出一种基于多模态特征融合与集成学习的心音异常检测方法,主要贡献如下:(1) 数据增强:提出异常类别导向的增强策略,通过针对性扰动异常样本解决数据不平衡问题,提升模型敏感性;(2) 特征融合:综合提取时域统计、频域谱质心及小波域能量熵等多层次特征,构建兼顾全局与局部的特征空间;(3) 模型架构:设计CNN-BiLSTM深度神经网络,利用卷积层提取局部特征,双向LSTM捕捉长时依赖,相比单一模型显著提升了分类性能。
2. 特征提取
在心音信号的分析与分类中,特征提取是关键的一步。常见的特征提取方法通常分为时域特征、频域特征以及时频域特征等[10]-[12],见表1。基于这些常见方法,我们提出了一种结合时域、频域和小波域的多特征提取方案,以期全面描述心音信号的多层次特征。
Table 1. Cardiac sound signal feature extraction indicators
表1. 心音信号特征提取指标
特征类型 |
具体指标 |
作用与意义 |
时域特征 |
均值、标准差、最大值、最小值、均方根、偏度、峰度 |
描述信号的整体幅值水平、波动程度及分布形态,反映心音强弱、稳定性以及异常波动情况。 |
过零率 |
衡量信号变化的频繁程度,间接反映心音的复杂度和高频成分。 |
包络均值与标准差 |
反映心音能量包络随时间的变化,敏感于杂音和心音强度不均等病理特征。 |
频域特征 |
谱质心 |
表征频谱能量的“重心”,反映整体频率分布位置,异常心音往往向高频偏移。 |
谱带宽 |
描述能量在频谱上的扩展程度,提示杂音的频率分布范围。 |
频带能量 |
定量分析特定频带的能量分布,用于识别不同心音成分及病理性杂音。 |
梅尔频率倒谱系数
(MFCC,13维) |
模拟人耳听觉感知,对心音“音质”变化敏感,常用于语音和心音分类任务。 |
小波特征 |
小波分解系数的均值、标准差、能量、熵 |
同时提供时域与频域信息,能捕捉心音在不同尺度下的细节与趋势,适合非平稳信号分析。 |
与以往依赖单一域分析的研究不同,本研究的创新之处在于提出了一种多域特征融合策略。该方法将时域、频域与小波域特征有机结合,实现了从全局统计特性到局部动态细节的多层次表征。通过融合不同域的信息,模型不仅能够强化对心音全局结构与局部异常的联合感知能力,还显著提升了对病理性杂音中微弱异常模式的敏感性。实验结果表明,这种多域特征融合方法在异常心音识别中表现出更高的鲁棒性与分类准确率。
3. 模型构建
本研究旨在针对心音信号的自动分类问题,提出一种基于支持向量机(Support Vector Machine, SVM) [13]与双向长短期记忆网络(Bidirectional Long Short-Term Memory, Bi LSTM)的混合分类方案。该方法充分利用了传统机器学习模型在小样本特征空间上的优势,同时结合深度学习模型在时序建模与特征自动提取上的能力,从而在准确率、泛化能力与鲁棒性之间取得平衡。
3.1. 支持向量机(SVM)模型设计
SVM在小样本高维特征的分类任务中表现出色,尤其适用于心音信号中经过特征工程后的低维度数据。在医学数据中,样本数量通常有限,传统的深度神经网络容易出现过拟合现象,而SVM利用核函数技巧,在有限数据条件下仍能实现较高的分类精度。本研究在SVM部分采用了径向基函数核(Radial Basis Function Kernel, RBF),为了兼顾精度与训练效率,本研究针对超参数搜索与模型拟合进行了优化。SVM心音分类模型流程见图1。
Figure 1. SVM heart sound classification model flowchart
图1. SVM心音分类模型流程
3.2. 双向卷积长短期记忆网络(BiLSTM-CNN)模型设计
尽管SVM在小样本条件下表现优异,但其依赖人工设计特征,难以充分利用心音信号的原始时序结构。因此,本研究进一步引入了卷积神经网络(CNN)与双向长短期记忆网络(BiLSTM)结合的深度学习架构,能够在端到端的框架下自动提取特征并建模长时间依赖关系。BiLSTM模型能够同时考虑时间序列的前向与后向信息,在捕捉周期性、非平稳的心音信号方面优于单向LSTM [14]。同时,CNN [15]模块则用于提取局部频谱特征,从而提升整体性能。
本研究所设计的模型采用BiLSTM-CNN的混合架构。首先,在卷积特征提取阶段,使用一维卷积层(Conv1D)对心音信号进行局部特征提取,以削弱原始输入中的噪声干扰。该卷积层设置了64个卷积核,卷积核大小为3,激活函数为ReLU,并采用same填充以保证序列长度不变;同时结合Batch Normalization与MaxPooling1D,以提升特征分布的稳定性并有效降低计算复杂度。随后,模型引入两层双向长短期记忆网络(BiLSTM),其中第一层包含128个单元,用于捕获全局时序依赖关系;第二层包含64个单元,用于进一步抽象高阶特征。在每一层BiLSTM之后均加入Dropout (比例为0.3),以缓解过拟合问题。最后,网络通过全连接层(Dense,64单元,ReLU激活,结合L2正则化)对特征进行整合,并在输出层采用Softmax激活函数实现二分类概率输出,从而完成心音信号的分类任务。BiLSTM-CNN心音分类模型流程见图2。
Figure 2. Flowchart of the BiLSTM-CNN heart sound classification model
图2. BiLSTM-CNN心音分类模型流程
3.3. 集成模型设计
在本研究中,除了单独构建支持向量机(SVM)和长短时记忆网络(BiLSTM-CNN)两类模型外,我们进一步设计并实现了一个集成模型[16] [17] (Ensemble Model),以期在保持较高分类精度的同时兼顾模型的稳定性和泛化能力。集成方法选择不同的策略,通过这些策略,可以使得集成模型在不同情况下做出更为合理的预测,从而实现性能提升。图3集成模型设计具体流程。
为兼顾分类精度与泛化能力,本研究设计了六种策略融合SVM与CNN-BiLSTM的预测结果(记为
,
)。
动态加权策略[18] (Dynamic Weighted):基于模型在验证集上的F1分数动态分配权重:
其中,指数参数
是基于验证集网格搜索确定的最优值,旨在适度放大高能模型的贡献,同时避免单一模型主导。
置信度加权策略[19] (Confidence Weighted):根据模型预测的最大概率值(即置信度
调整权重,使高置信度模型在决策中占据更大比重。
层次决策策略[20] (Hierarchical Decision):优先采信高置信度模型。当任一模型置信度高于阈值
时直接输出其结果;否则采用加权平均。
阈值
是通过分析训练集预测概率分布后设定的经验值,能有效区分高确信度样本与模糊样本。
其他策略:包括直接选择置信度最高的最大置信度策略[21];基于逻辑回归学习模型间交互特征(如预测差值、乘积)的元学习器策略[22];以及基于硬分类结果多数决定的投票机制[23]。
Figure 3. Integrated model flowchart
图3. 集成模型流程图
4. 评估指标
在心音分类任务中,尤其是针对二分类问题(正常与异常心音的分类),混淆矩阵是一种有效的工具,用于总结分类模型的预测结果。混淆矩阵以表格的形式展示了模型预测结果与真实标签之间的关系,能够为模型性能提供详细的分析。在该矩阵中,行表示样本的真实标签,列表示模型的预测标签。以二分类问题为例,其中正常心音和异常心音分别作为正类与负类进行分类。表2展示了二分类混淆矩阵[24]的结构:
Table 2. Confusion matrix
表2. 混淆矩阵
|
实际为正常心音 |
实际为异常心音 |
预测为正类 |
真正类(TP) |
假正类(FP) |
预测为负类 |
假负类(FN) |
真负类(TN) |
在表3中,TP (True Positive)表示模型正确地将实际正常心音样本预测为正常心音的数量;FP (False Positive)表示模型错误地将实际异常心音样本预测为正常心音的数量;FN (False Negative)表示模型错误地将实际正常心音样本预测为异常心音的数量;TN (True Negative)表示模型正确地将实际异常心音样本预测为异常心音的数量。针对该二分类任务,可以基于混淆矩阵的内容计算以下评价指标,以全面衡量分类模型的性能[25]:
5. 数据分析和预处理
5.1. 数据集介绍
本研究采用Challenge2016数据集[26],包含3240例采集自临床及家庭环境的多源心音数据(时长5~180秒)。该数据集涵盖心脏瓣膜缺陷、冠状动脉疾病等多种病理类型,分为正常与异常两类。其跨设备采集的特性显著增强了数据的临床泛化能力。实验前,所有数据均重采样至2000 Hz以统一标准。
5.2. 数据预处理
为确保特征提取的有效性,预处理流程(如图4所示)主要包含以下步骤:
Figure 4. Preprocessing of the heart sound signal: (a) Original heart sound signal; (b) Filtered heart sound signal; (c) Heart sound signal after filtering and normalization; (d) Spectrum of the original heart sound signal; (e) Spectrum of the filtered heart sound signal
图4. 心音信号的预处理,(a) 原始心音信号;(b) 滤波后的心音信号;(c) 经过滤波和归一化处理的心音信号;(d) 原始心音信号的频谱图;(e) 心音信号经过滤波后的频谱图
滤波降噪:采用三阶巴特沃斯带通滤波器,截止频率设为25 Hz~400 Hz [27]。如图4(b)和图4(e)所示,该处理有效去除了低频基线漂移与高频环境噪声,保留了心音的主要能量区间。归一化:对滤波后的信号进行线性归一化,将幅值映射至[0,1]区间(图4(c)),以消除不同采集设备导致的幅值差异。定长分割与增强:归一化后的数据将被分割为固定长度片段,并对异常样本实施增强。
在对每个心音信号进行滤波和归一化处理后,需要将信号重新采样到2000 Hz,然后再进行分割。图5是心音信号分割前后对比。
Figure 5. Segmentation and display of heart sound signals
图5. 心音信号的分割及片段展示
本研究采用固定时长切片策略:首先将采样率统一为2000 Hz,随后以3秒为窗口对信号进行非重叠分割。对于不足3秒的样本采用零填充(Zero-padding)补齐,超过3秒的长信号则拆分为多个独立片段。该策略不仅保证了模型输入维度的一致性,更通过长信号切分有效扩充了样本数量,从而增强了模型的泛化能力。
5.3. 数据增强
针对数据集严重的类别不平衡问题(正常样本远多于异常样本),本研究提出一种异常类别导向的混合增强策略。首先,仅对训练集中的异常样本(Label = 1)引入受控的高斯噪声进行扰动,为每个原始样本生成3个增强副本,在扩充数据的同时提升模型对噪声的鲁棒性。随后,采用SMOTE技术对少数类样本进行线性插值。这种“噪声扰动 + 合成过采样”的组合策略有效平衡了类分布,在保留特征空间结构信息的同时避免了模型向多数类过拟合。
6. 实验结果
6.1. 单模型性能表现
从图6 LSTM的混淆矩阵可以看出,该模型在识别正常与异常心音时表现较为均衡,其中正常类别的预测正确数为6732,异常类别的预测正确数为5197,整体准确率达到98.93%。同时,训练过程曲线表明模型在收敛过程中训练集与验证集的准确率逐渐接近,最终训练准确率为99.42%,验证准确率为98.93%,且无明显过拟合迹象。
相比之下,图7为SVM模型的混淆矩阵,显示其对正常类(6809个正确预测)与异常类(5208个正确预测)的区分效果更为稳定,整体表现略优于LSTM。其AUC值达到0.9985,与LSTM相当甚至略高。图8展示了LSTM训练过程。
Figure 6. Confusion matrix of the LSTM model
图6. LSTM的混淆矩阵
Figure 7. Confusion matrix of the SVM model
图7. SVM模型的混淆矩阵
Figure 8. LSTM training process curve
图8. LSTM训练过程曲线
6.2. 集成模型性能
Figure 9. Confusion matrix of the integrated model
图9. 集成模型混淆矩阵
为了进一步提升模型的鲁棒性与泛化能力,本研究设计了多种集成策略,包括动态加权、置信度加权、层次融合、最大置信度选择以及元学习。
从集成模型的混淆矩阵(图9)可以看出,该方法在正常类别上预测正确数为6826,异常类别为5202,相比单一模型误判数量进一步减少。其整体分类性能在准确率与召回率上均达到98.8%以上。
Table 3. Performance of each strategy
表3. 各策略的表现
Ensemble Strategy |
F1-Score |
Accuracy |
voting |
0.9795 |
0.9820 |
max_confidence |
0.9856 |
0.9875 |
confidence_weighted |
0.9856 |
0.9875 |
dynamic_weighted |
0.9859 |
0.9877 |
hierarchical |
0.9863 |
0.9881 |
meta_learner |
0.9872 |
0.9889 |
从表中可以看出,元学习(meta_learner)策略在所有策略中表现最佳,取得了最高的F1-Score (0.9872)和准确率(0.9889)。相较之下,投票策略(voting)尽管在实际应用中常被使用,但其性能相对较差,F1-Score为0.9795,准确率为0.9820。此外,层次化(hierarchical)策略表现也较为突出,F1-Score为0.9863,准确率为0.9881,紧随其后。其他策略如动态加权(dynamic_weighted)和置信度加权(confidence_weighted)也表现较好,二者的F1-Score分别为0.9859和0.9856,准确率分别为0.9877和0.9875。
基于实验结果,元学习策略在各项指标上都表现优异,因此选择采用元学习策略作为本文的最终集成方法。
6.3. 模型间对比
Figure 10. Comparison of SVM, LSTM, and ensemble methods in terms of Accuracy, Precision, Recall, and f1 score
图10. SVM、LSTM、Ensemble在Accuracy、Precision、Recall、F1的对比
将SVM、LSTM与集成模型进行综合比较(图10 SVM、LSTM、Ensemble在Accuracy、Precision、Recall、F1的对比),结果表明三种模型在准确率、精确率、召回率与F1-score上均表现优异,且差距极小。其中:三者准确率均约为98.8~98.9%;精确率:LSTM为0.9870,SVM与集成模型分别为0.9862与0.9863;召回率:LSTM在异常心音识别上略低(0.9831),而SVM与集成模型均为0.9880;F1-score:集成模型略优(0.9872),体现了其在平衡精确率与召回率方面的优势。
进一步通过图11可以直观对比三种模型的整体性能,发现集成模型在四个指标上均达到最优或次优,呈现更均衡的表现。
Figure 11. Model performance radar chart
图11. 性能雷达图
6.4. 综合性能分析
通过Precision-Recall曲线(图12)与ROC曲线(图13)比较进一步验证了模型的稳定性。三种模型的PR曲线与ROC曲线均接近理想状态,平均精度(AP)均大于0.997,AUC值均大于0.998,表明在异常心音检测任务中,模型几乎无性能瓶颈。
综合而言,单模型(LSTM与SVM)均能提供接近99%的高准确率,但在鲁棒性与泛化性上,集成模型整体表现更优。特别是在减少误判与保持精确率–召回率平衡方面,集成策略展现出明显优势,这也说明在医疗类异常检测任务中,集成学习方法具有重要的实际应用价值。
图14展示了三篇已有研究与本文所提出的三种模型在相同数据集上的分类准确率对比情况。已有文献中,Al-Shannaq等的方法准确率为98.1%,Cheng和Sun [28]的模型达到96.40%,而Deng M等[29]的卷积神经网络模型仅为98.34%。相比之下,本文提出的三种模型在相同数据集上均取得了更高的准确率,其中SVM模型为98.80%,LSTM模型为98.08%,融合模型(Ensemble Model)最高,达到98.89%。整体来看,本文的方法在心音信号分类任务上显著优于其他几篇已有的研究成果,说明所设计的模型能够更有效地捕捉心音信号的特征,提高分类性能,为临床辅助诊断提供更可靠的支持。
Figure 12. Precision-recall curve comparison
图12. PR曲线比较
Figure 13. Comparison of ROC curves
图13. ROC曲线比较
Figure 14. Performance comparison of different methods in normal/abnormal classification
图14. 不同方法在正常/异常分类中的性能比较
7. 讨论
性能提升与复杂度的权衡:本研究的集成框架虽然因多模型并行导致计算开销高于单一模型,但在医疗诊断中,降低“漏诊率”(False Negative)的价值远高于毫秒级的推理速度。本方法将召回率提升至0.9880,显著降低了漏诊风险。这种以适度增加计算成本为代价换取更高诊断安全性的策略,在临床应用中具有高度的必要性与合理性。
临床挑战与未来方向:尽管模型在跨设备数据集上表现良好,但真实临床部署仍面临设备异构性与非平稳噪声的挑战。此外,深度学习的“黑盒”特性限制了医生的信任度。未来的工作将聚焦于两个方向:一是结合可解释性AI与注意力机制,可视化病灶时频区域以辅助医生决策;二是研究模型蒸馏技术,在保持集成性能的同时实现模型轻量化,以适应资源受限的可穿戴设备。
8. 结论
本研究构建了一个基于多模态特征融合与自适应集成学习的心音异常检测系统。通过系统性的实验验证,得出以下主要结论。
多模态特征的互补性:融合时域统计、频域谱质心及小波能谱熵的特征向量,能够从不同维度刻画心音信号的非平稳特性。实验表明,该融合策略比单一特征域提供了更具判别力的特征表示。
异构模型的优势互补:改进的CNN-BiLSTM架构利用卷积层提取局部特征并由BiLSTM捕捉长时依赖,结合SVM在小样本下的分类稳定性,有效克服了单一模型的泛化瓶颈。
集成策略的显著提升:本研究提出的多策略集成框架(特别是元学习器策略)解决了传统加权平均的局限性。该框架在保持高准确率(98.89%)的同时,显著提升了召回率与F1分数,证明了其在降低临床漏诊率方面的实用价值。
综上所述,本文提出的方法通过“特征融合 + 异构模型 + 智能集成”的技术路线,为心脏瓣膜疾病的早期筛查提供了一种高精度、强鲁棒性的自动化解决方案。