1. 引言
根据《中国心血管病报告2017(概要)》 [1] ,我国2016年农村和城市居民主要疾病死因构成比如图1所示,其表明农村和城市心血管疾病死亡人数均已超过疾病死亡人数的40% [1] 。因此心血管病已成为危害我们健康的重疾之首,其预防和治疗至关重要,迫在眉睫。
心脏病的及时正确诊断是心脏病治愈的前提和基础,而心音分析是诊断心脏病的一种重要途径,其具有费用低廉、无创伤性、简便有效等优点,被广泛用于心脏疾病的诊断分析。而利用心音分析诊断心脏病中起决定性的中间环节是心音特征提取,而心音特征数据维数的不断增长已严重影响诊断效率,在很多聚类问题中(如机器学习 [2] 、图像处理 [3] 、模式识别 [4] 、文本分析 [5] 等)特征降维是处理高维数据的一个重要步骤。降维处理方法主要有三种方法:Filter方法、因子分析方法和主成分分析方法(PCA)。其中,PCA算法简单有效且无参数限制,因此被广泛应用于数据压缩和特征提取。鉴于此,本研究提出一种基于主成分分析的心音频域特征降维处理方法,实现以最优维度表征心音频域特征、以可视化效果表征心音频率分布。为验证本研究提出方法的有效性,以常见的典型心脏病例作为研究对象,其特征分布结果表明:不仅特征分布可视化效果明显,而且不同类心音特征呈现出显著区分。因此本研究提出的方法可为医护人员及研究人员提供一种较为明确的可视化诊断信息。
2. 心音信号的采集及预处理
2.1. 心音信号的采集
在临床上,心脏瓣膜听诊区通常有四个:二尖瓣区、肺动脉瓣区、主动脉瓣区、三尖瓣区 [2] 。本研究采用美国3M公司生产的3200型电子听诊器 [3] 在主动脉瓣听诊区进行心音采集(采样频率
),采集心音实例图及听诊器实物图如图2所示。
2.2. 心音信号的预处理
心音信号极其微弱,在采集的过程中极易受到噪音的干扰,造成部分有用信息的丢失及心音的识别度降低。此外,心音信号的复杂性和非平稳性使得对其进行分析变得困难,再加上噪声的引入进一步增加了分析心音信号的难度。因此,在采集过程中应尽量避免噪声干扰和对心音进行降噪处理是必要的。研究 [4] [5] 表明在基于小波分解的预处理中,MATLAB函数波wavedec和waverec是根据心脏的活动特征来实现的。基于采样频率
中所描述的声音频率范围,10层近似系数(0~21.5 Hz)用于切断低于21.5 Hz的低频成分,而第5层近似系数(689~1387 Hz)用于消除689 Hz的高频成分。过滤后的信号与21.5~689 Hz组件的频带限制是由6层到10层的细节系数组成的。由于DB10小波给出了最大的信噪比(SNR),所以本研究采用DB10作为母小波对心音进行降噪处理,对二尖瓣回流心音信号的降噪处理如图3所示。由图可知,DB10可以有效地去除心音中的噪声,同时保留信号所携带的有用信息。
3. 心音信号的频域特征提取
研究表明,不同种类的心音信号具有不同的频率分布,鉴于此,本文提出一种利用阈值的方法通过心音的包络线提取不同阈值对应的不同频率成分进行分析如下:第一步在频率域内提取心音包络公式如公式(1)至(3)。第二步利用阈值线提取心音特征如图4所示。图5为不同阈值所对应的不同心音(主动脉

Figure 1. Proportion of death among rural and urban residents in China in 2015
图1. 2015年中国农村和城市居民主要疾病死因构成比

Figure 2. Collection of heart sounds examples and stethoscope physical chart
图2. 采集心音实例图及听诊器实物图

Figure 3. An example of noise reduction of mitral regurgitation signal
图3. 二尖瓣回流心音信号的降噪示例图

Figure 4. Frequency domain feature extraction
图4. 频域心音特征提取定义示意图

Figure 5. Characteristic statistical chart (μ ± σ)
图5. 特征统计图(μ ± σ)
狭窄(AS)、二尖瓣回流(MR)、主动脉回流(AR)和正常心音(NM))特征统计图(μ ± σ)。从图中可以看出,各类心音特征之间还是有一定差别的,但由于特征维数较高,无法确定用哪几个特征能够进行心音的可视化分类识别。因此,下一节详述基于主成分分析的心音特征降维处理及结果。
包络线
,第 个心音周期
,对于诊断心室间隔缺损来说,已经被证实有一种有效的提取频域特性的方法 [6] 。使用相同的方法,依据公式(1)和(2)提取包络线
:
(1)
(2)
其中
为心音周期,
为提取的第i个心音周期,
为第i个心音周期的长度。
为了使包络面有利于分析频率成分,在研究中,基于包络线
,提出二次包络线
的公式如下:
(3)
其中
是为第i个心音信号设置的窗宽。
4. 降维处理研究
4.1. 主成分分析的简介
主成分分析(PCA)是一种对高维数据进行线性降维的统计方法,广泛应用于心脏病 [7] ,甲状腺疾病 [8] ,心脏死亡 [9] ,冠状动脉疾病 [10] ,数据聚类 [11] ,心血管疾病 [12] 和心律不齐 [13] 等研究中。
主成分分析的具体步骤如下:
1) 对原始数据进行标准化处理(消除量纲影响)
设特征矩阵为
则按公式(4)进行标准化处理:
(4)
其中,
,
,
,
。
2) 计算数据的协方差矩阵
协方差公式(5)计算:
(5)
3) 求出矩阵的特征值及相应的正交化单位特征向量
解方程
,求出特征值
,按从大到小的顺序排列
,并求出
对应的特征向量
。
4) 计算各特征值的贡献率及累计贡献率
贡献率及累积贡献率分别依据公式(6) (7)计算:
(6)
(7)
4.2. 特征降维处理结果
根据以上步骤在MATLAB中运行主成分分析程序,得到的矩阵的主成分系数如表1所示,其对应的特征值及其累计贡献率如表2所示,随着特征值的逐渐减小,累计贡献率趋近于1;当特征值较小时,该成分贡献率接近于0,因此表2中后三个特征值不进行考虑,得出特征降维处理的结果如图6所示。

Table 1. Principal component analysis
表1. 主成分系数

Table 2. Eigenvalue and its cumulative contribution rate
表2. 特征值及其累积贡献率

Figure 6. Principal component analysis results
图6. 主成分分析结果
5. 结论
本研究针对频域中心音的特征分布,针对频域中心音的特征分布,本研究提出一种基于主成分分析的心音频域特征降维处理方法,采用帕累托图、散点图并结合主成分选取准则将特征从7维降到2维,实现了7维特征数据的96.1%的信息量实现以最优维度表征心音频域特征、以可视化效果表征心音频率分布。不同种类心脏病心音信号特征分布散点图表明本文提出的特征提取方法能够效地表征心音信号的特征,后续还需要采用模式识别算法对心音进行分类识别分析。