基于高斯混合模型的心音分类研究
Gaussian Mixture Model-Based Diagnostic Research for Combined Heart Diseases Shuping Sun, Tingting Huang, Yarui Pan, Biqiang Zhang, Baojin Liu, Jie Wu
摘要: 为表示复合心脏病的复杂诊断信息,本研究提出一种基于高斯混合模型结合概率诊断心脏病的方法。本文结构如下:首先,利用电子听诊器采集心音信号;其次,采用小波分解对心音信号进行预处理,以保留心音信号有效成分,然后采用功率谱分析结合阈值线方法提取心音信号频率域特征;最后,基于精度建立最优高斯混合模型数量并结合后验概率得出诊断结果。为验证本研究有效性,以2560秒心音数据作为研究对象,实验结果表明,该方法可以概率模式描述不同类别所属程度得出最终诊断结果。
Abstract: To express the diagnosis information for combined heart diseases by diagnosing heart sound, this study proposes a Gaussian mixture model (GMM)-based classification method combined with the probability diagnostic results to diagnose heart diseases. This paper is organized as follows. Firstly, heart sound is collected using an electronic stethoscope. And then, wavelet decomposition is employed to preprocess the heart sound signal and retain the effective components of the heart sound signal, and the power spectrum density method combined with threshold line method is proposed to extract the features for the heart sound signal in the frequency-domain. Finally, the optimal GMM is determined based on the highest accuracy, and the posterior probabilities are proposed to express the diagnostic results. The performance evaluation is verified by the 2560 seconds sounds, and the research results show that the sounds with complex heart diseases can be directly recognized using the different probabilities to describe which kind of heart disease it belongs to.
文章引用:孙树平, 黄婷婷, 潘亚瑞, 张弼强, 刘保进, 吴杰. 基于高斯混合模型的心音分类研究[J]. 计算机科学与应用, 2020, 10(3): 483-492. https://doi.org/10.12677/CSA.2020.103051

1. 引言

1.1. 背景及意义

根据2019年最新发布的《中国心血管病报告2018》 [1],从2018全年大数据分析,中国心血管疾病的患病率及死亡率仍处于上升阶段,推算中国现患心血管病人数为2.9亿。如图1所示,我国农村与城市心脏疾病死亡率居于首位,高于肿瘤、呼吸疾病等其他疾病,特别是最近几年来心血管疾病死亡率持续飙升,已跃居为威胁国民生命安全的重大疾病之首,但早期的心脏疾病愈率极高,因此为降低心脏疾病对人类健康的威胁,其预防和治疗迫在眉睫,刻不容缓。

Figure 1. The main causes of death in rural and urban China in 2016

图1. 2016年国内农村与城市主要疾病死因构成

各项研究 [2] [3] [4] 及临床数据表明,心音图可以真实地记录正常心音、额外心音及心脏杂音,其将心脏波形可视化,更利于医护人员快速获取心脏状态信息,同时对心音信号的准确识别与分类、对心脏病的诊断与治疗具有重要的临床指导意义,其心脏病诊断结果直接关乎患者理疗方案的选取,由此可见,优化心音信号的识别方法刻不容缓,故快速、准确、高效的心音识别分类研究尤为重要。

关于心音分类可以采用支持向量机 [5] 、神经网络 [6] 、决策树 [7] 或高斯混合模型 [8] 等算法。采用支持向量机或神经网络算法获取心音分类器将耗费大量的机器内存和运算时间且其无法描述复合心音模糊诊断结果,而高斯混合模型在生物识别方面具有参数数量低、计算量小等特点 [9] [10]。鉴于此,本研究提出一种基于高斯混合模型(GMM)的心音分类算法、并以概率模式描述心音分类结果,使心音数据的分类更加精准,分类结果更加清晰直观。

1.2. 论文结构

本文基于高斯混合模型的心音分类研究具体可分为如下五个部分,如图2所示。

Figure 2. Study flow chart of Gaussian mixture model-based heart sounds classification analysis

图2. 基于高斯混合模型的心音分类研究流程框图

2. 心音特征提取

2.1. 心音信号介绍

心音是心脏在运作时,由瓣膜关闭、瓣膜打开、心室振动、腱索紧张等产生的声音,即血液流经心脏时产生的震动波 [11]。具体来说,是瓣膜开起与关闭时产生的湍流造成的震动波,或由心肌收缩、心脏瓣膜关闭和血液撞击心室壁、大动脉壁等引起的振动 [12]。一般来说,这种震动波能量较低,不易传递至空气形成声波,但仍可用听诊器在胸壁一定部位将该波转换成声音,由于该声音可反映心脏的运作情形,因此在心脏听诊的过程中,医生可以通过这些独特的声音,进而判断心脏的运作情况及健康状态。心音信号主要分为四大类:第一心音(S1)、第二心音(S2)和两种非常微弱的心音,即第三心音(S3)和第四心音(S4),如图3所示。四大心音信号的频率均在20~2000 Hz内,其中第三心音和第四心音的声音极其微弱,一般很难直接检测到。心脏杂音作为临床诊断心脏病的重要参考依据,通常出现在第一心音与第二心音之间。因此,在心音信号识别分类的过程中,第一心音和第二心音起着至关重要的作用。鉴于此,为了提高对心音诊断的准确率,获得更多的心音信息,首先要对提取的第一心音和第二心音进行心音分割,然后从第一心音和第二心音中提取有效的特征值,根据特征值建立模型分析心音信号,最后,将分类方法应用于心脏病的临床诊断与治疗中,以进一步提高心脏病的救治率。

Figure 3. Schematic diagram of heart sound structure

图3. 心音结构示意图

2.2. 心音信号采集

本研究采用美国3M公司自主研发的3M-3200电子听诊器,该电子听诊器体积便携、性能优越,在心音信号采集过程中具有快速、准确、保真等优点。3M-3200电子听诊器基本功率参数如表1所示。该听诊器具有大容量的储存数据功能,可同时储存多组心音数据,并能直接上传到本研究所建立的高斯混合模型心音识别系统,可实现预处理阶段对心音信号的小波降噪和基于功率谱分析法及阈值线方法对心音信号的特征提取,是目前应用最广泛的心音信号采集工具 [13] (图4为心音采集图例)。

Table 1. Sample diagram of collected heart sound signals

表1. 3M-3200电子听诊器功率参数

Figure 4. Sample diagram of collected heart sound signals

图4. 采集的心音信号样例图

2.3. 基于小波变换心音信号预处理

由于外界的噪声干扰及被采集者自身呼吸声的干扰,导致采集到的心音信号带有噪音,为了避免外界及自身噪音对实验数据造成干扰,需要进一步对采集到的心音信号进行预处理,即降噪处理。本研究采用dB10母小波 [14] [15] [16] 对心音信号进行降噪预处理,其频率参数如图5所示。其中,h和g分别为正交镜像滤波器组中具有低通特性的滤波器和具有高通特性的滤波器,经过第一次分解后,可得到包含原始信号主要信息的低频近似信号cA1,以及包含误差的高频细节信号cD1。下一次分解将近似信号cA1分解为cA2和cD2,…,经过10次分解后可以得到平滑的低频信号cA10 (0~21.5 Hz),保留cD6~cD10 (21.5~689 Hz),通过反变换得到21.5~689 Hz的信号。

2.4. 心音信号特征提取

采用功率谱分析法 [17] [18] 结合阈值线方法 [19] [20] 提取心音信号频域特征数据,采样频率为4410 kHz,特征提取的频率范围21.5~689 Hz。采用小波分解的优点在于能准确地分离高低频信号,可以在保证原始心音信号不受损的情况下对噪音信号进行滤除。利用功率谱分析法结合阈值线方法提取心音频域特征数据可快速获取心音信号特征参数,且准确度较高。心音信号预处理前后对比如图6所示。

Figure 5. Wavelet decomposition parameter diagram

图5. 小波分解参数图

Figure 6. Contrast diagram of heart sound signal before and after pretreatment

图6. 心音信号预处理前后对比图

3. 基于高斯模型的心音分类研究

3.1. 高斯混合模型介绍

高斯混合模型(Gaussian Mixture Model,简称GMM)是在高斯分布的基础上逐渐发展起来的一种聚类算法,高斯分布即为正态分布,是最为常见的数据分布形式 [21]。最常见的高斯分布图像如图7所示。

假设混合高斯模型由 个高斯模型组成,则高斯混合密度函数表达式如下

G ( X ) = k = 1 k p ( k ) g ( X ; μ k , C k ) = p ( k ) ( 2 π ) D | C k | e 1 2 ( X μ k ) T C k 1 ( X μ k ) (1)

其中 g ( X ; μ k , C k ) p ( k ) μ k C k 、D分别表示第k个高斯模型的概率密度函数、权重、期望、协方差矩阵和维度,从高斯混合密度函数公式可以看出,高斯混合模型就是从多个高斯分布中生成的数据模型,即无论是什么形状的分布,只要高斯函数的数量足够多,大量的高斯函数进行线性组合,就可以准确地表示出任意形状的分布,即构建出任意的高斯混合模型,如图8所示,随着高斯函数数量的增加,这个高斯混合模型就会变得足够复杂,就可以用来逼近任意连续的概率密度分布,正是由于高斯混合模型能够近似地模拟任意形状函数的密度分布,高斯函数的计算性能良好,并且其结果准确可靠,因此近年来高斯混合模型在生物识别中得到广泛的应用。

Figure 7. Gaussian image

图7. 高斯分布图像

Figure 8. Mixed Gaussian function image

图8. 混合高斯函数图像

3.2. 建立心音特征高斯混合模型

利用MATLAB平台自主开发的软件提取第一心音、第二心音、第三心音、第四心音特征参数并建立高斯混合模型,由于心音特征各不相同,得到如图9所示的三种数据集。实验结果表明,本文所提出的基于高斯混合模型的心音分类研究能快速对不同心音进行识别分类,且分类精度及正确率都极高。

Figure 9. Dataset distribution

图9. 数据集分布图

图10所示:在该算法程序中输入具有三种复合病症的心音数据,数据明显呈三种分布形式,将成分参数设为“3”,为了进一步验证本文所提出的算法的准确性,在该算法程序中将自动生成的高斯混合模型的数量范围值设定为“1~6”,即可自动生成1~6组高斯混合模型,如图11所示:本算法可基于精度最优自动选取高斯混合模型数量为“3”,并建立相应的心音特征数据高斯混合模型。该实验结果验证了本文所提出的基于高斯混合模型的心音分类研究的有效性,该算法可自动选取最优参数的高斯混合模型数量,为复合心音数据提供了一种新型诊断分类方式。

Figure 10. Data parameter setting diagram

图10. 数据参数设置图

Figure 11. The result graph of optimal selection of accuracy

图11. 精度最优选取结果图

3.3. 以概率模式描述心音分类结果

图12(A)所示,根据3种病例(主动脉狭窄89例、二尖瓣回流56例、健康数据111例)共256组2560秒数据进行研究并基于精度最优获取由3个高斯模型组合的混合数学模型,建立3个高斯混合模型分类器,输入4个具有复合心音数据的心音信号样本数据进行案例分析,分类结果如表2所示。

Figure 12. Heart sound signal recognition and classification results9+

图12. 心音信号识别分类结果

Table 2. Classification of heart sounds

表2. 心音分类结果

实验结果表明,本文所提出的基于高斯混合模型的心音分类研究可基于精度最优自动选取高斯混合模型数量,可准确以概率模式描述被测心音分类结果,使心音数据的分类更加精准,分类结果更加清晰直观。

4. 结束语

本文提出的一种基于高斯混合模型的心音分类研究方法,并以概率模式描述被测心音分类结果,实现基于精度最优选取高斯混合模型数量,建立心音特征数据的高斯混合模型。为验证本研究的可行性及有效性,以3种病例(主动脉狭窄89例、二尖瓣回流56例、健康数据111例)共256组2560秒数据作为研究对象,其识别分类研究结果表明:心音信号不仅被准确识别,而且被精准分类。因此,本研究为医护人员提供一种更加精准且可视化程度较高的心脏疾病诊断信息,其势必为心脏病的治疗提供更为重要参考依据。

参考文献

[1] Hu, S.S., Gao, R.L., Liu, L.S., et al. (2019) Summary of the 2018 Report on Cardiovascular Diseases in China. Chinese Circulation Journal, 34, 209-220.
[2] Sun, S., Wang, H., Cheng, C., Chang, Z. and Huang, D. (2017) PCA-Based Heart Sound Feature Generation for a Ventricular Septal Defect Discrimination. ICCWAMTIP 2017, Vol. 2018, 128-133.
https://doi.org/10.1109/ICCWAMTIP.2017.8301464
[3] Chen, T.-E., et al. (2017) S1 and S2 Recognition Using Deep Neural Networks. IEEE Transactions on Biomedical Engineering, 64, 372-380.
https://doi.org/10.1109/TBME.2016.2559800
[4] Potes, C., Parvaneh, S., Rahman, A. and Conroy, B. (2017) Ensemble of Feature: Based and Deep Learning: Based Classifiers for Detection of Abnormal Heart Sounds. Computers in Cardiology Conference, Vol. 43, 621-624.
https://doi.org/10.22489/CinC.2016.182-399
[5] Kao, W.C., Wei, C.C., Liu, J.J. and Hsiao, P.Y. (2009) Auto-matic Heart Sound Analysis with Short-Time Fourier Transform and Support Vector Machines. Midwest Symposium on Circuits and Systems, Cancun, 2-5 August 2009, 188-191.
https://doi.org/10.1109/MWSCAS.2009.5236120
[6] Chen, T.E., et al. (2017) S1 and S2 Heart Sound Recognition Using Deep Neural Networks. IEEE Transactions on Biomedical Engineering, 64, 372-380.
https://doi.org/10.1109/TBME.2016.2559800
[7] Stasis, A.C., Loukis, E.N., Pavlopoulos, S.A. and Koutsouris, D. (2003) Using Decision Tree Algorithms as a Basis for a Heart Sound Diagnosis Decision Support System. Infor-mation Technology Applications in Biomedicine, Vol. 2003, 354-357.
https://doi.org/10.1109/ITAB.2003.1222552
[8] Beritelli, F. and Spadaccini, A. (2010) An Improved Biometric Identification System Based on Heart Sounds and Gaussian Mixture Models. IEEE Workshop on Biometric Measure-ments and Systems for Security and Medical Applications, Taranto, 9 September 2010, 31-35.
https://doi.org/10.1109/BIOMS.2010.5610442
[9] Reynolds, D. (2015) Gaussian Mixture Models BT. In: Li, S.Z. and Jain, A.K., Eds., Encyclopedia of Biometrics, Springer US, Boston, 827-832.
https://doi.org/10.1007/978-1-4899-7488-4_196
[10] Nagraniy, A., Chungy, J.S. and Zisserman, A. (2017) VoxCeleb: A Large-Scale Speaker Identification Dataset. Annual Conference of the International Speech Communica-tion Association, Vol. 2017, 2616-2620.
https://doi.org/10.21437/Interspeech.2017-950
[11] Sun, S. (2015) An Innovative Intelligent System Based on Automatic Diagnostic Feature Extraction for Diagnosing Heart Diseases. Knowledge-Based Systems, 75, 224-238.
https://doi.org/10.1016/j.knosys.2014.12.001
[12] Varghees, V.N. and Ramachandran, K.I. (2014) A Novel Heart Sound Activity Detection Framework for Automated Heart Sound Analysis. Biomedical Signal Processing and Control, 13, 174-188.
https://doi.org/10.1016/j.bspc.2014.05.002
[13] Jain, P.K., Tiwari, A.K. and Chourasia, V.S. (2016) Performance Analysis of Seismocardiography for Heart Sound Signal Recording in Noisy Scenarios. Journal of Medical Engineering & Technology, 40, 106-118.
https://doi.org/10.3109/03091902.2016.1139203
[14] 邱鹏, 张建德, 霍瑛. 基于小波分解与神经网络结合的图像压缩算法[J]. 电脑知识与技术, 2018, 14(26): 169-170+174.
[15] 袁向琳. 心音信号的合成模型及特征分析[J]. 心音分析技术, 2018, 11(27): 169-210 + 103.
[16] 王杰, 李蓉, 黄惠东. 基于小波系数的粘连信号穿层特征提取方法[J]. 探测与控制学报, 2016, 38(1): 13-17, 23.
[17] 武肖梦. 基于SSA和EMD的心音频谱特性分析及识别研究[J]. 心音分析技术, 2016, 13(27): 170-180 + 133.
[18] 郑伊能. 基于心音的慢性心力衰竭分期诊断方法研究[D]: [博士学位论文]. 重庆: 重庆大学, 2017.
[19] Zhu, Z., Hu, J. and Wang, Y. (2016) A 0.45 V, Nano-Watt 0.033% Line Sensitivity MOSFET-Only Sub-Threshold Voltage Reference with No Amplifiers. IEEE Transactions on Circuits and Systems I: Regular Papers, 63, 1370-1380.
https://doi.org/10.1109/TCSI.2016.2576643
[20] Klimont, A., et al. (2016) Low-Threshold, Single-Mode Defect Line Terahertz Quantum Cascade Laser. CLEO: Science and Innovations. Optical Society of America, 2016.
[21] Matrix, C. and Estimation, M.L. (2005) Gmm: 高斯混合模型. 1-8.