1. 引言
出血性脑卒中是一种脑出血性疾病,由非外伤性脑血管破裂所引起。该病的发病率约占全部脑卒中的10%~15%。出血性脑卒中的病因多种多样,常见原因包括脑动脉瘤破裂和脑动脉异常等。当血管破裂时,血液会流入脑组织,导致机械性损伤并引发一系列生理反应。出血性脑卒中具有急性起病、快速进展以及预后差等特点[1]。疾病急性期的病死率约为45%~50%,大约80%的患者将遗留严重的神经功能障碍,对患者家庭和社会造成了沉重负担。因此,了解出血性脑卒中的发病风险、整合影像学特征和患者临床信息,精确预测患者的预后,并根据预测结果进行临床决策,具有重要意义。
出血性脑卒中后,血肿范围扩大是预后不良的重要危险因素之一。在出血发生后的短时间内,由于脑组织受损和炎症反应等原因,血肿范围可能会逐渐增大,导致颅内压增高,进一步损伤神经功能,甚至威胁生命。因此,监测和控制血肿的扩张成为临床关注的焦点之一。伍发等人通过列线图预测模型来探究原发性脑出血患者发生早期血肿扩大的影响因素[2];许启仲等通过深度学习模型对脑血肿扩大预测模型研究[3];宋承东通过多因素Logistic回归分析法对血肿扩大影响因素进行建模[4]。此外,血肿周围的水肿作为脑出血后继发损伤的指标,近年来引起广泛关注。李曦通过列线图模型对恶性脑水肿风险预测模型进行建立与验证[5],血肿周围的水肿可能导致脑组织受压,影响神经元的功能,加重神经功能损伤。因此,早期识别和预测出血性脑卒中后这两个关键事件对于改善患者预后和生活质量具有重要意义。
2. 研究思路
首先通过构建一条全体患者水肿体积随时间进展曲线y = f(x),为后文研究做准备。本文考虑将100个患者的水肿体积与对应检查的时间点提取出来,经过数据处理,以发病至影像检查时间为x轴,水肿体积为y轴。将每个患者每一次影像检查的水肿体积与对应检查的时间转化为一个点,将这些点拟合成一条曲线。本文选用二次多项式、三次多项式、一维高斯函数模型分别去拟合这些点,进行计算。
接下来通过不同人群的水肿体积随时间进展曲线,探索患者水肿体积随时间进展模式的个体差异。首先需要收集可靠且准确的数据,包括患者的水肿体积和对应的时间信息。对收集到的数据进行清洗和整理,处理可能存在的缺失值、异常值或错误数据,并确保数据格式的一致性。然后使用K-mean聚类将患者分成不同的亚组,对每个亚组的患者,构建水肿体积随时间变化的曲线模型,描绘出水肿体积随时间的趋势。
随后对不同治疗方法对血肿体积、水肿体积的影响情况进行分析,并探究血肿体积、水肿体积之间的关系。首先需要搜集患者的水肿体积测量数据和所接受的各种治疗方法信息。接下来,对数据进行整理和清洗,以确保数据的准确性和一致性,并根据需要将数据分组处理。结合前文的模型参数,运用多因素方差分析来探索治疗方法与水肿体积,血肿体积各模型参数之间的关系,评估不同因素的显著性,并计算血肿体积与水肿体积各模型参数之间的皮尔逊相关系数,以评估它们之间的相关性。以便更全面地理解血肿体积、水肿体积和治疗方法之间的关系。
3. 智能诊疗建模
3.1. 水肿体积变化曲线拟合
函数逼近论是函数论的重要组成部分,它的基本原理表示为在选定的某一类函数中寻找某个函数g,使它是已知函数在一定意义下的近似表示,并求出用函数g近似表示而产生的误差。在函数逼近问题中,用来逼近已知函数的函数类可以有不同的选择,通常有拉格朗日插值、牛顿插值、分段插值、样条插值等。本题采用二次多项式、三次多项式、一维高斯函数分别进行拟合。
基于以上的三类模型进行数据拟合分析,首先由原始数据可以得到前100个患者的水肿体积随重复检查时间点的变化情况,如图1所示。
Figure 1. Scatter plot of edema volume in the first 100 patients
图1. 前100名患者时间水肿体积散点图
对于图1,x轴表示为发病至影像检查时间的时间间隔,单位为h,y轴表示为水肿体积的大小,单位为10^(−3) ml。观察图1可知,在水肿体积的大小主要分布在时间间隔小于250小时内。
二次多项式拟合是一种常见的数据拟合方法,它通过一个二次函数来逼近一组数据点。假设有一组自变量x和对应的因变量y的数据。使得该函数能够近似地通过这些数据点。
二次多项式拟合模型形式:
(1)
在进行二次多项式拟合时,本文使用最小二乘法来确定拟合曲线的系数a、b和c。最小二乘法的目标是使得每个数据点到拟合曲线的距离平方和最小化。
Figure 2. Quadratic polynomial fitting graph
图2. 二次多项式拟合图
得二次多项式拟合图,见图2,拟合曲线与数据点存在较大的偏差、拟合曲线的形状不符合预期或拟合曲线无法很好地适应数据的分布。此种模型拟合效果不理想。
三次多项式拟合是通过一个三次函数来逼近一组数据点。与二次多项式拟合类似,它也是一种常见的数据拟合方法,可以用于寻找数据的趋势或提取数据的特征。
与二次多项式拟合不同的是,三次多项式拟合的模型形式为:
(2)
其中a、b、c和d是待求的系数,x和y分别表示自变量和因变量。需要求解的系数数量也相应地增加了一个。拟合结果如图3所示:
Figure 3. Cubic polynomial fitting graph
图3. 三次多项式拟合图
观察拟合图,将拟合曲线与原始数据进行对比,拟合曲线未能有效地捕捉到数据的特征或趋势。此种模型拟合效果不理想。
一维高斯函数是一种常见的数学函数,用于描述连续变量的概率分布。它的数学形式为:
(3)
式中:
a——幅度,表示高斯函数的峰值或最大值。
b——偏移,表示高斯函数在y轴方向上的平移。
c——常数,表示高斯函数的基准值或背景值。
一维高斯函数在很多领域中广泛应用,例如统计学、信号处理、机器学习等。它具有很好的数学性质和良好的模型拟合能力,因此被广泛用于对数据进行建模和分析[6]。
Figure 4. One-dimensional Gaussian function fitting graph
图4. 一维高斯函数拟合图
得一维高斯函数拟合图,见图4。由各拟合图可得,一维高斯函数拟合图,拟合曲线与数据点非常接近、拟合曲线很好地适应了数据的分布或拟合曲线能够很好地捕捉到数据的特征和趋势。此模型的拟合效果最为理想。
全体患者水肿体积随时间进展曲线为:
(4)
3.2. K-Mean聚类分组
为了更好地分析患者水肿体积随时间进展模式的个体差异,从而科学合理的反映患者水肿体积随使时间进展模式的整体的变化趋势,本文对9个不同特征类型变化趋势进行K-mean聚类,将患者人群整体划分为四个亚组。
聚类分析是一种无监督学习方法,用于将相似的样本分组或聚类到同一个类别中。K均值聚类(K-mean聚类)是一种基于中心的聚类算法,在迭代过程中使用样本与中心点之间的距离来确定样本的类别,并通过优化中心点位置来最小化样本与中心点距离之和[7]。相比于其他聚类算法,K均值聚类是按照样本进行聚类,而不需要事先定义字段或特征。选择适当的聚类个数K是关键,可以采用启发式方法、经验或评估指标来选择最佳值[8]。总而言之,K均值聚类能够将相似的样本聚集在一起,有助于发现隐藏的模式和结构。
患者的特征分别为年龄、性别、高血压病史、卒中病史、糖尿病史、房颤史、冠心病史、吸烟史、饮酒史、高血压九种不同类型,通过K均值聚类算法将患者整体聚类成四个聚类类别。
Figure 5. Cluster summary diagram
图5. 聚类汇总图
图5以可视化的形式展示了模型聚类的结果,包括频数、所占百分比。构建好四个亚组,聚类类别_1、聚类类别_2、聚类类别_3、聚类类别_4分别对应亚组1、亚组2、亚组3、亚组4。后面的模型与问前文相同,采用一维高斯函数模型进行拟合求解。
3.3. 各亚组水肿体积变化曲线拟合
将患者分成四个亚组,分别对亚组进行一维高斯模型拟合,如图6。
Figure 6. Patient time-edema volume fit diagram (4 subgroups)
图6. 患者时间–水肿体积拟合图(4种亚组)
由各拟合图可知,不同亚组之间存在显著差异,这可能对治疗策略的制定和优化产生积极影响。基于一维高斯函数拟合的曲线与数据点非常接近,拟合曲线很好地适应了数据的分布。
4. 血肿体积、水肿体积及治疗方法三者关系分析
4.1. 治疗方法对血肿体积、水肿体积的影响
对于治疗方法对血肿体积、水肿体积的影响问题,本文考虑使用多因素方差分析进行分析。
多因素方差分析(ANOVA)是一种常用的统计方法,用于分析多个因素对观测变量的影响程度,以及各因素之间是否存在交互作用。它可以帮助确定不同因素对于观测变量的主要影响,并评估这些影响的显著性[9]。
在多因素方差分析中,通常有两个或更多的自变量(也称为因素)以及一个因变量(也称为观测变量)。自变量可以是分类变量(如性别、治疗方式等)或连续变量(如年龄、剂量等),而因变量则是我们感兴趣的主要测量指标。
通过进行方差分析,可以比较不同因素水平之间的均值差异,并判断这些差异是否显著。如果发现在至少一个因素上存在显著差异,则说明该因素对于观测变量的影响是显著的。此外,多因素方差分析还可以检验不同因素之间是否存在交互作用。如果存在交互作用,意味着不同因素的组合对于观测变量的影响不仅仅是各因素单独的总和,而是相互作用的结果。
在多因素方差分析中,F值(F-value)和P值(P-value)是用来评估不同因素对观测变量的影响是否显著的统计指标。
F值是通过计算方差比来度量不同因素之间的均值差异。它是组间方差与组内方差的比值,反映了观测变量的变异程度是否由于不同因素的影响而显著增加。F值越大,表示组间差异相对于组内差异的比例越大,意味着不同因素对观测变量的影响越显著。
P值则用于衡量F值的显著性。P值表示在原假设成立的情况下,观察到的统计量(如F值)或更极端结果的概率。在多因素方差分析中,P值通常与显著性水平(如0.05或0.01)进行比较。如果P值小于显著性水平,通常是0.05,我们可以拒绝原假设,即认为不同因素对观测变量的影响是显著的。
表1为各治疗项目与水肿拟合高斯模型中参数a的方差分析表,其中***、**、*分别代表1%、5%、10%的显著性水平,表2为各治疗项目与水肿血肿各高斯模型参数的P值汇总。
Table 1. ED_Gaussian_a variance table
表1. ED_Gaussian_a方差分析表
项 |
平方和 |
自由度 |
均方F |
F |
P |
R² |
截距 |
13186724346.406 |
1 |
13186724346.406 |
7.847 |
0.006*** |
|
脑室引流 |
766719741.853 |
1 |
766719741.853 |
0.456 |
0.501 |
|
止血治疗 |
2786047742.607 |
1 |
2786047742.607 |
1.658 |
0.201 |
|
降颅压治疗 |
3603545138.815 |
1 |
3603545138.815 |
2.144 |
0.147 |
|
降压治疗 |
403607174.351 |
1 |
403607174.351 |
0.24 |
0.625 |
0.048 |
镇静痛治疗 |
295303877.107 |
1 |
295303877.107 |
0.176 |
0.676 |
|
止吐护胃 |
98391384.976 |
1 |
98391384.976 |
0.059 |
0.809 |
|
营养神经 |
25354079.907 |
1 |
25354079.907 |
0.015 |
0.903 |
|
误差 |
144525328398.169 |
86 |
1680527074.397 |
|
|
|
Figure 2. Summary of P values of each parameter
表2. 各参数P值汇总
|
脑室引流 |
止血治疗 |
降颅压治疗 |
降压治疗 |
镇静、镇痛治疗 |
止吐护胃 |
营养神经 |
HM_Gaussian_c |
0.285 |
0.962 |
0.791 |
0.738 |
0.812 |
0.557 |
0.509 |
HM_Gaussian_b |
0.25 |
0.913 |
0.306 |
0.919 |
0.454 |
0.85 |
0.576 |
HM_Gaussian_a |
0.001*** |
0.886 |
0.046** |
0.623 |
0.412 |
0.529 |
0.709 |
ED_Gaussian_c |
0.027** |
0.111 |
0.081* |
0.826 |
1 |
0.253 |
0.533 |
ED_Gaussian_b |
0.022** |
0.977 |
0.327 |
0.478 |
0.298 |
0.077* |
0.398 |
ED_Gaussian_a |
0.501 |
0.201 |
0.147 |
0.625 |
0.676 |
0.809 |
0.903 |
由多因素方差分析可见,脑室引流对血肿体积与水肿体积影响具有较大显著性水平,降颅压治疗与血肿体积、水肿体积也有显著性水平。由此可见对于脑内水肿血肿的抑制和治疗,脑室引流,降颅压治疗或是更有效的方法。
4.2. 血肿体积、水肿体积相关性分析
血肿体积、水肿体积的量化通过高斯拟合数学模型的三个参数来反映,常见的相关性分析有Pearson相关系数计算和Spearman相关系数计算,不满足线性关系,且不满足正态分布的数据应当使用Spearman相关系数计算,故需对全部患者的各高斯拟合参数进行正态分布判别。
是否服从正态分布可以通过正态性效验来判别。
对于正态性效验,常用的方法有Shapiro-Wilk检验和Kolmogorov-Smirnov检验。Kolmogorov-Smirnov检验适用于大样本(一般样本数5000以上),原假设也是数据符合正态分布。但是本题不适用。Shapiro-Wilk检验适用于小样本(一般样本数5000以下),它的原假设是数据符合正态分布。如果Shapiro-Wilk检验的P值大于显著性水平(通常是0.05),即P > 0.05,原假设接受,认为数据近似服从正态分布,反之则拒绝原假设,说明数据不符合正态分布。
各参数Shapiro-Wilk检验结果如表3所示,可以看出各参数的S-W检验P值基本都<0.05,可以确定其均不服从正态分布。
Table 3. Table of Shapiro-Wilk test results for each parameter
表3. 各参数Shapiro-Wilk检验结果表
变量名 |
S-W检验P值 |
ED_Gaussian_a |
0.000 |
ED_Gaussian_b |
0.025 |
ED_Gaussian_c |
0.003 |
HM_Gaussian_a |
0.000 |
HM_Gaussian_b |
0.061 |
HM_Gaussian_c |
0.004 |
综合Q-Q图和正态性效验可以得出全部患者的各高斯拟合参数均不服从正态分布,因此本文选择更适合处理非正态分布数据的Spearman模型[10] [11]进行相关性检验。
斯皮尔曼相关系数被定义成等级变量之间的皮尔逊相关系数。
对于样本容量为n的样本,n个原始数据被转换成等级数据,ρ相关系数为:
(5)
其中,x,y为两个待分析变量取值,
,
为两个变量的平均值。相关系数的绝对值越大,则代表两个变量之间的相关性越强。部分变量的相关性如下图所示,其中,对角线变量表示自相关,其他位置的变量表示互相之间的相关性,颜色越深,接近于红色表明相关性越强,反之变量之间的相关性越弱。
在SPSSPRO中计算各参数相关性系数,得相关系数表,见表4,其中***、**、*分别代表1%、5%、10%的显著性水平,和相关系数热力图,见图7。
Table 4. Table of correlation coefficient of each parameter
表4. 各参数相关性系数表
|
ED_Gaussian_a |
HM_Gaussian_b |
HM_Gaussian_c |
HM_Gaussian_a |
0.486 (0.000***) |
0.114 (0.331) |
0.266 (0.022**) |
HM_Gaussian_b |
0.267 (0.021**) |
0.285 (0.014**) |
0.103 (0.384) |
HM_Gaussian_c |
0.348 (0.002***) |
0.468 (0.000***) |
0.521 (0.000***) |
Figure 7. Thermal map with correlation coefficient of each parameter
图7. 各参数相关系数热力图
根据各参数相关性系数表和各参数相关系数热力图可以分析出水肿高斯模型的各参数与血肿高斯模型的各参数具有很强的正相关,由此可见血肿周围水肿或会伴随血肿的变化而变化。
5. 结论
本文针对出血性脑卒中智能诊疗建模,首先通过一维高斯函数拟合构建一条全体患者水肿体积随时间进展曲线。随后通过K-mean聚类将患者分成不同的亚组,对每个亚组的患者,构建水肿体积随时间变化的曲线模型,根据结果发现不同亚组之间存在显著差异,进行患者分类分组可能可以对治疗策略的制定和优化产生积极影响。
针对不同治疗方法对血肿体积、水肿体积的影响情况,与血肿体积、水肿体积之间的关系。通过多因素方差分析,其结果可见,脑室引流对血肿体积与水肿体积影响具有较大显著性水平,降颅压治疗与血肿体积、水肿体积也有显著性水平。由此可见对于脑内水肿血肿的抑制和治疗,脑室引流,降颅压治疗或是更有效的方法。同时通过皮尔逊相关系数,可以分析得知水肿体积与血肿体积存在着很强的正相关关系。