1. 引言
良性前列腺增生(Benign Prostatic Hyperplasia, BPH)是中老年男性最常见的泌尿系统疾病之一,前列腺增生剜除术(如经尿道前列腺剜除术,HoLEP)是治疗良性前列腺增生(BPH)的有效方法,具有出血少、恢复快等优点。尽管手术技术不断进步,但术后尿失禁(Urinary Incontinence, UI)仍是影响患者生活质量的重要并发症,发生率约为1%~15%。术后UI的预测与预防已成为临床研究的热点,其核心目标是通过术前精准评估和术中策略优化,降低尿失禁风险。传统上,术后UI的预测主要依赖于临床经验和统计模型,但预测精度有限,难以满足个性化医疗的需求。近年来,机器学习(ML)技术在医疗领域的应用为术后UI的精准预测提供了新的契机。机器学习能够从多维度临床数据中自动学习复杂模式,构建高精度预测模型,从而识别高危患者,优化手术策略,改善预后。目前,已有研究将ML算法应用于HoLEP术后UI的预测,并取得了一定进展。然而,该领域仍面临数据异质性、模型可解释性、外部验证不足等挑战。
2. 研究现状
手术是治疗中重度良性前列腺增生的主要手段,然而,术后尿失禁(Urinary Incontinence, UI)作为常见并发症,发生率约为5%~30%,严重影响患者的生活质量和心理健康。准确预测术后UI风险对于术前患者分层、优化手术方案和术后康复管理具有重要意义。早期术后UI的预测以临床观察为主导,依赖外科医生的经验,如前列腺体积大、手术时间长被视为高风险因素[1],但缺乏量化标准。手术方式也较为单一,开放前列腺切除术(Open Prostatectomy, OP)是主要术式,术后尿失禁发生率高达10%~20%,主要原因是术中广泛切除前列腺组织损伤了尿道外括约肌(External Urethral Sphincter, EUS),并且对尿道括约肌的解剖和功能缺乏深入认识,术中保护意识不足。之后随着TURP的普及,经尿道前列腺电切术(TURP)成为BPH治疗的金标准,术后尿失禁率降至5%~10%。然而,电切镜的热损伤可能导致尿道括约肌去神经化,仍有改进的空间。而如今钬激光前列腺剜除术(HoLEP) [2]和铥激光剜除术(ThuLEP) [3]能够实现更精确的组织切割,术后尿失禁率进一步降至1%~3%。术中超声引导和神经监测系统(如NeuroVision®)的应用也能减少括约肌误伤风险。与此同时,研究者开始整合功能、手术参数等,术后UI的预测主要依赖于临床经验和统计学模型。常用的方法包括逻辑回归(Logistic Regression)、多元线性回归(Multiple Linear Regression)和Cox比例风险模型等。这些方法通常基于有限的临床变量(如年龄、前列腺体积、尿流率等)来构建预测模型。尽管操作简单,但其局限性显著,例如变量选择依赖人工经验,传统模型需手动筛选变量,可能遗漏潜在的重要预测因子(如影像学特征或基因标记);非线性关系难以捕捉:临床数据中变量与UI风险的关系可能呈现非线性或交互作用,传统模型难以准确建模等。而且存在数据稀少、统计不完整、来源单一的限制,无法很好地捕捉有效特征,从而影响预测的准确率。随着机器学习的出现和发展,基于机器学习的算法已成为目前预测前列腺增生术后早期生化复发最适合的方法之一。
因此,本文致力于解决传统逻辑回归算法可解释性不足、预测效果不好等问题,使用多种机器学习的方法来对前列腺增生术后尿失禁进行预测,并提出新模型S-KFG和堆叠模型Hancerforest来进行预测,以寻求更好的预测效果。其中,S-KFG是由梯度提升树、随机森林、KNN结合而成的软投票分类器集成模型;Hancerforest模型是由5个不同配置的随机森林模型(n_estimators从100到500递增)组成,通过参数差异引入多样性;元模型使用逻辑回归模型,负责融合基模型的输出概率进行最终预测。并且在特征选择时,先使用皮尔逊相关性分析,选取相关性值大于等于0.10的特征纳入单因素分析,再将单因素分析中具有统计学意义的特征(P < 0.05)选取为参与预测的特征,以此来保证特征选择的合理性和可解释性;最后的预测结果表明,本文两种新模型比传统的逻辑回归、单独的随机森林、梯度提升树的预测效果要更好。
3. 材料和数据集
3.1. 数据集
Figure 1. Univariate analysis
图1. 单因素分析
Figure 2. Statistical characteristics of the data
图2. 数据统计学特征
数据集来源于大连医科大学附属第二医院近些年来收集的患者数据。针对这些数据,本研究先是通过皮尔逊相关性分析,选取与前列腺术后尿失禁相关性较高(相关性值大于等于0.10)的前十五个特征,如膜部尿道长度、手术方式、术前是否有脑部病史等,再对这些特征进行单因素分析,将在统计学上意义显著的特征纳入分析(P < 0.05),分析结果如图1所示,单因素分析出来的特征信息如图2。并对原有数据通过生成对抗网络进行数据增强。
3.2. 生成对抗网络
对于前列腺增生术后尿失禁研究中常见的数据缺乏、质量不高的问题,本文使用生成对抗网络来进行数据增强,从而进一步扩充数据,以保证数据样本的充足。在使用生成对抗网络进行数据增强时,对模型中的参数均采用默认参数,将epochs设置为30000进行训练,从而生成可靠的数据。
3.2.1. GAN的基本组成
GAN包含两个核心组件:
生成器(Generator, G):输入为随机噪声向量
(通常从均匀分布或正态分布采样),输出为合成数据
。其目标是生成与真实数据
难以区分的样本。
判别器(Discriminator, D):输入为真实数据
或生成数据
,输出一个标量概率值
,表示输入数据来自真实分布的概率。其目标是正确区分真实数据与生成数据。
3.2.2. 对抗训练的数学原理
GAN的训练过程是一个极小化极大博弈(Minimax Game),目标函数如下:
(1)
判别器的目标:最大化
,即同时提升对真实数据的判别能力(最大化
)和生成数据的识别能力(最大化
)。
生成器的目标:最小化
,即让生成数据尽可能被判别器误判为真实(最小化
)。
3.2.3. 损失函数的具体形式
判别器的损失函数:
(2)
通过梯度上升更新判别器参数,最大化真实数据的得分并最小化生成数据的得分。
生成器的损失函数原始形式:
(3)
实际训练中,由于梯度消失问题,常改用以下形式:
。
通过梯度下降更新生成器参数,直接最大化生成数据被判别器判为真实的概率。
3.2.4. 训练过程
1) 固定生成器,更新判别器:对判别器进行
次(通常
)梯度上升,使其更好地区分真实与生成数据。
2) 固定判别器,更新生成器:对生成器进行梯度下降,使其生成的样本更接近真实数据分布。
3) 交替迭代,直至达到纳什均衡(判别器无法区分真实与生成数据,即
)。
3.3. 软投票分类器
3.3.1. 模型设计
本文首先构建由梯度提升树(GBDT)、随机森林和K近邻(KNN)组成的软投票集成模型S-KFG,通过概率融合来进行预测,并以此来提升预测性能。反复进行超参数的调整和尝试(如将梯度提升树分别设置为100、150、200、250、300,学习率分别设为0.01、0.015、0.02,最大深度分别设为2、3、4、5),最后将梯度提升树模型设置为200棵树、学习率设为0.02、最大深度设为2;再对K近邻模型进行设置,使用默认参数(k = 5,尝试设置为2、3、4、5),接着调整随机森林模型,设置为200棵树(分别尝试设置为100、150、200、250、300),在其他使用默认参数时,本文的模型在最后取得了最佳的预测效果。对于数据集执行数据划分(70%训练集/30%测试集)、模型训练及评估。评估指标涵盖准确率、AUC-ROC (衡量分类器整体性能)、马修斯相关系数(MCC)、F1分数和敏感度(召回率)。
3.3.2. 核心步骤和数学公式
软投票分类器其核心思想是利用各个基分类器对样本属于不同类别的概率估计,进行加权平均后选择概率最高的类别作为最终预测结果。
假设有
个(本文中为三个)基分类器,每个分类器对输入样本
预测其属于类别
的概率为
,其中
。对于本文中的二分类问题,每个基分类器输出两个概率值:
和
,满足
。
软投票分类器对每个类别
的概率进行加权平均。假设基分类器的权重为
(满足
且
),则集成后的概率为:
。最后选择具有最高集成概率的类别作为最终预测概率:
。
3.4. 堆叠集成模型
3.4.1. 模型设计
本文的第一种堆叠模型Hancerforest的基模型使用了5个不同配置的随机森林模型(n_estimators从100到500递增,随机种子数从1~5递增,其余均为默认参数,这时模型取得了最佳效果),通过参数差异引入多样性;元模型使用逻辑回归模型,负责融合基模型的输出概率进行最终预测,然后使用StackingCVClassifier实现交叉验证堆叠,5折交叉验证生成元特征,避免数据泄漏和过拟合。另外一种堆叠模型HancerKNN是基模型为5个不同参数(n_neighbors从2~6递增,p值均设为1,此时模型效果最好)的KNN分类器,元模型为使用L2正则化的多分类逻辑回归。同时也使用10折交叉验证生成元特征,使用基模型的预测概率作为元特征,并设置随机种子确保可复现;读取数据,分离特征和目标变量,划分70%训练集和30%测试集。训练堆叠模型并进行预测。
3.4.2. 核心步骤
基学习器的训练与预测生成:
输入数据:训练集
,其中
为特征,
为标签;
基学习器:选择个
个不同的基模型
(如随机森林、KNN);
生成元特征:为避免数据泄露,通常通过
折交叉验证(K-Fold CV)生成基学习器的预测结果:
1) 将训练集
划分为
个子集
。
2) 对每个基学习器
:1) 对于第
折:用
训练
,在
上预测结果
。2) 合并所有折的预测结果,得到
在整个训练集上的元特征向量
。
3.4.3. 构建元训练集
元特征矩阵:将所有基学习器的预测结果拼接为矩阵
,其中每行对应一个样本的
个基模型预测值。
可选增强:可将原始特征
与
合并,形成增强的元特征矩阵
,但需注意防止过拟合。
元标签:使用原始标签
。
3.4.4. 元学习器训练
使用元训练集
或
训练元模型
,学习从基模型预测到最终标签的映射关系:
或
。
元学习器可以是任意监督模型(如线性回归、梯度提升树等)。
3.4.5. 最终预测
对新样本
:
基学习器生成预测:
(4)
元学习器整合预测:或。
4. 结果与讨论
4.1. 评价指标
在本文中采用了以下几个评价指标来评估模型,如AUC值、F1分数、马修斯相关系数(MCC)和灵敏度(Sen)。这些评价指标的公式如下:
ACC (准确率):用于衡量模型整体预测正确的比例,公式如下:
AUC:ROC曲线下面积,反映模型对正负样本的区分能力。ROC曲线以真阳率(TPR)为纵轴,假阳率(FPR)为横轴。
MCC(马修斯相关系数):
F1分数:精确率(Precision)和召回率(Recall)的调和平均数,公式如下:
,其中
Sen (灵敏度):
其中TP为真阳性,FP为假阳性,TN为真阴性,FN为假阴性。
4.2. 结果
本文将设计的模型与传统的逻辑回归算法以及常用的随机森林算法进行比较,可以发现本文的模型S-KFG在ACC值(0.833)、AUC值(0.888)、F1分数(0.860)、MCC值(0.663)、Sen (0.915)都比传统的逻辑回归要更好,与单一的机器学习算法相比,S-KFG虽然Sen值略低于随机森林,但是其他的评价指标值均优于随机森林,各项评价指标均优于梯度提升树算法。另外本文设计的Hancerforest模型也取得了优于传统方法的效果,ACC值(0.833)、AUC值(0.872)、F1分数(0.857)、MCC值(0.661)、Sen (0.894),同样的远超传统逻辑回归的预测效果,也只在Sen值上略低于随机森林,其他的评价值也均高于随机森林,因此可以得出,本文设计的模型取得了更好的预测效果。模型预测结果见表1,各模型ROC曲线图见图3。
另外本文对选取的各特征在模型上进行了消融实验,从表2、表3可以看出,在使用了选取的所有特征时模型效果最好,这也说明了本文特征选取的有效性。从表中结果可以看出,左侧B厚度、膜部尿道长度、移行带前后径和中骨盆面积对模型效果的影响较为突出,手术方式1、手术方式2和脑部病史虽然对模型效果影响不如前面四个突出,但也可以说明对模型最后预测效果的贡献。特征有效性分析的ROC曲线图如图4所示。
Table 1. The effect of each model on the dataset
表1. 各个模型在数据集上的效果
|
ACC |
AUC |
F1 Score |
MCC |
Sen |
S-KFG |
0.833 |
0.888 |
0.860 |
0.663 |
0.915 |
梯度提升树 |
0.826 |
0.822 |
0.839 |
0.619 |
0.902 |
随机森林 |
0.808 |
0.869 |
0.848 |
0.628 |
0.936 |
HancerKNN |
0.821 |
0.783 |
0.811 |
0.539 |
0.872 |
Hancerforest |
0.833 |
0.872 |
0.857 |
0.661 |
0.894 |
逻辑回归 |
0.723 |
0.822 |
0.747 |
0.450 |
0.723 |
Figure 3. ROC plot of the model
图3. 模型的ROC曲线图
Figure 4. Feature effectiveness analysis
图4. 特征有效性分析
Table 2. The feature validity was verified on the S-KFL model
表2. 在S-KFG模型上验证特征有效性
|
ACC |
AUC |
F1 Score |
MCC |
Sen |
S-KFG |
0.833 |
0.912 |
0.86 |
0.663 |
0.915 |
-左侧B厚度 |
0.714 |
0.726 |
0.76 |
0.415 |
0.809 |
-膜部尿道长度 |
0.773 |
0.856 |
0.791 |
0.546 |
0.766 |
-移行带前后径 |
0.762 |
0.757 |
0.804 |
0.516 |
0.872 |
-中骨盆面积 |
0.786 |
0.839 |
0.819 |
0.564 |
0.872 |
-手术方式1 |
0.831 |
0.895 |
0.859 |
0.661 |
0.913 |
-手术方式2 |
0.821 |
0.899 |
0.851 |
0.639 |
0.914 |
-脑部病史 |
0.821 |
0.908 |
0.851 |
0.640 |
0.915 |
其中“-”代表没有该特征,手术方式1是等离子剜除,手术方式2是激光剜除。
Table 3. The feature validity was verified on the Hancerforest model
表3. 在Hancerforest模型上验证特征有效性
|
ACC |
AUC |
F1 Score |
MCC |
Sen |
Hancerforest |
0.833 |
0.866 |
0.857 |
0.661 |
0.894 |
-左侧B厚度 |
0.714 |
0.770 |
0.755 |
0.416 |
0.787 |
-膜部尿道长度 |
0.726 |
0.812 |
0.753 |
0.446 |
0.745 |
-移行带前后径 |
0.726 |
0.800 |
0.851 |
0.441 |
0.851 |
-中骨盆面积 |
0.750 |
0.805 |
0.788 |
0.489 |
0.83 |
-手术方式1 |
0.821 |
0.864 |
0.848 |
0.637 |
0.893 |
-手术方式2 |
0.809 |
0.865 |
0.836 |
0.612 |
0.872 |
-脑部病史 |
0.821 |
0.864 |
0.848 |
0.637 |
0.894 |
其中“-”代表没有该特征,手术方式1是等离子剜除,手术方式2是激光剜除。
4.3. 讨论
本文通过设计了一个由KNN、随机森林、梯度提升树组合而成的软投票分类器集成模型和一个由5个不同配置构成的随机森林模型,以及元模型为逻辑回归的堆叠模型来在大连医科大学附属医院泌尿外科的前列腺增生患者数据集上进行预测,其预测效果优于传统的逻辑回归和单一的机器学习算法:随机森林和梯度提升树。对于传统逻辑回归本身作为预测模型的缺点,如无法捕捉复杂模式、分类效果差、泛化性能一般以及系数难以解释等,本文提出的集成模型对此有着更好的处理,也具有更好的预测能力和泛化能力。对比于单一的机器学习算法,S-KFG和Hancerforest也有更好的预测性能以及对数据集更好的处理能力。
另外本文所使用的特征符合医学上的研究意义,如左侧B厚度通常指经直肠超声(TRUS)或磁共振成像(MRI)测量的前列腺尖部或尿道周围组织的厚度。较厚的组织可能提供更好的尿道支撑,降低术中神经血管束损伤风险,而较薄的组织可能导致术后尿道闭合功能减弱,前列腺尖部解剖结构(包括左侧B厚度)是早期尿控恢复的关键预测因素[4];术前膜部尿道长度(Membranous Urethral Length, MUL)是术后尿控的主要预测因子之一[5]。保留更长的膜部尿道可维持括约肌功能和神经支配[6];移行带增生可能导致前列腺体积增大,增加手术难度和尿道括约肌损伤风险[7],体积较大的移行带可能挤压尿道,术中需更广泛的切除,影响括约肌功能。而骨盆狭窄可能限制手术视野,增加术中操作难度,导致盆底肌群或神经损伤[8]。从生物力学角度解释,骨盆解剖影响手术路径选择和功能保留。另外神经系统疾病可能破坏膀胱–括约肌协调性,导致神经源性尿失禁,术前已存在的神经损伤可能加剧术后括约肌功能障碍。其中技术优势(3D视野、机械臂灵活性)也有利于减少组织创伤,降低尿失禁风险[9]。总的来说,解剖因素(MUL、B厚度、骨盆面积)直接影响尿道支撑和手术难度,是核心预测变量;手术技术通过减少创伤改善预后;患者特征(脑部病史)反应神经功能基线状态,需要术前进行评估。
5. 结语
综上所述,本文不论是在模型的预测效果上还是在模型的可解释性方面,都要优于传统的逻辑回归算法和单一的机器学习算法,在特征的选取上也同样符合医学和统计学的意义。本文设计的模型为预测前列腺增生患者术后尿失禁提供了更强有力的预测工具,能够更好地帮助医生诊断病情并为患者提供更精准更优质的服务。除此之外,未来的研究方向应努力于精准解剖和分子靶点,结合单细胞测序技术解析括约肌损伤后的分子修复机制;并考虑对患者进行分层治疗,基于基因组学预测UI风险并制定个体化方案。要结合影像组学、基因组学[10] [11]和临床参数进行预测,提升模型的泛化能力,也应该多中心合作,制定统一的影像采集协议和UI定义,推动数据共享。将患者的数据纳入电子健康记录和患者结局报告,从而增强模型的现实适用性。未来需通过多学科协作、技术创新和真实世界数据验证,达到更加精准的预测、更加有针对性的治疗,最终实现“零尿失禁”的理想目标。