1. 引言
脑卒中是一种急性脑血管疾病(俗称“中风”),是由于脑部血管突然阻塞或出血引起的一系列疾病 [1] 。脑卒中是全球第三大死亡和残疾原因 [2] ,也是我国成人致死、致残的首要原因 [3] 。一项旨在调查卒中后残疾及其相关危险因素的5年患病率的全国性调查发现,45%的脑卒中后患者遗留运动功能障碍 [4] ,脑卒中是导致偏瘫的最主要因素。偏瘫临床表现为一侧肢体的运动能力受限或完全丧失,严重限制了患者的日常生活活动能力(Activities of DailyLiving, ADL),还可能导致抑郁、焦虑和失眠等心理问题 [5] ,给家庭和社会带来巨大挑战 [6] 。早期、科学、合理的康复训练能提高中枢神经系统的可塑性,挖掘损伤的修复潜力 [7] ,有效提升PSH患者的ADL,减少社会参与障碍。
我国现有的康复服务是在全面评估的基础上,由专业康复团队统一制定的,然后实施相应的康复训练干预,并跟踪评估康复效果 [8] 。然而服务体系尚未成型,存在评估和决策周期长,标准不统一等问题,难以及时满足患者个体化的康复需求 [9] 。其次,专业人才短缺、服务网络不完善和资源分布不均衡进一步加剧了问题。此外,传统康复训练处方制定依赖人工经验,缺乏客观性和解释性,决策过程缺乏透明度。因此开发个性化、智能化的康复训练决策技术变得至关重要。
临床决策系统(Clinic decision support system, CDSS)是专家系统 [10] 在医学领域的一个重要应用和扩展,辅助临床医师提供诊断建议、治疗方案等临床决策 [11] 。基于知识库的CDSS是CDSS的早期形式,这类系统基于预定义的规则和逻辑,通过模拟专家推理过程来提供决策支持。Hamedan等人 [12] 利用模糊逻辑推理构建CDSS用于慢性肾脏病诊断和预后,对嘈杂数据表现出鲁棒性。Canoa等人 [13] 利用RBR构建了知识管理系统、智能助手、推理引擎于一体的CDSS,为复杂的心血管疾病场景提供实时诊断和治疗建议。这类系统由知识驱动,依赖专业知识,维护知识库费时费力。机器学习和人工智能的重大进展提高了在挖掘大量历史数据方面的便捷性,使得对临床结果的预测更为精确和具有针对性 [14] 催生了基于非知识库的CDSS,其决策依赖底层数据模型的学习能力。Majeed等人 [15] 采用Lasso回归来预测住院康复中卒中患者的临床结果,为患者预后提供了有价值的见解。Kim等人 [16] 结合DNN,逻辑回归,随机森林等方法来预测中风患者的运动功能,达到早期干预和制定个性化康复计划。这些研究证明主流机器学习模型在脑卒中康复领域的表现至少可以达到有经验的康复医生的水平。尽管如此,由于这些模型通常缺乏可解释性,它们还未被临床广泛接受 [17] 。
为了打破传统康复服务模式,摆脱其局限性 [18] ,本文将基于知识库的CDSS的设计原理应用于康复训练处方决策研究,模拟康复专家决策思维,提出了基于WCBR的康复训练处方决策算法从而实现指导个性化的康复训练处方。本文做了以下工作:1) 构建PSH案例库;2) 在CBR中设计了基于多标签分类的案例检索与案例重用方法。不仅解决了CBR所需的主观和繁重的参数调整问题,也解决了多标签问题中检索得到多个案例的科学决策问题。该系统可帮助康复工作人员提高工作效率,降低主观决策的误诊率,也有利于优化康复资源的调配与利用,对我国康复服务体系的构建具有重大意义。
2. 方法
基于WCBR的智能康复训练处方决策算法流程如图1所示,CBR是整个算法的核心推理模块。首先PSH患者需将康复评估的量表评定信息输入并进行结构化处理,算法将在案例库中检索相似病例,最后相似案例辅助生成康复训练处方。
2.1. 数据获取
本文使用的数据来自西安交通大学第一附属医院的139例脑卒中患者电子病历,通过康复治疗师临床问诊和查体等形式获得。每例样本基本由康复评估数据以及康复训练处方构成。其中平均年龄为59.29 ± 11.92岁,男性105例,女性34例,左侧偏瘫134例,右侧偏瘫35例。
康复评估采用Lovett分级量表、改良的Ashworth分级量表分别对患者的肌力、肌张力进行评定;采用MRMI量表、Brunnstrom运动恢复分期量表、Bobath平衡量表分别对患者的移动功能、运动功能和平衡功能进行评定,各项评估详细内容如表1所示。由康复科医生根据康复评估为每位患者制定康复训练处方,康复训练一共包括运动疗法、偏瘫肢体综合训练、关节松动训练、平衡功能训练、耐力训练、电子生物反馈、电动起立床、电按摩等8种技术。
2.2. CBR模块
构建基于非知识库的CDSS方法中,近年来CBR受到广泛关注。CBR与其他的AI方法有本质区别,首先它是一种基于已有经验案例进行推理和解决新问题的范式,其起源于认知科学 [19] 。其次,CBR系

Figure 1. The algorithm flowchart based on WCBR
图1. 基于WCBR的算法流程图

Table 1. Details of rehabilitation assessment scales
表1. 康复评估项目详情
统的增量式学习使得CBR推理系统随着案例数量以及覆盖度的增加,效果越来越好 [20] 。CBR主要包括检索、重用、修订、保留这四个步骤。如图2展示了CBR系统的核心执行过程,称为CBR循环。案例库是CBR实现的基础,收集到患者数据之后,需要通过案例表示将这些非结构化历史经验转化计算机可以处理、识别的结构化输入数据,作为案例存储到案例库中。本文所提出的WCBR算法中,主要体现在案例检索中进行特征加权,案例重用中进行标签加权。
2.2.1. 案例表示与案例库的建立
定义案例内容和确定案例结构是给定推理情境中的两个基本任务,称为案例表示 [19] 。案例表示对于连接原始数据和推理算法至关重要,一种常用的方法是特征向量描述法 [21] ,它将每个历史案例分为两个部分:特征描述部分和解决方案部分。每例PSH病例信息由两部分构成:康复评估和康复训练处方,经过临床专家基于经验选取的特征属性分别是肌力、肌张力、运动功能、移动能力等,经过结构化处理后详见表2。

Table 2. Type and values of attributes that compose the assesment
表2. 构成康复评估的特征属性及取值范围
康复训练处方作为目标值,每条样本的解决方案由一种或多种康复训练技术组合,将每种康复训练技术作为一种标签,该研究则可以视为一个多标签分类问题。给定一个D维样本集空间
,一个包含Q个可能标签的标签空间
,PSH案例库可以表示为
,N为实例的数量。
,
为实例i的M维特征向量。
表示实例i对应的康复训练标签向量,其中如果 包含康复训练标签
,则
(称为i的相关标签),否则
(称为i的无关标签),表3是康复训练处方案例表示示例。

Table 3. Case representation of rehabilitation training prescription
表3. 康复训练处方的案例表示
2.2.2. 基于多标签的案例检索算法
CBR推理的核心在于通过相似案例检索算法,从案例库中选取与新问题相似的历史案例来生成解决方案,其中以简单高效的KNN策略最为常用 [22] 。KNN作为一种懒惰学习算法依据特征空间内的相似性或距离函数进行工作,而通过使用权重向量可以有效降低不相关或冗余特征的干扰,提高算法性能 [23] 。为了最大化利用案例库中的多标签信息,在WCBR中采用基于多标签的加权KNN案例检索算法。
多标签特征选择算法中最简单的方法是将多标签问题转换为多个单标签问题,但由于多个标签的表示被压缩为单个标签,会导致学习困难 [24] 。更好的解决方法则是算法适应方法,基于互信息(Mutual Information, MI)的多标签特征选择方法可以独立于每个标签计算特征的重要性,然后通过综合这些信息来评估特征对于整个标签集合的重要性。互信息本质上反映了特征与标签之间的相关性强弱且不依赖于变量的分布假设,结果具有可解释性、应用具有灵活性。
首先,对于数据集中的每个特征x和每个标签y,计算它们之间的互信息
。互信息可以通过以下公式计算:
(1)
其中,
是x和y的联合概率分布,
和
分别是x和y的边缘概率分布。
由于不同的特征和标签之间的互信息量级可能不同,为了使结果更加通用和可比较,互信息进行归一化,再计算所有标签的互信息的平均值,得到每个特征的综合权重。
最后,根据预定义的公式计算目标案例与案例库中每个案例之间的相似度。然后,选择具有最大相似度的K个病例作为新病例的邻居。常用的加权相似度方法有加权欧几里得距离、加权曼哈顿距离以及加权余弦相似度 [25] ,计算公式如表4所示,其中N为特征个数,x和z分别是目标案例与历史案例的特征向量,
是第i个特征的权重。
2.2.3. 基于多标签的案例重用算法
通过案例检索,获得了目标样本的K个最为相似的历史案例,通过决策获得解决方案的这一过程称为案例的重用。在KNN中常用决策有多数投票法、加权投票法、距离加权平均法。在康复训练处方决策中,康复训练标签之间存在相关性,为充分利用康复训练标签信息,获得更好的决策效果,本研究采取加权投票策略,使用LC-KNN [26] 对标签进行加权并构建分类器。

Table 4. Similarity calculation formulas list
表4. 相似度计算公式表
首先对于每个目标样本,找到其K个最近邻居,根据这些邻居的多标签信息来构建一个多标签计数向量,公式计算如下:
(5)
其中,
表示案例库中目标案例t的K个最近邻,
表示包含标签
的近邻个数。
具有高先验概率的标签具有最大的相互关系和最小的交叉冗余,因此它们在LC-KNN中具有较大的标签权重 [26] 。相关性是基于条件概率计算的,其权重应与单个标签的概率与标签集的概率之和成正比。根据朴素贝叶斯模型,标签权重计算公式如下:
(6)
其中Q为标签总数,
为第i个标签的先验概率,s为平滑参数。
利用获取的特征与标签之间的统计相关性,通过最大化后验概率构建分类器,分类器的预测结果如下:
(7)
3. 实验与结果分析
3.1. 评价指标
多标签分类任务中,一个实例可以同时属于多个类别。因此,评价多标签分类模型的性能时,需要采用样本层面的宏观指标。样本层面的常用的指标有精度(Precision),召回率(Recall),以及F1值(F1 Score) [27] 。精度描述了预测为正的样本中,实际为正的比例。召回率描述了实际为正的样本中,预测为正的比例。F1值为精度和召回率的调和平均,用于衡量精确度和召回率之间的平衡。以下是多标签分类评价指标及其计算公式:
(8)
(9)
(10)
其中,
是样本数量,
是样本 的真实标签集合,
是样本i的预测标签集合。
对于每个单独的标签,采用分类任务中常用的微精度(precision)、微召回率(recall)、微F1值(f1 score)等微观评价指标。与多标签分类任务中的宏观评价指标计算方式不同,单标签的微观指标的计算方式如下:
(11)
(12)
(13)
其中,
为第i个标签的真正例数,
为第i个标签的假正例数,
为第i个标签的假负例数。
3.2. 实验设计与结果讨论
将139例PSH样本划分成两个互不相交的子集,取其中1/5样本数作为测试集。每条样本由康复评估和康复训练处方组成,康复评估为基于WCBR的康复训练处方决策算法的输入特征,康复训练处方作为目标值。为了保证数据类别的平衡性,筛选出现频次少于20次的康复训练技术,最终保留的6种康复训练作为目标标签,如表5所示。

Table 5. Selected rehabilitation trainning and their frequency
表5. 选定的康复训练技术及其出现频率
实验1:找到最优相似度计算方法和最佳K值。
在KNN策略中K值关系到近邻的选择范围以及案例重用中的决策,直接影响康复处方决策算法的性能。而不同的相似度计算方法关系到近邻的选择质量,也是决定算法性能的关键因素之一。在这个实验中,选择的K值范围为1到11,相似度计算方法选择加权欧几里得距离、加权曼哈顿距离以及加权余弦相似度。为了综合评价不同K值以及不同相似度计算方法对于算法的性能影响,我们进行对比研究,采用的评价标准为F1值,实验结果如图3所示。

Figure 3. Performance of the proposed algorithm with similarity calculation methodsand K values in terms of F1 Score
图3. 不同相似度计算方法与K值在所提算法中F1值的性能
F1值越高,表示模型的性能越好。由图3可知三种相似度计算方法在当K等于5时,达到该算法的最好性能,且效果最好的是加权欧几里得距离,说明当K等于5,且选择加权欧几里得距离计算作为相似度度量方法时,此时F1值为89.8%,该算法在精确度和召回率方面都达到了较好的平衡,该算法的各项评估指标统计数据如图4所示。

Figure 4. Evaluation metrics forrehabilitation training decision algorithm based on WCBR
图4. 基于WCBR的康复训练决策算法评价指标
实验2:比较WCBR与基准CBR
基准CBR相较于与本研究提出的WCBR没有加权操作,且采用多数投票作为案例重用决策。为验证特征、标签分配不同的权重能否提高决策性能,使用皮尔森卡方检验比较WCBR和基准CBR的各项评估指标。p值小于等于0.05表示差异有统计学意义,采用Python的SciPy库进行统计分析。

Table 6. Comparison of decision-making performance in rehabilitation training prescription between two methods
表6. 两种方法的康复训练处方决策性能对比
表6显示了基准CBR和WCBR在6类康复训练中的微召回率、微精度和微F1值。从表中可以看出,基于加权CBR的康复训练处方决策算法性能优于基准CBR的决策算法。使用皮尔森卡方检验比较得到6类康复训练处方的 值均小于0.05,拒绝原假设,表明两种方法之间存在显著差异。此外,从表中可以看出,该算法对于频率出现次数较高的康复训练技术如偏瘫肢体综合训练、平衡功能训练具有很高的微召回率和微精度。同时对于频率次数较少的康复训练技术,如运动疗法,电动起立床的微召回率与微精度也能达到85%以上,说明该算法对于类别不平衡的标签分类,具有一定的稳定性,能缓解类别不平衡的问题。
4. 结论
本研究旨在为PSH患者提供个性化康复训练处方,目的是帮助患者恢复日常生活能力和社会参与。研究通过应用非知识库CDSS设计原则,开发了基于加权案例推理(WCBR)的智能推理算法。该算法的设计利用了数据驱动的优势和决策支持系统动态更新的特性,以更符合临床医生的决策习惯。通过将康复处方决策问题视为一个多标签分类问题,并在WCBR中引入特征加权和标签加权,实验结果显示本研究提出的方法相较于传统CBR表现出更优秀的性能。该算法不仅在康复领域的智能处方应用上展现出创新性,也能有效提升基层医务人员的决策效率,为患者提供更个性化、高效和可解释性强的康复服务。此外,该算法有望缓解康复专业人才的全国性短缺及区域分配不均的问题,并为处理小型复杂数据集的多标签分类任务提供有价值的参考。未来研究将引入更多生理特征,如肌电信号和步态等多源信息,旨在为更广泛类型的功能障碍患者设计更精确的康复训练方案。
基金项目
课题来源:国家重点研发计划项目(2018YFC2002601),2018-12~2023-11。
课题名称:智能化肢体功能康复评估与辅具适配关键技术研究。
所属项目:残疾人与失能和半失能老年人康复辅助器具评估与适配体系研究与应用示范。
NOTES
*通讯作者。