1. 引言
近年来,现代社会节奏加快,工作压力增大,很多人往往作息不规律,进而肠道问题逐渐年轻化,便秘、口腔异味、腹胀、消化不良已成为高频肠道困扰现象。相关调查[1]显示,约90%的人群曾被肠道问题困扰,且多集中于25~40岁长期久坐不动、饮食不规律以及习惯性熬夜的人群。肠道是最大的免疫器官,通过与肠道微生物群相互作用,影响机体的代谢,并在宿主的免疫调节中起关键的作用,其健康状况与整体健康紧密相连[2]-[4]。
目前国内的肠道管理措施多用于术后护理,通过医护人员专业化的护理和家属的细心照顾,减少术后并发症,提高康复质量和生活质量。赵志莹[5]等人明确对心脏重症监护病房患者的肠道管理,实施标准化护理,减少了肠道管理问题的发生,促进患者恢复,提高患者满意度。惠军妮[6]等人在肿瘤化疗后期管理中,为肿瘤患者采取肠道管理优化方案,有效预防肿瘤化疗患者便秘,提高患者生活质量,减少负面情绪,有利于患者的康复。洪珍惠[7]对颅内肿瘤术后使用三层面优化肠道管理模式,术后一周便秘发生率显著低于未采取措施的对照组(P < 0.05),达到了便秘的预防效果。
针对肠道管理的讨论通常集中在术后护理和疾病治疗上,大多数肠道管理产品或服务以术后患者为主要使用对象,而对于健康人群的肠道管理措施和产品服务的讨论相对较少。随着对肠道健康重要性认识的增加,一些产品或服务开始逐步扩展到健康人群,旨在通过调节肠道微生态平衡[8]-[10]来预防疾病和促进健康。Wang [11]等人总结了维生素D与肠道疾病的关系,认为维生素D可以调节肠道黏膜屏障,防止有害物质的侵入并维持内部环境的稳定。施淑怡[12]等人总结了番茄红素对不同菌种的作用,提高菌群多样性,并且在干预宿主炎症、心血管疾病有积极影响。陈桔淳[13]等人对健康的婴幼儿使用益生菌滴剂30天后,发现益生菌滴剂可以增加有益菌的相对丰度,提高肠道中的菌群代谢产物,有利于婴幼儿的肠道健康。以上提到的研究均是在日常生活的基础上摄入新的物质,通过调整饮食达到肠道管理的目的。
德国的Cara Care健康管理系统,主要针对慢性肠道问题的患者,提供个性化疾病咨询服务,缺乏对普通人肠道健康的日常评估。饮食、饮水、睡眠、运动、排便、社会联系和压力等诸多因素影响个人肠道健康[14]-[18]。本文根据每日的排便、饮食,饮水、睡眠、运动情况,设计一个基于卷积神经网络算法(Convolutional Neural Network, CNN)的肠道管理评估算法。通过医生问诊和问卷填写的形式收集数据,建立一个肠道评估数据库,并利用CNN算法去评估肠道健康等级。相较于加权k最近邻算法(k-Nearest Neighbors, KNN)、支持向量机(Support Vector Machine, SVM),基于CNN的肠道管理评估算法可以帮助用户记录当日与肠道相关因素的具体情况,评估当日的肠道健康等级,让用户知道自己的肠道健康状况,有利于调整饮食状况和生活作息,进一步提高肠道健康水平。
2. 方法
2.1. 肠道管理评估数据库建立
本系统的数据是通过医生问诊评估和问卷填写的形式,收集27人(年龄:23.74 ± 4.41岁)连续28天的排便、饮食、饮水、睡眠、运动数据。受试者在实验前1个月皆无肠道疾病,无腹痛、呕吐、腹胀、发热等症状。医生问诊评估后,对受试者的当日肠道健康等级进行评分。肠道健康等级分别为:5. 优秀;4. 良好;3. 一般;2. 劣化,注意最近的排便情况是否异常;1. 不良,建议去医院做进一步检查。
2.2. 数据特征选取以及数值化处理
排便情况是肠胃最直接的表达形式,在肠道管理评估中,参考了Bristol大便分类法[19]和Cleveland便秘评分系统[20]。布里托斯大便分类法将粪便稠稀度分成七种类型,这通常是医生问诊便秘和肠易激综合症的重要指标。受试者也可以通过对照自己的排便情况,初步了解自身的肠道健康状况。Cleveland便秘评分系统包括便秘症状频率、持续时间、排便困难、以及便秘相关的伴随症状,可综合评估便秘症状的严重程度。肠道管理评估的排便类特征属性选取以上部分内容,简单评估受试者的代谢和排便情况,见表1。
Table 1. Attributes of defecation characteristics and range of values
表1. 排便特征属性及取值范围
特征属性 |
数据类型 |
值域 |
排便形状 |
数值型 |
{1;2;3;4;5;6;7} |
排便时间长度 |
逻辑型 |
{5 min;5~10 min;10~15 min;15 min以上} |
便血异常情况 |
逻辑型 |
{是,否} |
排便异常状况 |
逻辑型 |
{排便未完全感;排便费力,感觉不适或疼痛;排便表现为块状便或硬便;排便需要人工方法辅助;每周排便次数少于3次;腹部疼痛;
排便为水状或稀糊状;以上都无} |
如果摄入过量的食物,胃部过度膨胀,可能会影响肠道正常的蠕动功能。过度的饱腹感可能导致肠道功能紊乱,甚至影响排便[21]。相关的研究表明[22],饱腹感增加和腹胀都与排便次数增加、限制性饮食行为有关。在收集数据的同时,受试者也表示间歇性暴饮暴食会影响下一次排便。肠道管理评估系统面向的是健康人群,每个人的饮食均不能统一成标准餐,因此,饮食方面的特征属性只需收集每日的饱腹感、和三餐具体情况,见表2。
合理地饮水可以刺激胃肠蠕动,它是促进顺畅排便的关键因素。每日饮水量不应少于2000 mL,充足的水分摄入能够显著增加肠内容物的体积,当水分进入肠道后,会与肠道内的食物残渣、代谢废物等混合,形成较为稀软的粪便,从而降低粪便的硬度,减少排便时对肠道的刺激和损伤。最好清晨空腹饮1~2杯淡盐水或温开水、蜂蜜水,促进肠道的血液循环和蠕动,加速粪便在肠道内的运输过程[23]。长期饮酒,会改变肠道微生物群,损害胃肠道[24]。根据《中国居民膳食指南》对成年人每日饮酒量的标准[25],设定适量的饮酒量(纯酒精量:男性25 g,女性15 g)。因此,饮水方面的特征属性需收集每日的饮水评价、大致的饮水量和饮酒情况,见表3。
Table 2. Attributes of dietary characteristics and range of values
表2. 饮食特征属性及取值范围
特征属性 |
数据类型 |
值域 |
饱腹感评价 |
逻辑型 |
{五成饱,稍微吃了点东西,不算饱;八成,饱腹感以下,还可以吃下一些水果;饱了,对食物没有排斥感;吃撑了,对食物完全排斥} |
不良饮食习惯 |
逻辑型 |
{无;暴饮暴食;节食} |
三餐情况 |
逻辑型 |
{正常三餐;缺了某一餐;多吃了夜宵} |
Table 3. Drinking water characterization attributes and range of values
表3. 饮水特征属性及取值范围
特征属性 |
数据类型 |
值域 |
饮水评价 (自我感觉) |
逻辑型 |
{感觉喝水少了;有一点少;刚好;今天喝水蛮多的;今天水喝超多的
(饮水量 > 2000 mL)} |
饮水量 |
逻辑型 |
{饮水量} |
饮酒量 |
逻辑型 |
{无;饮酒量 + 酒精浓度} |
良好的睡眠有助于维持人体正常的新陈代谢、生理功能和昼夜节律。如果睡眠不足或睡眠质量不佳,肠道菌群会受到昼夜节律的影响[26] [27],从而影响肠道蠕动,导致便秘。在收集数据的时候,大部分受试者表示打破日常的生物钟,偶然一次的晚睡晚起,当日的食欲大概率会降低,排便时间会推迟。某一临床数据表明,52.6%的便秘患者夜间睡眠时间不足,但恢复正常睡眠时间后便秘的症状有所改善[28]。因此,睡眠方面的特征属性参考了匹兹堡睡眠质量指数,收集每日的睡眠自我评价、睡眠时间、前期入睡时间长度、睡眠障碍和日间障碍,见表4。
Table 4. Sleep characteristic attributes and range of values
表4. 睡眠特征属性及取值范围
特征属性 |
数据类型 |
值域 |
睡眠评价 (自我感觉) |
逻辑型 |
{睡眠质量优秀;睡眠良好;睡眠质量一般;睡眠质量差} |
睡眠时间 |
逻辑型 |
{入睡时间、起床时间} |
前期入睡时长 |
逻辑型 |
{5 min;5~15 min;15~30 min;30~60 min;60 min以上} |
睡眠障碍 |
逻辑型 |
{无;入睡困难;夜间易醒或早醒;夜间去厕所呼吸不畅;咳嗽或鼾声高;感觉冷或热;做恶梦;疼痛不适} |
日间障碍 |
逻辑型 |
{无;困倦;精力不足} |
短链脂肪酸(Short chain fatty acids, SCFA)是特定结肠厌氧菌发酵膳食纤维和抗性淀粉后产生的主要细菌代谢产物,SCFA在维持肠道代谢健康、预防多种非传染性疾病方面发挥了重要作用[29]。相关研究表明,运动可以促进SCFA的生成,较高水平的体力活动和心肺适能与粪便中的短链脂肪酸的浓度呈正相关[30]。因此,运动方面的特征属性参考了国际体力活动问卷收集每日的工作时长、简单轻度运动、中等运动和高强度运动,见表5。
Table 5. Attributes of motion characteristics and value ranges
表5. 运动特征属性及取值范围
特征属性 |
数据类型 |
值域 |
今日使用电子产品工作时长 |
逻辑型 |
{大致时间数} |
简单轻度运动 |
逻辑型 |
{无;0~0.5 h;0.5~1 h;1~2 h;2~3 h;3 h及以上} |
中等强度运动 |
逻辑型 |
{无;0~0.5 h;0.5~1 h;1~2 h;2~3 h;3 h及以上} |
高强度运动 |
逻辑型 |
{无;0~0.5 h;0.5~1 h;1~2 h;2~3 h;3 h及以上} |
肠道健康等级的特征选取均参考大量文献和医生意见,并参考受试者的实际填写情况,得出以上21类特征。
2.3. 基于CNN的肠道评估算法
本研究采用CNN进行文本分类任务。CNN需要通过卷积层、池化层和全连接层的组合,自动从文本数据中提取特征数据,并进行类别预测。以下是利用CNN设计的肠道评估算法结构。
文本数据的处理是构建卷积神经网络模型的第一步。在本研究中,输入数据包含21个文本型特征,即上述提到的排便类、饮食类、饮水类、睡眠类和运动类特征。每个文本特征将通过词向量(Word Embedding)方法转换为数值型向量。每个文本特征被转换为维度为D = 100的向量。因此,输入数据将是一个21 × 100的矩阵,其中21表示文本特征的数量,100是每个特征的向量维度。这个矩阵作为模型的输入数据进行训练。在这个算法中,我们使用三层卷积层,三个卷积层分别有16、32、64个过滤器。每层卷积层后跟批量归一化层(Batch Normalization, BN)、激活函数线性整流单元(Rectified Linear Unit, ReLU)和最大池化层(Max Pooling),并且在最后通过全连接层和Softmax输出层进行分类,具体结构如图1。
Figure 1. The proposed CNN architecture
图1. CNN算法结构
卷积层负责进行卷积计算;池化层负责降采样,降低模型复杂度,加速训练;全连接层负责进行输出。卷积公式如下:
(1)
其中,
是输入数据,
是卷积核的权重,
是卷积层的输出特征图。
BN会对卷积层的输出进行标准化处理,使得每一层的输入数据具有零均值和单位方差,从而加速训练过程并稳定训练。批量归一化的公式为:
(2)
其中
和
分别是批次数据的均值和方差,
是一个小常数,用于避免除以零。之后,批量归一化的输出会进行缩放和偏移,得到最终的输出:
(3)
其中
和
是可学习的缩放因子和偏移量。每个全连接层后,有一个ReLU和一个丢弃率为0.5的丢弃层(Dropout)。丢弃层用于防止过拟合。通过随机丢弃一部分神经元的输出,防止模型过度依赖某些特征。
输出层使用Softmax激活函数将全连接层的输出转换为类别的概率分布。Softma 的计算公式为:
(4)
其中,
是类别数,代表5类肠道等级,分别为:5. 优秀;4. 良好;3. 一般;2. 劣化,注意最近的排便情况是否异常;1. 不良,建议去医院做进一步检查。
是类别
的得分,
是类别的
预测概率。在训练过程中,模型通过最小化交叉熵损失(Cross-Entropy Loss)来优化参数。交叉熵损失函数的公式为:
(5)
是真实标签的one-hot 编码,
是预测的类别
的概率。优化函数使用Adam优化器,用来减少错误、更新模型参数,初始学习率设为0.001。训练迭代次数为50次。
2.4. 评价指标
本文使用总体准确率(Accuracy)来表示分类器的性能,即正确分类的样本数与总样本数的比。
(6)
3. 结果与分析
本实验选用CNN作为肠道健康评估算法,并将SVM和KNN作为对照算法进行性能比较,对比不同算法在肠道评估中的分类表现。每个算法的数据集均来自于之前收集的756组数据,其中有6组数据因部分内容缺失或受试者生病服用药物剔除。将750组数据打乱,随机选取600组数据作为训练集,剩下的150组作为测试集。
3.1. 评估结果
在本研究中,旨在评估肠道健康状况的分类算法性能,我们采用了三种不同的机器学习模型。结果显示,加权KNN的准确率为75.33%,SVM的准确率为88.00%,CNN的准确率为94.6%,如图2。可以明显看出,CNN在肠道健康状况分类任务中表现出色,优于加权KNN和SVM这两种算法。
Figure 2. Accuracy of weighted KNN, SVM, and CNN for assessing gut health grade
图2. 加权KNN、SVM、CNN评估肠道健康等级的准确率
3.2. 评估验证与分析
在本文的实验部分,我们采用了精确率(Precision)、召回率(Recall)和F1分数(F1 score)作为评估指标,以全面衡量模型在分类任务中的表现。精确率是对准确性的度量,召回率是表明模型的完整性。为了综合考虑精确率与召回率之间的平衡,我们进一步计算了F1分数,它是精确率和召回率的调和平均值,可以有效避免二者之间的不平衡对模型评估的影响。通过这三个指标的综合分析,我们能够更全面、细致地评估模型的分类性能。具体公式如下:其中,TP,FP,FN和TN分别表示真阳例,假阳例,假阴例和真阴例。
(7)
(8)
(9)
我们对随机的150例案例进行肠道算法评估,来验证算法的有效性。如图3~图5,分别展示了三种算法的精确率、召回率、F1值。从图中可以看出,在B、C、D、E类中,CNN的精确率、召回率和F1值均比加权KNN、SVM这两种算法高。但是对于A类样本的分类,SVM和加权KNN要优于CNN。从数据量上分析,类别不平衡可能导致模型对少数类的预测性能下降,影响模型的泛化能力。A类样本较少,在750例中,仅有30例肠道健康为优秀的数据。
在未来的研究中,可以适当扩充A类数据,利用SMOTE (Synthetic Minority Over-sampling Technique) [31]在特征空间中生成新的少数类样本,提高数据的多样性,减少了过拟合的风险。并适当调节CNN的参数,提高A类数据的预测准确性。本次数据采集中,均为不熬夜作息规律的受试者。为了进一步验证肠道健康评估算法的适用性,建议后续研究中纳入熬夜受试者进行对比测试实验。
Figure 3. Precision of weighted KNN, SVM, CNN
图3. 加权KNN、SVM、CNN的精确率
Figure 4. Recall of weighted KNN, SVM, and CNN
图4. 加权KNN、SVM、CNN的召回率
Figure 5. F1 of weighted KNN, SVM, and CNN
图5. 加权KNN、SVM、CNN的F1值
4. 总结
当前,我国肠道健康问题的普遍化和年轻化趋势日益明显。随着公众健康意识的不断提升,肠道健康逐渐成为人们关注的焦点。本研究旨在设计一种基于CNN的肠道管理评估算法,该算法通过统计用户的日常排便、饮食、饮水、睡眠和运动等数据,为其提供个性化的肠道健康等级评估。本研究的基于CNN的肠道健康评估算法用于肠道健康等级的评估准确率为94.6%,高于加权KNN的75.33%和SVM的88.00%,说明基于CNN的肠道管理评估算法对于无肠道疾病史的健康人群来说有较好的应用前景。这样的评估算法不仅能够监测用户的肠道健康状况,而且能够督促用户培养健康的生活习惯,从而达到预防肠道疾病的目的。
本研究对肠道评估算法的探究还处于待改进阶段,仍然存在很多不足。首先,因无相关算法设计的先例,本研究的特征选取是参考大量文献并结合医生建议,但与肠道健康相关的生活作息因素不止上述提到的特征数据,后期研究将把用户的饮食内容考虑在内。其次,该方法适用于无肠道疾病史的健康人群,对有肠道疾病史的用户不能提供有效的健康评估。随着对肠道健康问题研究的深入,未来研究的一个重要方向将是将该评估系统扩展至更广泛的用户群体,包括那些患有常见肠道疾病,如肠易激综合症、炎症性肠病、胃食管反流病和消化不良等的患者。通过增加这些常见肠道疾病的案例,可以使肠道评估系统更加完善,从而为更广泛的用户提供个性化的肠道健康评估,帮助他们更好地监测和改善自己的肠道健康状况。
NOTES
*通讯作者。