1. 引言
妇科分会秉承互联网医疗的理念,与“杏林壹号”探索了在“互联网+”为载体和技术手段,4年间已经开展中医、中西医结合妇科的健康教育、电子医疗档案、医疗信息及真实世界数据分析、中药复方网络药理学机制研究、学术经验分享等;未来的AI大数据精准教学,将在5G技术发展下,改变妇科分会传统的交流传播观念,从教学思想、教学理念、教学组织形态、教学方法等方面进行改革创新。在中国中医药信息学会的领导和支持下,妇科分会充分发挥学术交流研究的作用,集中全国及港澳台地区的中医、中西医结合、信息化的资源,搭建平台,整合全国30余家医院妇科资源,开展多层次合作,反复论证建立妇科门诊科研系统云平台,确定了中医妇科门诊临床科研数据收集、分析、整理挖掘和总结,初步形成了痛经、不孕症和围绝经期综合征3个优势病种的数据库,为探索中医妇科门诊临床科研真实世界提供了新的思路和途径,推动中医药信息发展。
2. 大数据与中医药
2012年3月美国政府发布《大数据研究和发展倡议》 [1] 并注资2亿美元,这意味着“大数据”时代已经来临。学术界对大数据的定义并不一致,麦肯锡公司指出大数据是超过普通数据库软件工具采集、存储、管理和分析的海量数据集合;高德纳(Gartner)信息咨询公司则把大数据简单定义为庞大、多样和复杂的信息 [2];维基百科的定义:大数据指在通常情况下无法用常规的数据库管理工具和数据处理软件进行采集、管理、存储、检索、共享、传递、分析和可视化处理的大型和复杂数据集合 [3]。
基于大数据,中医药真实世界研究成为现代临床研究体系中重要的研究类型,真实世界研究的数据可来源于医疗机构、社区等非严格限制的科研场所,大大扩展了研究样本量,大数据时代为此提供了海量数据的分析技术,为中医药新时代发展提供契机 [4]。随着信息技术的快速发展,网络药理学应运而生,基因组测序、高通量组学等技术革新为生物医药领域带来了数据信息的爆炸性增长;中医药的多成分、多途径、多靶点协同作用的特点与网络药理学的“疾病–基因–靶点–药物”复杂网络模型不谋而合 [5],近年来,网络药理学应用与中医药研究取得了迅猛发展,成为中医药领域研究的热点。
总之大数据是指无法用传统、常规的软件工具提取、存储、搜索、共享、分析和处理的海量、复杂的数据集合。大数据是为了更经济地从高频率获取的、大容量的、不同结构和类型的数据中获取价值而设计的新一代架构和技术 [6]。简言之,它既是数据集合,也是一种架构和技术。如何在大数据时代借助新技术手段发展中医药,收集突出整体、功能、动态及时空间变化的过程诊疗特色的数据信息,汇总成大数据的数据库,对数据库进行挖掘找到其内在规律,临床和科研的得出的结果再指导临床和科研,补充到数据库中形成螺旋上升的循环 [7]。
3. 妇科门诊科研系统云平台构建
门诊是能最大程度接触患者的场所,大量的临床资料有待收集。对于妇科临床疾病而言,通过长时间诊疗和随访收集的大量信息,可以对不同治疗方式的近远期效果进行科学的评价,得出对于临床治疗决策有重要的意义的结论 [8]。目前门诊临床科研方面研究比较薄弱,主要存在:第一,我国信息化进程相对欧美等发达国家起步较晚,早期大量门诊患者的诊治信息没有收集保存已无法追溯。第二,随着电子病历系统的逐渐普及,患者的诊治信息资料不规范,数据不全面难以分析和我挖掘。第三,通过临床医师手写记录数据、查阅完整诊疗信息的大样本的临床研究极其费时费力 [9]。因此妇科学会选择中医妇科的痛经、不孕症和更年期综合征三大优势病种,通过构建妇科门诊科研系统云平台,收集大量真实世界病例数据,在流行病学研究的基础上,为探索中医妇科门诊临床科研真实世界研究提供新的思路和途径。
3.1. 妇科门诊科研系统的信息收集
收集方法与内容:明确诊断痛经、不孕症和围绝经期综合征后,根据疾病分模块进行录入,设定必填的关键信息,以下拉框和可选框方式录入,简化输入过程;结合手动文本框录入,病例数据收集更加完整、全面。按照平台建立的运用规范诊治的术语库,分两级(录入医生和诊治医生)录入审核,系统还要进行后期数据清洗。在云技术的支持下妇科分会建立大数据数据库,批量导出和分析数据,对平台进行质量控制和管理,各医生团队可以随时填写查阅和完善病历检查报告等。技术路线见图1,云平台模块示意图。
3.2. 病历数据挖掘
对痛经、不孕症和围绝经期综合征3类病例数据整理挖掘时,首先确定数据挖掘任务,常用发现分类或预测模型、数据总结、聚类、发现关联规则、发现序列模式、发现依赖关系或依赖模型、发现异常和趋势 [10] [11]。门诊临床数据挖掘的流程为首先采集临床病历数据,对数据进行清洗,建立数据库,通过相对应的算法进行数据挖掘得出结果,进行描述分析,最后得出结论,门诊临床研究提供科学依据。
4. 数据挖掘的创新与实践
4.1. 数据挖掘技术
数据挖掘技术各有所长,简述如下:(1) 统计分析方法:通过回归分析、相关分析、主成分分析等方法确定数据库中数据之间所具备的函数关系或者是相关关系等关系的算法。可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、费歇尔判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)、探索性分析(主元分析法、相关分析法等) [12]。(2) 决策树方法:以信息论中的信息增益为标准划分字段,建立结点,再以不同的取值在结点上建立数的分支,以此重复进行结点和分支,进而建立决策树,信息数据越多书的分支越多,树越庞大,同样的数据越少,分支越少,树也就越小。(3) 神经网络方法:以MP模型和Hebb学习规则为基本单位来对大脑神经元进行模拟,以神经网络的连接的结点作为知识结点,进而进行逐步计算,而目前主要以前馈式网络,反馈式网络以及自组织网络三大神经网络模型为典型 [13]。(4) 覆盖正例排斥反例方法:通过总结利用正例,排斥反例的方式寻找规律 [14]。(5) 粗集方法:在一组数据库之中,将行元素作为对象,将列元素作为属性进行研究 [15]。(6) 概念树方法:将数据库中的数据按照不同属性进行归类构建出具有层次的概念树 [14]。(7) 遗传算法:将繁殖、交叉和变异作为三个基本单位对生物的进化过程进行模拟的一种算法 [16]。(8) 公式发现方法:对数据库中的各种变量进行数学演算进而推导出所需的数学公式的方法。(9) 模糊集方法:对实际问题进行模糊集理论中的评判、决策、模式识别和聚类分析从而推断出的一种方法 [17]。(10) 可视化技术:通过可视化数据分析技术使得数据更加形象具体化的展现在使用者面前 [18]。

Figure 1. Cloud platform module diagram
图1. 云平台模块示意图
4.2. 妇科分会在探索信息化建设的创新与实践
中国中医药信息学会妇科分会选择痛经、不孕症、围绝经期综合征三个中医妇科优势病种,在云平台智能终端进行病历规范录入,已覆盖全国9个省(市),准备扩展到全国20个省市自治区,从而得到更全面、更广泛、更真实临床的数据。云平台的工作流程为中国中医药信息学会妇科分会与杏林壹号数据平台工作人员共同研发杏林壹号病例收集系统,全国各省市的医生通过手机或其他移动终端输入三大病种的病历,云平台后台根据需求导出数据库,运用Microsoft excel 14.0.0及SPSS 24.0进行统计和分析分析数据,最后进行阶段性总结。
4.2.1. 结果
截止至2019年7月21日,不孕症、痛经和围绝经期综合征3个优势病种共收集1694份病历(2776诊次),其中不孕症684份病历(1162诊次),痛经644份病历(982诊次),围绝经期综合征366份病历(623诊次)。
4.2.2. 不孕症病例相关数据统计
不孕症患者就诊平均年龄30.66 ± 5.35岁,年龄最小18岁,最大47岁。未避孕时间最短1年,最长14年,平均2.65 ± 2.45年,标准差过大的原因是样本量过小,有未避孕14年、11年的较极端数字。其诊断及证型、月经情伴随症状、部分丈夫精液的数据如下:
(1) 不孕症的诊断及证型(见图2~4)

Figure 2. Western medicine diagnosis of infertility
图2. 不孕症西医诊断

Figure 3. Proportion of TCM syndromes of infertility
图3. 不孕症中医证型占比

Figure 4. Number of times a person with infertility has been pregnant
图4. 不孕症患者曾经怀孕次数
图2~4表明在684不孕症病例中,412例为原发性不孕症;272例为继发性不孕,其中112例怀孕1次,92例怀孕2次,47例怀孕3次,17例怀孕4次,1例怀孕5次,2例怀孕6次,1例怀孕8次。合并甲状腺功能减退5例。中医证型中肾气虚占45%,肾阳虚9%,肾阴虚11%,血瘀17%,痰湿8%,肝郁10%。
(2) 不孕症的月经情况(见图5~8)
图5~8表明在684不孕症病例中,月经初潮年龄平均14.22 ± 1.53岁,其中11岁以下13例,11~16岁423例,16岁以上10例。月经周期14天~1年,平均35.58 ± 51.42天,标准差过大的原因是有365天这样的极值出现,其中21天以下13例,21~35天622例,35天以上49例。月经经期在1~30天之间,平均5.59 ± 2.11天,其中少于3天9例,3~7天548例,7天以上127例。月经经量有10例极多,32例量多,416例量中,211例量少,15例极少。
(3) 不孕症的伴随症状及丈夫精液常规检查情况(见图9~10)
图9~10表明684不孕症病例中,明确伴随症状:453例怕冷,176例怕热,389例有胸闷,274例腰酸无力,97例情绪急躁,211例精神倦怠,135例情绪抑郁。病例中提供丈夫精液常规检查的有69例,其中正常47例,少精3例,弱精4例,活动力差8例,畸形率高5例。
4.2.3. 痛经病例相关数据统计
644例痛经就诊平均年龄28.05 ± 7.9岁,年龄最小15岁,最大54岁。痛经发病至就诊的年限最短1个月,最长为28年,平均6.03 ± 5.35年。其中小于1年14例,1~5年373例,5~10年182例,大于10年75例。
(1) 痛经患者的诊断及证型(图11~12)

Figure 11. Western medicine diagnosis of dysmenorrheal
图11. 痛经西医诊断
图11~12表明644例痛经,西医诊断为原发性痛经者占79%,继发性痛经者占17%,其他诊断占4%。中医证型拆分为单因素后,寒凝血瘀占43%,气滞血瘀占25%,气血虚弱占7%,肾气亏虚15%,湿热蕴结3%,其他7%。
(2) 痛经患者的月经情况(图13~16)
图13~14表明644例痛经病例,月经初潮年龄平均13.42 ± 1.17岁,其中11岁以下3例,11~16岁626例,16岁以上15例。月经周期20天~2年,平均31.45 ± 19.88天,标准差过大的原因是有2年这样的极端数值出现,其中21天以下占1%,21~35天占92%,35天以上占7%。
图13~14表明644例痛经病例,月经经期在1~58天之间,平均9.41 ± 3.17天,其中少于3天7例,3~7天564例,7天以上73例。月经经量有1例极少,149例量少,418例量中,73例量多,3例极多。
(3) 痛经频率和疼痛时间特点(图17~18)
图17~18表明644例痛经中,每月均痛478例,间隔一月或以上者166例。痛经最甚发生于月经第一天有377例,发生于第二天185例,第三天及以后82例。
(4) 痛经的伴随症状(图19)
图19显示痛经患者伴随症状:伴有冷汗53例,小腹冷231例,恶心呕吐202例,3头晕9例,6头痛1例,乳房胀痛97例,腹泻84例,233例无明显伴随症状。有些患者同时有几项伴随症状。
(5) 痛经患者的疼痛加重的诱因和主要缓解方式(图20~21)
图20~21显示,痛经加重的诱因:遇凉422例,遇热33例,情绪刺激70例,运动后加重9例,饭后加重2例,饥饿加重2例。疼痛加重不明显者89例。热敷可缓解者380例,止痛药可缓解者167例,无法缓解者263例。
4.2.4. 围绝经期综合征数据统计
(1) 围绝经期综合征患者的就诊年龄和主诉
366例围绝经期综合征患者,就诊平均年龄48.19 ± 3.36岁,病例年龄最小40岁,最大57岁。求诊主诉方面,单因素拆分后,51%因烘热汗出求诊,烦躁易怒占26%,失眠占16%,腰酸背痛占61%,健忘占1%。见图22~23。
(2) 围绝经期综合征患者的月经及情绪状况
图24~25显示,366例围绝经期综合征患者中,已绝经205例,未绝经161例。未绝经患者中105例月经紊乱,其中月经过多5例,月经过少44例,月经先期9例,月经后期47例;其余56例月经先后无定期。情绪状况单因素拆分后,急躁易怒者占45%,情绪良好占18%,抑郁占18%,焦虑占12%,低落占7%。
(3) 围绝经期综合征患者的伴随症状占比及证型分布情况
图26~27显示,366例围绝经期综合征患者中,伴随症状占前十位的分别为:烘热汗出、多梦、失眠、口干、盗汗、胸胁胀满、五心烦热、腰酸背痛、健忘、大便溏。中医诊断绝经前后诸证,证型经单因素拆分后,肾阴虚占76%,肾阳虚占8%,其他占16%。西医诊断中有2例合并高血压,3例合并高脂血症,3例合并骨质疏松,3例合并其他疾病。
5. 讨论
“十三五”期间国家高度重视中医药信息化工程,正在推进互联互通信息共享试点工作。面对中医药信息化面临的挑战,妇科分会中西医并重发展理念的引领下,基于云平台(杏林壹号)的建设,中国中医药信息学会妇科分会利用学会的平台资源,围绕中医妇科不孕症、痛经和围绝经期综合征3个疗效肯定的优势病种,整合全国30余家医院妇科资源,开展多层次合作,在妇科门诊临床科研系统中,收集、分析、整理挖掘和总结了1694份病历(2776诊次),其中不孕症684份病历(1122诊次),痛经644份病历(782诊次),围绝经期综合征366份病历(623诊次),初步形成了痛经、不孕症和围绝经期综合征3个优势病种的数据库,为痛经、不孕症和围绝经期综合征流行病学研究和探索中医妇科门诊临床科研真实世界提供了新的思路和途径。
NOTES
*通讯作者。