统计学在国内医学领域应用趋势的文本挖掘分析
Text Mining Analysis of Trends in the Application of Statistical Methods in China’s Medical Field
DOI: 10.12677/aam.2025.1411471, PDF, HTML, XML,   
作者: 张 文, 邹晨晨*:青岛大学数学与统计学院,山东 青岛
关键词: 文本挖掘统计学医学LDA主题模型预测Text Mining Statistics Medicine LDA Topic Modeling Prediction
摘要: 本文基于CNKI医学博士学位论文,分析国内医学领域常用统计学方法的应用趋势,并结合LDA与ARIMA模型进行主题挖掘与预测。结果显示,ROC曲线分析、Logistic模型、机器学习等方法快速增长,t检验、方差分析等波动下降。LDA提取出模型评估指标、描述性统计、系统性分析、试验设计、统计检验、生存分析、回归分析、多组比较及机器学习九大主题;预测显示系统性分析、统计检验、回归分析及机器学习将持续高热度,描述性统计、多组比较下降。总体呈现“基础稳固、智能与多因素分析加速发展”特征,为医学研究统计学方法选择与规范化应用提供参考。
Abstract: Based on an analysis of medical doctoral dissertations from CNKI, this study examines trends in the application of statistical methods in China’s medical field by integrating LDA and ARIMA models for topic extraction and forecasting. The results show rapid growth in ROC curve analysis, logistic models, and machine learning, while traditional methods such as t-tests and ANOVA exhibit fluctuating declines. LDA identifies nine major topics: model evaluation metrics, descriptive statistics, systematic analysis, experimental design, statistical tests, survival analysis, regression analysis, multiple-group comparisons, and machine learning. Forecasts indicate that systematic analysis, statistical tests, regression analysis, and machine learning will remain highly active, whereas descriptive statistics and multiple-group comparisons are likely to decline. Overall, the field demonstrates “solid foundational methods alongside accelerating development in intelligent and multifactor analyses,” providing valuable guidance for the selection and standardized application of statistical methods in medical research.
文章引用:张文, 邹晨晨. 统计学在国内医学领域应用趋势的文本挖掘分析[J]. 应用数学进展, 2025, 14(11): 146-154. https://doi.org/10.12677/aam.2025.1411471

1. 引言

在当前数据驱动的医学时代,统计学在医学研究中的重要性日益凸显[1]。统计学方法在临床、流行病学与基础医学等研究均发挥着核心支撑作用[2]。在医学研究中,统计学方法不仅用于数据描述[3]和假设检验[4],更广泛地应用于临床试验设计[5]、风险预测[6]与模型构建[7]等关键环节。近年来,统计检验、生存分析、Logistic模型等统计学方法,以及机器学习、深度学习等新兴技术,逐步应用于肿瘤预后评估、基因检测解读及疾病预测模型构建等领域[8]。因此,梳理统计学在医学领域中的应用现状与发展趋势,既有助于全面了解当前医学领域研究中主流统计学方法的应用现状,也有助于识别新兴统计学方法的发展方向及其渗透路径。

随着大量医学文本数据的产生,挖掘潜在知识以支持临床决策和科研分析已成为研究的新焦点。文本挖掘作为数据挖掘在非结构化文本上的延伸,能够通过对大量文献资料的处理与分析,揭示文本的内在价值和潜在研究线索[9] [10]。隐含狄利克雷分布(Latent Dirichlet Allocation, LDA)是常用于文本挖掘的无监督机器学习方法[11],通过分析文档中的词汇共现关系,可以有效识别和刻画潜在主题结构。该模型基于三层贝叶斯概率模型,表达了文档、主题和词汇之间的相互关系[12]。目前,LDA模型已成为国内医学领域中文本挖掘与主题建模的重要方法。例如,邰杨芳等人[13]采用LDA模型分析国内临床试验管理文献,揭示质量管理与受试者权益保护两大主题及其热点演化趋势。毕秋颖[14]基于Web of Science数据库的医学文本数据,通过LDA主题模型系统挖掘了五大主流研究方向。杨启帆[15]基于Web of Science中1995~2023年埃博拉病毒相关文献,利用LDA等主题模型有效挖掘埃博拉病毒文献的研究主题和演化趋势。

基于上述背景,本文以中国知网(CNKI)收录的医学博士学位论文为研究对象,旨在揭示统计学在国内医学领域的应用现状与发展趋势。本文首先对常用统计学方法(如t检验、生存分析、机器学习等)进行描述性分析;其次,基于LDA主题模型进行统计学主题挖掘,并通过可视化呈现主题结构特征;最后,利用自回归移动平均模型(AutoRegressive Integrated Moving Average, ARIMA) [16]对统计学主题的热度进行未来三年的预测分析,以揭示不同主题的发展趋势。

2. 数据获取及预处理

本文研究的数据来源于中国知网(CNKI)博士学位论文数据库。通过Python爬虫技术,在“高级检索”功能中设定检索条件:以“临床”为主题词,限定文献类型为博士学位论文,时间范围为2004年至2023年,共获取博士论文60,156篇。

在数据预处理阶段,首先剔除摘要缺失的文献9篇,得到60,147篇具备完整摘要的文献作为初始数据集。其次,构建医学词库与统计学词库两套自定义术语体系,并对同义及异形术语进行统一化处理,以降低术语冗余和语义干扰。最后,在摘要分词过程中,采用基于医学词库的定向分词方法,设置阈值标准,剔除医学术语数量少于5个的文献,以减少语料噪声。经上述步骤处理,最终保留58,044篇文献,构建主题建模的核心语料库。

3. 结果分析

3.1. 描述性分析

为分析常用统计学方法在2004~2023年国内医学文献中的应用趋势,本文选取了12种常用统计学方法,对不同时期医学文献中各方法的使用现状进行量化分析。

这12种统计学方法在近二十年间的绝对使用数量变化趋势见图1。总体来看,多数统计学方法呈现显著增长趋势,反映出统计学方法在医学研究中的广泛应用及其日益增强的重要性。t检验作为传统假设检验的基础方法,长期保持较高使用频率;Logistic模型、Cox比例风险回归模型及方差分析等多因素分析方法的使用绝对数量持续上升,表明其在医学研究中具有稳定地位。同时,受人工智能与大数据技术推动,随机森林及机器学习方法增长迅速,体现出智能分析技术在医学领域中的加速渗透。此外,ROC曲线分析与Meta分析的使用频率稳步上升,表明医学研究者对模型评价和整合方法的重视程度不断提高。

Figure 1. Trends in the absolute number of statistical methods

1. 统计学方法的绝对数量变化

在绝对数量分析的基础上,本文分析了各统计学方法在年度医学文献总量中的相对占比,以剔除文献总量变化的影响。为分析方法的时间变化趋势,构建线性回归模型并结合回归斜率与标准误比值检验,评估各方法年度占比变化的显著性。同时引入一阶差分波动分析,评估各统计学方法在时间序列中的波动特性。基于此,将12种统计学方法划分为持续上升和波动明显两种类型,见图2

Figure 2. Relative proportion changes of statistical methods over time

2. 统计学方法的相对占比变化

图2从上至下分别展示了呈持续上升趋势和波动明显的常用统计学方法。其中10种统计学方法呈持续上升趋势,包括ROC曲线分析、Cox比例风险回归模型、Logistic模型、Meta分析以及机器学习等。这些方法在过去二十年中应用的占比不断提高,反映出医学研究越来越重视多因素分析模型、模型评估指标及智能化数据分析。这些方法的普及,表明医学研究者更注重通过数据驱动的方式揭示疾病发生机制和预测临床效果。相比之下,t检验和方差分析呈现出较大的年度占比波动。尽管这两种经典方法在早期医学研究中占据核心地位,但近年来其使用频率变化较大。这一现象可能与统计学教育重点的转移、期刊对方法创新的要求提高以及新兴建模技术的竞争等因素相关,反映出传统假设检验方法在现代医学研究体系中的角色正逐步被重新定位与优化。

3.2. LDA主题建模

本文采用Python中Scikit-learn库的LDA主题模型,基于变分推断与期望最大化(EM)算法进行参数估计,并以困惑度和一致性作为评估指标。

为确定合适的主题数量,本文绘制了统计学主题在不同主题数设定下的困惑度与一致性指标变化曲线,见图3。随着主题数的增加,困惑度呈持续下降趋势,但下降幅度逐渐趋缓,一致性指标在K = 9时达到相对峰值。综合定量指标结果与主题内容的定性评估,当K = 9时所得主题之间语义区分明显,关键词聚合合理,能够较好反映医学文献中统计学方法的主要应用方向;而当K取8或10时,部分主题出现内容交叉或语义模糊。因此本文最终确定统计学主题的最优主题数为9。

Figure 3. Perplexity and coherence curves of statistical topics

3. 统计学主题困惑度与一致性曲线图

构建统计学LDA主题模型,可视化图见图4,统计学主题词分布见表1

Table 1. Distribution of keywords in statistical topics

1. 统计学主题词分布

Topic

主题

主题最相关的词汇

1

模型评估指标

roc曲线分析 灵敏度 特异度 logistic模型 主成分分析 序列分析 变异系数 约登指数 极差 判别分析 似然比

2

描述性统计

参数 概率 直方图 平均值 峰度 回归分析 组内相关系数 百分位数 参数估计 多元线性回归分析 偏度

3

系统性分析

meta分析 定量分析 中位数 敏感性分析 贝叶斯方法 随机效应模型 定性分析 漏斗图 固定效应模型 统计量 可视化分析

4

试验设计

显著性 正交试验设计 显著性水平 随机区组设计 秩相关检验 加权分析 重复测量设计 综合评价模型 加权回归 先验概率 区间估计

5

统计检验

t检验 相关系数 标准差 pearson相关性分析 相关分析 卡方检验 方差分析 spearman秩相关分析 回归分析 单因素方差分析 计量资料

6

生存分析

cox比例风险回归模型 kaplanmeier法 多元统计分析 生存分析 单因素分析 生存曲线 logrank检验 多元线性回归分析 卡方检验 回归分析 logistic模型

7

回归分析

置信区间 logistic模型 聚类分析 列线图模型 回归分析 概率 比值比 因子分析 roc曲线分析 多元线性回归分析 风险比

8

多组比较

频率 组间比较 p值 组内比较 hardyweinberg平衡 bonferroni校正 卡方检验 分层分析 tdt检验 聚类分析 独立成分分析

9

机器学习

准确率 机器学习 深度学习 支持向量机 阳性预测值 平均值 误差 阴性预测值 神经网络 随机森林 决策树算法

Figure 4. Visualization of the statistical LDA topic model

4. 统计学LDA主题模型可视化

表1列出了统计学最重要的9个主题以及与主题最相关的词汇,对模型输出的统计学主题结构进行分析与命名。主题1模型评估指标:主要涉及ROC曲线、灵敏度、特异度等诊断评估指标,反映临床预测模型的评估性能;主题2描述性统计:主要涉及峰度、均值、偏度等基础统计量与推断方法,构成统计学分析的基础;主题3系统性分析:主要涉及Meta分析、随机效应模型等综合评价方法,用于整合不同研究结果,对临床数据进行定量合成与系统评价;主题4试验设计:主要涉及随机区组设计、重复测量设计等试验设计方法,是保证医学领域研究科学性与可靠性的环节;主题5统计检验:主要涉及t检验、卡方检验、方差分析、相关分析等常用假设检验方法,构成统计推断的核心工具;主题6生存分析:主要涉及Cox比例风险模型、Kaplan-Meier法和生存曲线等技术,聚焦于临床生存时间数据的分析;主题7回归分析:主要涉及Logistic模型、多元线性回归、因子分析及风险比等建模方法,用于探讨变量间关系、构建预测模型及评估风险比;主题8多组比较:主要涉及组间及组内比较、Bonferroni校正、分层分析等,应用于医学领域的多组数据的比较与校正;主题9机器学习:主要涉及机器学习和深度学习算法,包括支持向量机、随机森林、神经网络等,反映出在医学领域中应用现代统计与人工智能的融合趋势。

这9个主题系统地覆盖了统计学方法的基础理论、模型构建、试验设计、生存分析及机器学习方法,充分体现了统计学在国内医学领域中的应用。

3.3. 热度预测分析

本文基于ARIMA模型对统计学主题的热度进行预测分析,以绝对数量为例。在构建模型过程中,首先采用ADF单位根检验判断序列平稳性,并自动选择最小阶数d进行差分处理;其次,以AIC为准则通过网格搜索法优化ARIMA模型参数(p, d, q),并使用Ljung-Box检验进行模型残差检验。最后,利用2021~2023年的文献数据作为测试集,通过最佳参数的ARIMA模型计算MAPE以评估模型的拟合效果。预测结果见表2

Table 2. Predicted absolute quantities of statistical topics

2. 统计学主题的绝对数量预测

主题

ADF

检验p

模型参数

(p, d, q)

L-B

检验p

MAPE

预测结果

2024

2025

2026

模型评估指标

<0.01

(1, 1, 3)

0.936

0.148

215.37↓

202.53↓

211.71↑

描述性统计

<0.01

(0, 1, 3)

0.567

0.164

290.43↓

281.51↓

251.67↓

系统性分析

<0.01

(0, 2, 3)

0.332

0.143

336.09↑

342.78↑

364.83↑

试验设计

<0.01

(0, 1, 3)

0.790

0.434

135.13↓

107.58↓

122.82↑

统计检验

<0.01

(2, 0, 3)

0.782

0.145

374.92↑

363.89↓

336.85↓

生存分析

<0.01

(0, 3, 3)

0.608

0.173

408.00↑

350.94↓

286.09↓

回归分析

<0.01

(1, 1, 3)

0.822

0.337

709.16↑

645.20↓

685.44↑

多组比较

0.023

(1, 1, 3)

0.347

0.240

196.88↓

155.17↓

109.10↓

机器学习

<0.01

(1, 1, 3)

0.787

0.181

390.49↑

398.64↑

395.14↓

表2可知,ADF检验p值均小于0.05,说明差分后序列是平稳的。Ljung-Box检验均大于0.05,说明模型残差序列无自相关性。MAPE指标说明各主题预测误差整体较低,模型的拟合效果较好。根据预测结果显示,系统性分析、统计检验、回归分析与机器学习主题在未来三年保持较高水平,表明整合分析、假设检验、多因素分析建模及智能算法在医学领域研究中的持续应用趋势。相比之下,描述性统计与多组比较主题呈下降趋势,反映出这些传统方法在复杂研究设计中的应用逐渐被更为先进的统计学方法所取代。生存分析和试验设计主题表现出明显波动,反映出临床生存分析及试验设计方法的应用可能受研究类型的影响较大。

由此可见,国内医学文献中统计学方法的发展呈现“两极化”特征:基础性方法依然发挥支撑作用,而系统性分析、回归分析和机器学习等新兴方法逐步成为研究热点。趋势预测结果显示,这一变化与精准医学、循证医学及人工智能驱动的大数据分析方向高度契合,为后续研究方法的选择与优化提供了数据支撑。

4. 结论

本文研究基于中国知网(CNKI)博士学位论文,运用LDA主题模型对国内医学领域统计学方法进行主题挖掘,并结合ARIMA时间序列模型对其未来三年热度进行预测。结果揭示了统计学方法由传统工具向智能化、多因素分析加速演进的趋势,呈现“基础稳固、新兴方法快速发展”的两极化格局。这一趋势反映了国内医学研究方法体系与精准医学、循证医学及数据驱动研究范式的深度融合。研究成果不仅为医学研究者在复杂研究设计中科学选用统计学方法提供了量化依据,也为推动统计学方法在国内医学领域的规范化、精准化应用提供了参考路径。

本文的不足之处在于数据来源为中国知网收录的医学博士学位论文摘要,虽然能够较好反映中国顶尖医学学术训练与研究的方向,但并不完全代表整个国内医学研究领域的全貌。未来研究可进一步整合期刊论文、项目报告等多源异质数据,以更全面地揭示统计学方法在不同层级医学研究中的应用。同时,不同医学领域可能在统计学方法的应用上存在差异,后续将进一步开展对子领域层面的分析,例如针对肿瘤学、心血管病学等领域的独立研究,以揭示统计学方法应用的领域异质性。

NOTES

*通讯作者。

参考文献

[1] Sarma, K.V.S., Mohan, A. and Vedururu, S.S. (2022) Statistical Methods in Clinical Studies: An Overview. Journal of Clinical and Scientific Research, 11, 34-39. [Google Scholar] [CrossRef
[2] Röhrig, B., Prel, J.D., Wachtlin, D. and Blettner, M. (2009) Types of Study in Medical Research: Part 3 of a Series on Evaluation of Scientific Publications. Deutsches Ärzteblatt International, 106, 262-268. [Google Scholar] [CrossRef] [PubMed]
[3] Whitley, E. and Ball, J. (2002) Statistics Review 1: Presenting and Summarising Data. Critical Care, 6, 66-71. [Google Scholar] [CrossRef] [PubMed]
[4] Pocock, S.J., McMurray, J.J.V. and Collier, T.J. (2015) Making Sense of Statistics in Clinical Trial Reports: Part 1 of a 4-Part Series on Statistics for Clinical Trials. Journal of the American College of Cardiology, 66, 2536-2549. [Google Scholar] [CrossRef] [PubMed]
[5] Guo, B. and Zhang, R. (2018) Statistical Methods for Clinical Trial Designs in the New Era of Cancer Treatment. Biostatistics and Biometrics Open Access Journal, 5, Article ID: 555665. [Google Scholar] [CrossRef
[6] Feng, Y., Wang, A.Y., Jun, M., Pu, L., Weisbord, S.D., Bellomo, R., et al. (2023) Characterization of Risk Prediction Models for Acute Kidney Injury: A Systematic Review and Meta-Analysis. JAMA Network Open, 6, e2313359. [Google Scholar] [CrossRef] [PubMed]
[7] Henley, S.S., Golden, R.M. and Kashner, T.M. (2019) Statistical Modeling Methods: Challenges and Strategies. Biostatistics & Epidemiology, 4, 105-139. [Google Scholar] [CrossRef
[8] 王敏, 解智鹏, 王心怡, 等. 临床研究中统计学方法的应用趋势分析——以四大医学期刊为例[J]. 中国卫生统计, 2025, 42(2): 244-247.
[9] 袁军鹏, 朱东华, 李毅, 等. 文本挖掘技术研究进展[J]. 计算机应用研究, 2006(2): 1-4.
[10] 戚云霞. 中文文本挖掘技术的研究与应用[D]: [硕士学位论文]. 西安: 西安电子科技大学, 2014.
[11] 李航. 统计学习方法[M]. 北京: 清华大学出版社, 2012: 391.
[12] Blei, D.M., Ng, A.Y. and Jordan, M.I. (2003) Latent Dirichlet Allocation. Journal of Machine Learning Research, 3, 993-1022.
[13] 邰杨芳, 陈扬嫒, 郭樱, 等. 基于潜在狄利克雷分布模型的我国临床试验管理研究热点及其演化分析[J]. 现代预防医学, 2022, 49(9): 1712-1719.
[14] 毕秋颖. 半监督相关医学文献的文本主题聚类分析[D]: [硕士学位论文]. 兰州: 兰州大学, 2023.
[15] 杨启帆. 基于主题模型与文献计量的埃博拉病毒文献研究[D]: [硕士学位论文]. 北京: 军事科学院, 2024.
[16] 岳丽欣, 周晓英, 陈旖旎. 基于ARIMA模型的信息构建研究主题趋势预测研究[J]. 图书情报知识, 2019(5): 54-63+72.