1. 引言
自2020年生成式人工智能(AI)发展以来,它在医学教育、培训和先进的医疗实践中发挥了重要作用。一些学者探索了使用生成式人工智能来解释数据和医学图像[1] [2];还有学者采用不同国家的医疗执照考试来评估生成式人工智能是否有可能达到医生的资格要求水平[3]-[6]。此外,一些学者对生成式人工智能(如ChatGPT)作为数据分析工具的效用进行了研究,然而研究结论不一致[7]-[10]。DeepSeek是生成式人工智能的一种,由于它“低成本高效率”以及在一众能力相等模型中率先开源,对人工智能的资本支出以及在其他行业的更广泛应用都产生了深远影响[11],成为新一代人工智能技术的代表。本研究将比较当前火热的大语言模型DeepSeek与传统统计分析软件SPSS的数据分析能力,为DeepSeek应用于统计分析领域提供参考。
2. 对象与方法
2.1. 研究对象
本研究采用的验证数据集由某一健康素养数据集的部分原始数据经过预处理后得到。原始数据集共100条观测,包含12个职业健康素养测试判断题的实际答案、调查时间、出生年月、性别、文化程度和平均月收入等17个变量。数据预处理包括以下三个步骤:① 根据调查时间、出生年月计算年龄;② 判断实际答案是否正确,每答对一题得一分,答错不得分,先计算每一题的得分再计算总分;③ 根据公式正确率 = 总分/12,判断是否具备职业健康素养,正确率 ≥ 80%即为具备职业健康素养。最后的验证数据集由12个职业健康素养测试判断题得分、总分、是否具备职业健康素养、年龄、性别、文化程度和平均月收入等18个变量构成,其中年龄和总分为连续变量,性别和是否具备职业健康素养为二分类变量、文化程度为无序多分类变量,平均月收入为有序多分类变量。研究的内容为了解DeepSeek与SPSS在数据预处理、统计描述、假设检验、回归分析、高级分析的完成情况。
2.2. 研究方法
本研究使用Microsoft Edge浏览器网页访问DeepSeek官网开展对话。首先上传csv文件格式的附件,采用结构化提问公式进行提问:“提取附件中的数据表格,命名为TAB1,” + 统计分析需求 + “以表格的方式输出分析结果”。同时,使用SPSS 26软件进行分析,该软件为菜单式操作。比较两种方式的分析结果是否准确和一致。
2.3. 统计学方法
定量资料采用平均值、标准差、最小值、四分位数、最大值、观察值数进行统计描述;定性资料采用频数进行统计描述。采用卡方检验和Logistic回归分析探索两种方式完成假设检验和回归分析的能力;高级分析选择因子分析方法,对12个职业健康素养测试题得分采用主成分分析方法提取公因子,并采用最大方差法进行旋转。显著性水平为0.05。
3. 结果
3.1. 数据预处理与统计描述
分别运用DeepSeek和SPSS软件对原始数据集执行预处理的三个步骤后,由于DeepSeek不能输出文件,也不能完整展示处理后的数据集,故采用统计描述的方法来判断两种方式进行预处理后的数据是否一致。结果发现两种方式进行预处理后的数据几乎不一致,定量资料的具体差异见表1,定性资料的具体差异见表2,表明DeepSeek在数据预处理方面的准确性较差,后续的统计分析将以SPSS软件处理过的数据集作为验证数据集进行。
分别用DeepSeek和SPSS软件对验证数据集进行统计描述,发现两种方式的分析结果几乎不一致,定量资料的具体差异见表1,定性资料的具体差异见表2,表明DeepSeek在对数据进行统计描述时的准确性较差,尤其是定性资料的频数统计方面。
Table 1. Table of statistical descriptive results of quantitative variables
表1. 定量变量的统计描述结果表
变量 |
平均值 |
标准差 |
P0 |
P25 |
P50 |
P75 |
P100 |
观察值数 |
SPSS对原始数据集预处理后 |
年龄 |
39.1 |
9.1 |
23 |
32 |
39.5 |
46.8 |
58 |
100 |
总分 |
9.9 |
1.5 |
5 |
9 |
10 |
11 |
12 |
100 |
DeepSeek对原始数据集预处理后 |
年龄 |
39.3 |
9.6 |
23 |
32 |
39 |
46 |
58 |
100 |
总分 |
9.4 |
1.8 |
4 |
8 |
10 |
11 |
12 |
100 |
DeepSeek对验证数据集 |
年龄 |
38.4 |
9.1 |
23 |
32 |
38 |
44 |
58 |
100 |
总分 |
9.8 |
1.5 |
5 |
9 |
10 |
11 |
12 |
100 |
Table 2. Table of statistical descriptive results of qualitative variables
表2. 定性变量的统计描述结果表
变量 |
SPSS |
DeepSeeka |
DeepSeekb |
变量 |
SPSS |
DeepSeeka |
DeepSeekb |
职业健康素养 |
|
|
|
性别 |
|
|
|
具备 |
60 |
53 |
67 |
男 |
89 |
81 |
76 |
不具备 |
40 |
47 |
33 |
女 |
11 |
19 |
24 |
文化程度 |
|
|
|
平均月收入 |
|
|
|
不识字/识字很少 |
3 |
4 |
4 |
少于3000元 |
10 |
10 |
8 |
小学 |
5 |
10 |
8 |
3000~4999元 |
55 |
56 |
51 |
初中 |
33 |
36 |
34 |
5000~6999元 |
19 |
16 |
17 |
高中/职高/中专 |
35 |
30 |
27 |
7000~8999元 |
7 |
9 |
9 |
大专 |
12 |
12 |
14 |
9000~10,999元 |
2 |
4 |
6 |
大学本科 |
12 |
8 |
13 |
11,000元及以上 |
7 |
5 |
9 |
注:a DeepSeek对原始数据集预处理后的数据进行统计描述;b DeepSeek对验证数据集进行统计描述。
3.2. 假设检验
分别运用DeepSeek和SPSS软件对验证数据集进行卡方检验,分析不同性别、文化程度、平均月收入对职业健康素养的单独影响。两种方式得出了不同的结论,DeepSeek的结果表明性别、文化程度、平均月收入均对职业健康素养无显著性影响(p > 0.05);SPSS软件的结果表明性别对职业健康素养无显著性影响(p > 0.05),而文化程度、平均月收入均对职业健康素养有显著性影响(p < 0.05),两种方式分析结果的具体差异见表3。因此,运用DeepSeek进行假设检验,得到的结果不太可靠。
Table 3. Table of results of single factor analysis
表3. 单因素分析结果表
变量 |
OHL = 0 |
OHL = 1 |
χ2 |
p |
OHL = 0 |
OHL = 1 |
χ2 |
p |
性别 |
|
|
0.56 |
0.454 |
|
|
0.15 |
0.695 |
男 |
24 |
52 |
|
|
35 |
54 |
|
|
女 |
9 |
15 |
|
|
5 |
6 |
|
|
文化程度 |
|
|
10.02 |
0.075 |
|
|
17.12 |
0.004 |
不识字/识字很少 |
2 |
2 |
|
|
2 |
1 |
|
|
小学 |
4 |
4 |
|
|
5 |
0 |
|
|
初中 |
15 |
19 |
|
|
16 |
17 |
|
|
高中/职高/中专 |
6 |
21 |
|
|
14 |
21 |
|
|
大专 |
3 |
11 |
|
|
1 |
11 |
|
|
大学本科 |
3 |
10 |
|
|
2 |
10 |
|
|
平均月收入 |
|
|
5.20 |
0.391 |
|
|
8.46 |
0.004 |
少于3000元 |
4 |
4 |
|
|
6 |
4 |
|
|
3000~4999元 |
15 |
36 |
|
|
27 |
28 |
|
|
5000~6999元 |
5 |
12 |
|
|
5 |
14 |
|
|
7000~8999元 |
4 |
5 |
|
|
1 |
6 |
|
|
9000~10,999元 |
2 |
4 |
|
|
0 |
2 |
|
|
11,000元及以上 |
3 |
6 |
|
|
1 |
6 |
|
|
注:OHL = 0表示不具备职业健康素养,OHL = 1表示具备职业健康素养;第2~5列为DeepSeek分析结果,第6~9列为SPSS分析结果。
3.3. 回归分析
分别运用DeepSeek和SPSS软件对验证数据集进行Logistic回归分析,分析不同性别、文化程度、平均月收入对职业健康素养的共同影响。首先对分类变量进行编码,见表4。虽然两种方式的分析结果完全不相同,但得出了相同的结论:年龄、性别、文化程度、平均月收入均对职业健康素养无显著性影响(p > 0.05),两种方式分析结果的具体差异见表5。两种方式建立的Logistic回归模型的模型摘要显示,DeepSeek的模型预测准确率为67%,SPSS的模型预测准确率为71%。因此,与SPSS软件相比,DeepSeek建立的Logistic回归模型预测准确率稍差。
Table 4. Variable assignment table
表4. 变量赋值表
变量 |
变量取值 |
变量赋值 |
是否具备职业健康素养 |
否 |
0 |
|
时 |
1 |
性别 |
男 |
0 |
|
女 |
1 |
文化程度 |
不识字/识字很少 |
(0, 0, 0, 0, 0) |
|
小学 |
(1, 0, 0, 0, 0) |
|
初中 |
(0, 1, 0, 0, 0) |
|
高中/职高/中专 |
(0, 0, 1, 0, 0) |
|
大专 |
(0, 0, 0, 1, 0) |
|
大学本科 |
(0, 0, 0, 0, 1) |
Table 5. Table of results of multifactor analysis
表5. 多因素分析结果表
变量 |
类别 |
β系数 |
Wald χ² |
p |
OR |
95%CI |
DeepSeek |
常量 |
|
−0.892 |
0.300 |
0.584 |
|
|
性别 |
男 |
|
|
|
|
|
|
女 |
−0.213 |
0.216 |
0.642 |
0.81 |
0.33~1.99 |
文化程度 |
不识字/识字很少 |
|
|
|
|
|
|
小学 |
0.402 |
0.127 |
0.721 |
1.49 |
0.16~13.69 |
|
初中 |
0.831 |
0.659 |
0.417 |
2.30 |
0.31~17.09 |
|
高中/职高/中专 |
1.483 |
1.988 |
0.159 |
4.41 |
0.56~34.59 |
|
大专 |
1.534 |
1.884 |
0.170 |
4.64 |
0.52~41.41 |
|
大学本科 |
1.569 |
1.934 |
0.164 |
4.80 |
0.53~43.78 |
平均月收入 |
|
0.102 |
0.624 |
0.430 |
1.11 |
0.86~1.43 |
年龄 |
|
0.021 |
1.071 |
0.301 |
1.02 |
0.98~1.06 |
SPSS软件 |
常量 |
|
−1.056 |
0.439 |
0.508 |
0.35 |
|
性别 |
男 |
|
|
|
|
|
|
女 |
−0.483 |
0.449 |
0.503 |
0.62 |
0.15~2.54 |
文化程度 |
不识字/识字很少 |
|
4.381 |
0.496 |
|
|
|
小学 |
−19.972 |
0.000 |
0.999 |
0.00 |
|
|
初中 |
1.075 |
0.584 |
0.445 |
2.93 |
0.19~46.05 |
|
高中/职高/中专 |
1.246 |
0.852 |
0.356 |
3.47 |
0.25~48.95 |
|
大专 |
3.129 |
3.402 |
0.065 |
22.85 |
0.82~635.13 |
|
大学本科 |
1.676 |
1.09 |
0.296 |
5.34 |
0.23~124.24 |
平均月收入 |
|
0.363 |
1.732 |
0.188 |
1.44 |
0.84~2.47 |
年龄 |
|
−0.015 |
0.285 |
0.594 |
0.98 |
0.93~1.04 |
3.4. 因子分析
对12个测试题的得分进行因子分析。DeepSeek分析结果显示,KMO值为0.823,Bartlett球形检验卡方值为542.37,p < 0.001,得出数据适合进行因子分析的结论;SPSS软件的分析结果显示,KMO值为0.539,Bartlett球形检验卡方值为265.402,p < 0.001,表明数据勉强适合进行因子分析。采用主成分分析方法初步提取公因子,DeepSeek结果显示,所有变量的共同度均大于0.5,说明提取的公因子能较好地解释原始变量,并提取2个公因子,累计解释方差为57.13%,尚未达到60%,表明未充分提取数据中的信息;SPSS软件结果显示,除第10题外的所有变量的共同度均大于0.5,说明提取的公因子能较好地解释原始变量,并提取5个公因子,累计解释方差为67.84%。经过最大方差法旋转后的成分矩阵见表6。因此,与SPSS软件相比,DeepSeek进行因子分析的能力较差。
Table 6. Component matrix after rotation
表6. 旋转后的成分矩阵
变量 |
公因子1 |
公因子2 |
公因子1 |
公因子2 |
公因子3 |
公因子4 |
公因子5 |
第1题 |
0.742 |
|
|
0.786 |
|
|
|
第2题 |
0.813 |
|
|
0.848 |
|
|
|
第3题 |
|
0.752 |
|
0.673 |
|
|
|
第4题 |
0.792 |
|
|
|
|
0.876 |
|
第5题 |
|
0.712 |
|
|
|
0.731 |
|
第6题 |
0.821 |
|
|
|
|
|
0.944 |
第7题 |
0.843 |
|
0.675 |
|
|
|
|
第8题 |
0.819 |
|
0.702 |
|
|
|
|
第9题 |
|
0.752 |
|
|
0.569 |
|
|
第10题 |
0.812 |
|
|
|
0.759 |
|
|
第11题 |
0.851 |
|
|
|
0.735 |
|
|
第12题 |
|
0.761 |
|
|
|
0.486 |
|
注:第2和3列为DeepSeek分析结果,第4~8列为SPSS分析结果。
4. 讨论
在大数据时代,选择合适的分析工具对数据进行挖掘和统计分析至关重要。本研究旨在比较新兴AI分析工具DeepSeek与传统专业统计软件SPSS在数据预处理和统计分析方面的性能差异。分别用两种工具对同一数据集进行系统验证,发现DeepSeek数据处理和统计分析的结果缺乏准确性。这可能是因为DeepSeek的算法实现与SPSS这类专业统计软件存在本质差异,SPSS采用经过数十年验证的经典统计算法实现,每一步计算都遵循严格的数值分析原则。而DeepSeek可能采用了某些近似计算方法以提高处理速度,这在简单分析中可能差异不大,但在复杂模型或多步骤分析中误差将越来越大。数据预处理流程的透明度问题也是导致DeepSeek某些分析结果不准确的原因之一。数据预处理是统计分析的关键环节,SPSS提供了完全透明且可自定义的预处理流程;然而,DeepSeek的预处理操作则像“黑箱”,用户难以明确知道缺失值处理、异常值检测和数据转换编码的具体情况。在对原始数据集验证中,DeepSeek处理后具备职业健康素养的比例为53%与SPSS用户指定处理的结果(60%)存在差异,误差超过10%,表明DeepSeek的预处理结果不可靠。对同一验证数据集分析,在基础统计量计算方面,两种工具在定量资料上表现相对接近,均值、标准差等基本指标误差不超过2%,说明DeepSeek在简单计算上是可靠的。然而,在定性资料的描述中,DeepSeek报告的频数与SPSS结果差异较大,将影响卡方检验的结果可靠性。事实上,DeepSeek输出的卡方检验结果确实不可靠,并未发现受教育程度、平均月收入与职业健康素养的显著影响。在Logistic回归分析中,DeepSeeK的模型预测准确率为67%,低于SPSS的模型预测准确率(71%)。在因子分析中,DeepSeek虽然能完整地输出因子分析的各个部分结果,但结果与SPSS软件的结果相差甚远,并且DeepSeek提取的公因子的累计解释方差未达到60%,表明DeepSeek在进行高级分析(如因子分析)的可靠性较差。本研究的实证结果与一项探索生成式AI应用于政府统计服务的理论研究结论几乎不一致[12],可能是由于DeepSeek等大模型的适用边界不同[13]。
专业统计软件SPSS的分析过程可控且结果可解释,用户能对每个分析步骤逐步进行验证;而DeepSeek的自动化处理虽然便捷,但缺乏透明度,分析过程不可控,用户不能对每个分析步骤的结果进行验证。此外,生成式AI复杂的工作原理使用户难以直接理解、解释模型的决策与推理过程,DeepSeek的低可解释性最终导致用户难以证明结果的可靠性和可信度[12]。因此,建议DeepSeek开发者提供分析方法的详细文档和计算步骤说明,或者通过可视化技术呈现算法推理路径以解决算法透明度问题,并提供中间结果输出,允许用户检查预处理和模型拟合的中间步骤;同时引入专业统计验证以确保核心算法的准确性。通过输出中间结果,用户及时发现并解决问题;或者开发者对中间结果分析如特征归因、梯度监控等优化模型,可能会提高分析结果的准确性和可信度。
综上所述,虽然DeepSeek在易用性和可访问性方面具有优势,但在分析结果准确性上与传统专业软件SPSS仍存在明显差距。这种差距在基础统计分析中可能影响较小,但在构建复杂模型和精确推断时可能导致实质性偏差。若未来DeepSeek能通过改进算法和进行专业验证不断提升分析结果的准确性,同时保持易用性,平衡便捷性与专业性的关系,DeepSeek将有望成为可靠且实用的统计分析工具。
基金项目
重庆市教育科学规划课题2024年度教学改革研究专项重点课题,新时代家校社协同的学生健康素养提升路径研究,课题编号:K24ZG2040059。
NOTES
*通讯作者。