1. 引言
伴随着数字化经济发展及数字化的推进,数据素养已然成为了每位公民未来的基本技能。重要的是,根据社会的进步方向来看,基于数据驱动的预判、决断和创新正逐渐获得更广泛的接受度,因为它们具备理性特征[1]。拥有数据素养的人群将在智能化时期享有更为丰富的职业选项和成长机会,并能更好地融入社会环境。此外,就学生的日常生活中观察,随着大数据时代的快速到来,现今的社会发展越来越依赖于数据,大量数据可供无偿使用,这使得学生既可通过数据理解他们的生活,同时他们也可能变成数据的一部分。因此,我们需要使学生明白自身的成长与数据之间的关系以及它们的影响力。构建数据素养的过程是从意识层面开始,然后是知识和能力的提升,最后才是思考方式的变化。当学生正在处理数据时,他们利用数据去认知他们所在世界,培养理性思维和逻辑推理能力,同时也塑造了跨越领域解决问题的新颖能力和满足未来社会所需的生活技能。据现有研究显示,中国中学生的数据素养总体上偏低。尽管学生可以选择适当的方法搜集数据,但对于数据源头的怀疑程度、设计问卷等方面的能力却相对较弱,未能充分理解统计数据的随机性和代表性。因此,如何增强中学生对数据的理解力仍需深入探讨。
基于这个情况,本篇文章在此基础之上进一步探讨并解析相关的数据素养评估体系后,融合各个学者所提倡的数据质量评判标准和作者自身对于数字化知识水平的研究成果来构建初始的中学生数据素养评价维度:数据意识、数据知识、数据技能、数据思维、数据道德与规范。所构建的是根据现在中学生的特点设计具体的一套自评量表。
2. 中学数据素养培养的重要性
中学阶段对数据素养培养的重视可以从教育部颁布了新版的高中信息技术课程标准中的课程设置上有所体现,高中阶段将数据分析与应用、数据结构等数据要素模块纳入了必修和选修,体现了对于学生的数据使用能力培养的重视[2]。在一项以初中生为研究对象来测量他们数据素养的自我认知水平与实际测量得到的水平的对比研究中发现,学生们对自身数据素养水平的认知会比实际的水平高,他们真实的数据素养是偏低的,因此我们应当重视学生的数据素养的培养[3]。
在数字化时代,学生们要对数据有很好的掌控和应用,而不单单是数据的产生者。数据贯穿于社会之中,在社会发展的过程中以数据作为证据进行决策和创新将逐渐成为未来生活和工作的技能之一。这一趋势要求学生在应对未来社会的变化中必须掌握数据相关知识,批判性地评估所呈现的信息的有效性。
数据素养能力的具体体现还需要一些科学的测量工具帮助测量,在构建评价数据素养的测评工具中需要明确数据素养的评价模式,在这个基础上展开具体评价指标的制定[4]。
3. 研究对象与方法
3.1. 研究对象
本研究以《中学生数据素养能力测评量表》作为研究对象,以浙江某中学的七年级学生作为调查对象。
3.2. 研究方法
3.2.1. 文献研究法
本文通过CNKI和Web of Science数据库收集国内关于数据素养研究的相关文献并进行分析整理,全方位了解数据素养研究的成果与不足,为后续研究奠定基础。
3.2.2. 问卷调查法
为了检验我们设计的问题是否有效,我们将对参加此次试验的七年级班组提供一份问卷以评估其可操作性。此项研究采用了纸张形式的问卷来收集信息,并在课堂上向各班级分发并解释目的,然后要求他们独自填写。总共有6个班级参加了这次问卷活动,其中有224名学生积极响应,经过剔除异常或无用的问卷后,最终收到了219份有效的问卷。这些问卷被随机分配成两个部分,一部分是样本1 (包含了109份),主要用来做探索性的因素分析;另一部分则是样本2 (包括了110份),主要是用于确认性的因素分析。根据我们的实地考察结果,我们构建了一个关于数据素养能力的结构图及其自我评价量表,这为我们后续的数据素养教育模式的设计奠定了基础,同时也为我们未来对于数据素养水平的测试提供了参考。
3.2.3. 数理统计法
利用SPSS26.0分析回收到的数据,并进行描述性统计和项目分析等统计处理,验证性因子分析则使用AMOS26.0。
4. 数据素养能力测评量表设计
为了更准确地评估学生的数据能力,我们需要建立一个衡量学生数据能力的测试表,以实现定量化评价和分析。因此,这次测试表的设计将涵盖确定测试维度和设置特定测试题目两个步骤。
4.1. 数据素养量表维度确定
通过筛选整理以往学者的数据素养定义和内涵或能力模型,可以看到对于已有的针对中小学生的评价体系,惠恭健等人所提出的标准概括性高,覆盖的能力范围广泛,并综合分析了众多数据素养能力模型,总结了四大方面的能力,比如将其他学者提出的数据利用、数据表达和数据交流等技能类能力划分为数据技能维度[5]。然而,他们提出的能力模型尚未经过实践检验,不同阶段学生数据素养特征仍需进一步探索,以建立更科学合理的评价体系。Annika Wolf、陈娜萍等人的理论着重于对数据技能方面的评价和论述,具有较强学科针对性,但评价并不全面[6]。为了精确地设定细分指标,我们可以借鉴黄如花、邓李君、郝媛玲、周志强等人所提供的详细描述。基于此,本篇论文首先对相关的数据素质能力架构进行了探讨,然后根据惠恭健等人的学生数据素质能力框架作为基准,再融合所有研究人员提出的评估框架中的各类指标,再加上作者本人对数据素质的研究成果,从而初次构思出了这次中学生的数据素质评估维度:数据意识、数据技能、数据知识、数据技术、数据思维、数据道德与规范,数据素养的五个要素基本内容如图1所示,展示了数据素养的五个基础元素和其关键内容。
Figure 1. The 5 basic elements and core content of data literacy
图1. 数据素养的5个基本要素及其核心内容
4.2. 测评量表设计
依据前述关于数据素养维度的解读与分析,我们参考了由黄如花及王春迎提出的《信息检索》课上针对学生的数据素质评估问卷的设计内容及其具体问题后,再考虑到当前初中的实际情况来制定相应的自我评价表格。本轮设定的评分系统涵盖五大方面共计二十五道试题,使用的是李克特“五点”量表的形式,提供了从极不适合到完全适合等五个选择供考生回答,分数的高低代表着其数据素养能力的强弱程度。
5. 量表有效性检验
为了检验我们设计的问题是否有效,我们将对参加此次试验的七年级学生群体进行问卷调查以评估其可操作性。此项研究采用了纸张形式的问卷收集信息,并于课余时间内进入教室分发给他们。解释完目的之后,要求他们在限定的时间内独自填写。总共有六个班次参加了这次问卷调查,其中有224名学生参与了回答问题,剔除了一些极值或无意义的数据后,最终得到了有效的问卷共计219份。这些问卷被随机地划分为两个部分,一部分是样本1,包含109份,主要用来做初步因素分析;另一部分则是样本2,含有110份,目的是进一步确认因素分析的结果。根据实际情况的研究结果,我们构建了一个关于数据素养能力的结构模型及其自我评价量表。
5.1. 探索性因子分析
5.1.1. 可靠性分析
使用SPSS26.0数据分析工具来评估学生的数据素养能力各方面的可信度,并剔除那些经过标准化的α值超过其自身维度的α的问卷问题。依据各项的信度研究结果,我们需要移除关于数据道德和标准的第25个问题。数据素养在各个维度的信度以及标准化后的信度从题目被剔除后的整体信度系数来看,α的系数为0.935,如表1所示,范围在0.9~1.0之间。
Table 1. Reliability statistics after deleting items
表1. 删除项后的可靠性统计
Cronbach’s alpha |
项数 |
0.935 |
24 |
5.1.2. 效度分析
对已删除题目的数据素养自我评价量表进行效度检验。我们进行了关于删减问题后所产生的知识素质自我评估表格的数据有效性的研究与探讨,见表2。首要任务是通过执行“Bartlett”球形检验来检查样品中各个元素之间的直接及关联关系的相关程度是否一致或有差异。通常情况下,如果KMO指数超过了0.9则意味着此项调查十分适宜使用因子分析作为其主要的研究方法之一。当这个指标介乎0.8到0.9之间时被认为是非常合适的范围之内而低于这一标准的话就可能存在一些不足之处或者需要进一步改进的地方;若小于等于0.7那么这方面的效果就会显得较弱些甚至无法满足要求的情况也会发生[7]。因此对于大于零但又未达到上述标准的数字来说就不太适用这种方式去处理这些信息并对其做出相应的解释工作等一系列操作步骤等等。
Table 2. KMO and Bartlett inspection
表2. KMO和巴特利特检验
|
KMO取样适切性量数 |
0.879 |
巴特利特球形度检验 |
近似卡方 |
1435.056 |
自由度 |
276 |
显著性 |
0.000 |
接着执行探索性因子分析以检验调查问卷的结构效度。根据表3中所示的总方差解释来看,当特征值超过1时,累计比例达到60.87%,表明现阶段提取出的四个方面能很好地涵盖全部的数据信息。旋转后的成分矩阵(已经禁用低于0.5的系数展示)可得出每个方面的具体问题,除了那些系数低于0.5的问题:第八和第十六道题,还有关于数据知识的部分内容,最终确定了十七道题。
Table 3. Explanation table of total variance
表3. 总方差解释表
成分 |
初始特征值和方差百分比 |
提取载荷平方和方差百分比 |
旋转载荷平方和方差百分比 |
总计 |
累积% |
总计 |
累积% |
总计 |
累积% |
1 |
9.764 |
40.683 |
40.683 |
9.764 |
40.683 |
40.683 |
4.600 |
19.166 |
19.166 |
2 |
2.377 |
9.904 |
50.587 |
2.377 |
9.904 |
50.587 |
4.379 |
18.244 |
37.411 |
3 |
1.294 |
5.392 |
55.979 |
1.294 |
5.392 |
55.979 |
3.304 |
13.766 |
51.177 |
4 |
1.174 |
4.892 |
60.871 |
1.174 |
4.892 |
60.871 |
2.327 |
9.694 |
60.871 |
通过对已有的研究成果进行了深入的研究并结合了新的发现,我们已经能够明确地界定出数据素养评估指标的相关要素及问题。这个过程包括四种主要的能力:数据意识(F1)、数据技能(F2)、数据思维(F3)和数据道德与规范(F4)。这些能力被整合到我们的数据素养评估体系里,具体来说就是包含五个关于数据意识的问题、五个关于数据技能的问题、三个关于数据思维的问题以及四个关于数据道德与规范的问题,总计有十七个问题。
5.2. 验证性因子分析
5.2.1. 结构效度
我们已经进行了前述的探索性因子分析以优化问卷,接下来我们要用验证性的因子分析方法去检测其内在结构的稳固程度。我们的样本2拥有足够的题数和分项,大约是6:1的比例,超过了建议的标准(即4:1),因此我们可以使用充足的数据。借助AMOS工具,我们将采用探索性因子分析中得到的17道问题作为观察指标,而把数据素养的4个因子视为潜变量,构建了一个结构化的方程模式,并对其做了测试,具体情况参见图2。
Figure 2. Structural equation modeling diagram
图2. 结构方程模型图
对于标准化的因素负荷值来说,每个项目的相关因素负荷值皆超过了最小需求0.3,并已经到达了显著程度为70,根据上图的数据可以看到这是满足要求的[8]。通过查看表4中的所有结构方程模型的适应性指数,尽管严格地说AGFI和NFI的数值稍显不够,但仍然达成了能被接纳的标准,同时其他的参数也已达到适合的状态。所以我们可以得出这次探索性因子分析所获得的因子模型适应性优良,修改后的问卷能够用作中学生的数据素养自我评估工具。
Table 4. Overall fitting coefficient table
表4. 整体拟合系数表
拟合指标 |
拟合标准 |
检验值 |
模型适配判断 |
绝对指数 |
卡方自由度比χ2/df |
<5,模型可接受 < 3,
模型拟合得好 |
1.606 |
是 |
近似误差均方根RMSEA |
<0.1,模型可接受 <0.08,模型拟合得好 <0.06模型拟合非常好 <0.01模型拟合非常理想 |
0.075 |
是 |
拟合优度指数GFI |
>0.85,模型可接受 > 0.9,
模型拟合得好 |
0.847 |
是 |
调整的优度指数AGFI |
>0.85,模型可接受 > 0.9,
模型拟合得好 |
0.792 |
否 |
相对指数 |
标准拟合指数NFI |
>0.9,模型拟合得好 |
0.846 |
否 |
非规范拟合指数NNFI,又称TLI |
>0.9,模型拟合得好 |
0.921 |
是 |
相对拟合指数CFI |
>0.9,模型拟合得好 |
0.934 |
是 |
5.2.2. 聚敛效度
通过对聚合效应(收敛)的评估,我们可以利用AVE和CR两个参数来进行研究。当每一个因素的AVE超过0.5,同时CR超过0.7时,我们认为其具备优秀的聚合效果。根据表5的数据,可以看到F1、F2、F3这三个因素的AVE都已经超过了0.5,而且CR也达到了0.7以上。然而,F4因素的AVE是0.48,虽然小于0.5,但是非常接近这个数值,而CR却远超出0.7,因此该量表的聚合效度是值得认可的。
Table 5. Factor convergence analysis table
表5. 因子聚敛分析表
路径 |
Estimate |
P |
AVE |
CR |
Q1 |
<--- |
F1 |
0.755 |
|
0.530 |
0.848 |
Q2 |
<--- |
F1 |
0.704 |
*** |
Q3 |
<--- |
F1 |
0.597 |
*** |
Q4 |
<--- |
F1 |
0.758 |
*** |
Q5 |
<--- |
F1 |
0.807 |
*** |
Q11 |
<--- |
F2 |
0.757 |
|
0.532 |
0.849 |
Q12 |
<--- |
F2 |
0.636 |
*** |
Q13 |
<--- |
F2 |
0.68 |
*** |
Q14 |
<--- |
F2 |
0.823 |
*** |
Q15 |
<--- |
F2 |
0.738 |
*** |
Q21 |
<--- |
F4 |
0.652 |
|
0.486 |
0.790 |
Q22 |
<--- |
F4 |
0.788 |
*** |
Q23 |
<--- |
F4 |
0.63 |
*** |
Q24 |
<--- |
F4 |
0.708 |
*** |
Q18 |
<--- |
F3 |
0.626 |
|
0.771 |
0.907 |
Q19 |
<--- |
F3 |
1.007 |
*** |
Q20 |
<--- |
F3 |
0.952 |
*** |
6. 结论
通过对前述的探索性和验证性因子进行分析,我们减少了数据知识的维度。根据各研究人员的数据素养评估模型,我们发现有些模型并未涵盖数据知识的部分,而两个维度的数据知识和数据技能之间有着紧密的联系,可以将数据技能理解为数据技能的应用是对学生数据知识的一种考察,因此在一定程度上,这也反映了学生的数据知识水平。改变评估模型的维度也是合理的。因此,这将最终应用于实践研究中的数据素养测量工作。具备数据素养自我评估量表,总共包括四个部分17道题目,分别为:数据意识5题、数据技能5题、数据思维3题和数据道德与规范4题。《中学生数据素养能力测评量表》经过项目分析、探索性因子分析、验证性因素分析等步骤的检验,其内部一致性信度较高,结构效度良好。借助这个问卷,我们鼓励学生在现实问题的环境中应用他们的数据技能和技术,并利用他们专业的知识来探索相关的问题。这样有助于提高他们在识别、选择和解释周围可获得的数据方面的能力,同时也能辨别出哪些数据是正确的,并且有能力去处理这些信息。这也有助于更好地理解和使用数据,以便更加科学且高效地管理它们,进而适应时代的变迁。