1. 引言
当前计算机领域人工智能的发展正在从弱人工智能开始走向强人工智能,统计学将在人工智能发展中尤其是大数据分析和智能辅助决断中发挥越来越大的作用,其智能推理和决断都越来越依靠大量的数据统计,包括保险精算师等更是依赖统计而活。这就要求计算机专业尤其是人工智能或大数据方向的学生对统计思想要有更深刻的理解,具备更高的数据统计分析和解释能力。统计课程成为人工智能或大数据专业学生的重要基础课程,同时作为一种广泛使用的统计方法和理论,几乎所有科技领域、工农业生产领域及国民经济各部门中都会涉及更多的数据统计。因此成为各专业、各学科发展的重要基础。统计学的诞生和发展适应了社会科学向数学化、综合化发展趋势 [1] ,在教育研究中的地位越来越重要 [2] ,但是对于教师和学生来讲,计算数据特征量并非易事 [3] 。当代学者提出了和统计软件结合的观点,建议把注意力放到对问题的讨论、分析和评价以及对统计结果实际意义的理解上,从而更好地促进教学 [4] [5] [6] 。然而,由于对统计软件的适用性把握不够导致提及统计软件就是SPSS等专业统计软件,反而忽视了更具应用性的Excel工具。专业统计软件的功能固然强大,但使用者需接受专门的培训,入门难度大。虽然Excel提供的统计分析功能比不上专业统计软件更强大,但它比专业统计软件简单,对学生而言,其统计功能已能够满足需要 [7] 。实际上,普通统计学教材多数可以结合Excel来学习,而教育统计学的教学只考虑从SPSS等专业统计软件入手,不利于教学效果的提升 [4] 。
一般统计学分为描述统计、推断统计和实验统计三部分,本研究主要面向描述统计教学开展,描述统计作为重要工具已应用在各个方面 [8] ,描述统计和统计软件的结合成为学者考虑的一个问题 [9] ,然而经文献调研,描述统计与统计软件的结合研究、描述统计模型研究均较为缺乏,其中仅杨克瑞 [4] 提及教育统计学要与电脑软件结合。教育统计学教学的需要与现有教育统计教学模型研究的不足形成了一对矛盾,严重制约着教育统计学有效教学的开展。
为了解决这个矛盾,在教育统计学方面出版了多本教材,然而其内容雷同,丰富的教材供给并没有解决教育统计学教学的实际需要。因此突出教育统计在管理工作中的针对性与应用性,在统计标准的对比中确定数据统计学意义,应是教育统计学教学改革的基本方向 [4] 。顺应此基本方向,本文尝试提出ECSDS (Excel-based Cognitive System of Descriptive Statistics),以期解决长期以来统计学教学难的问题,希望师生利用此教学认知系统有效化解统计难点、突出重点、增进对数据统计学意义的理解,进而有效提高统计学教学效果和应用水平。
2. ECSDS的设计
2.1. ECSDS的提出
迎合当前统计学和统计软件结合发展的趋势,为了解决教育统计学长期以来教学难的问题,本文提出了ECSDS。该模型采用了简单易用的Excel软件作为统计软件,将教育统计学的学习与应用和Excel结合起来,利用Excel化解难点、突出统计场景的甄别和数据的统计意义阐释,简化教学计算量,提高教学质量,使知识的学习和应用同步进行。它可以有效校正学生学习教育统计学的误区,将师生从大量计算中解脱出来,突出教育统计学真正的学习目的在于学会教育统计学的应用,而要想学会应用,学习的重点要从计算转移到教育统计应用场景的甄别和教育统计方法的选择以及数据的统计意义阐释的正确轨道上。这个意义是巨大的,它有效降低了学习应用教育统计学的难度,使得教育统计学易学好用,因此势必扩展教育统计学的应用,例如最为庞大的基层教师群体,极少懂得教育统计学知识 [5] ,而教育统计学对于教学有着重要意义,对于大多数从事基础教育的教师而言,他们大多数没有受到过专门的教育统计学知识的培训,而由于时间、物质等方面的原因他们不能像学生一样在老师的带领下学习教育统计学的专业知识。ECSDS可以满足零基础学习者的需求,成为这些初学者的学习工具,让这些学习者更加容易地掌握教育统计学的知识。同时,ECSDS也可以在一定程度上应用于日常的教学数据处理,它没有复杂的操作,只需在ECSDS中输入原始数据和参数就可得到结果。ECSDS既可以用于教师的自学,也可以在日常教学中处理部分统计工作。因此,ECSDS (Excel-based Cognitive System of Descriptive Statistics)的提出,为彻底解决教育统计学教学难的问题指明了方向,迎合了教育统计学的教学和发展需求,适应了社会科学向数学化、综合化的发展趋势。
2.2. ECSDS的功能设计
如图1所示,ECSDS功能结构最关键的三个功能是分析确定ECSDS统计情境、依托ECSDS处理数据、ECSDS阐明数据结果意义。其中计算量最大的数据处理环节由ECSDS自动给出,从而将师生花费时间的重点从计算转移到对统计情境的识别、对应统计方法的选择和统计结果数据的释义上来,有效提高学生的统计应用能力。需要说明的是,ECSDS同时内置了各类分布值,如Z分布或t分布等,原来在教材附表中所有查询值均可通过此模型自动获得,这是ECSDS自动统计决断的基础。
Figure 1. Schematic diagram of functional structure design of ECSDS
图1. ECSDS功能结构设计示意图
2.3. ECSDS的数据操作原理
ECSDS是利用Excel来进行描述统计的一款模型,其数据操作原理在于它充分利用了Excel的函数统计功能,来进行数据的处理。ECSDS是通过收集分析原始数据和参数来得出结果,首先是统计情境的分析和确定,之后进行相应统计量指标及统计方法的选择,统计量指标及统计方法选定后,就可以输入数据,在ECSDS中输入原始数据和相应参数后,ECSDS会自动输出基于这些原始数据和参数的统计量的具体结果数值,其统计量对应的统计意义同时在旁边列出,学习者可根据相应统计量释义来具体阐释对应数据的统计意义。比如:算术平均数、中位数、众数、百分位数、几何平均数、调和平均数等。
3. ECSDS的实现
3.1. ECSDS的系统功能
ECSDS主要应用于教育统计学的辅助教学,其系统功能主要有:1) ECSDS包括教育统计学描述统计中各类统计情境,针对每类统计情境均有阐释说明功能,主要方便学习者了解不同的统计情境,方便学习者辨析类似统计情境的区别,以便采用不同的统计方法,为师生始终采用相同数据案例进行不同统计提供了方便。2) ECSDS针对各类不同的统计情境和需求,内置相应的统计方法,并实现了自动计算功能,可以有效的将师生从大数据量的计算中解脱出来。3) ECSDS针对每类数据统计结果具备自动释义功能,它可以对内置各类统计量进行具体释义,从而辅助师生有效进行数据统计意义的正确说明,从而提高师生统计应用能力。4) ECSDS具备初步的自动统计决断能力,在统计结果输出后,无需查询纸质的各类附表,如Z值或t值等,即可自动根据模型内置的各类附表值,自动进行相应查询并比较,进而得出统计决断结论。5) 使学习与实践相结合,可在一定基础上实现即时反馈,针对所讲内容及时练习,可以把所讲例题在模型中进行运算操作,输入题中数据和参数,则模型自动产出相关数据和释义。可用于自动评判。总之,ECSDS系统功能的充分应用有利于学习者的个别化针对性学习,必将提高教育统计学教学质量,为教育统计学的推广应用打下基础。
3.2. ECSDS的关键技术
3.2.1. 统计参数关系释义设计
说明,图2中的R表示全距又称极差,指一组数据中最大值与最小值之差。QD表示四分位距,是指用依一定顺序排列(必须是从小到大排列的数据)的一组数据中间部位50%个频数距离的一半作为差异量指标。MD表示平均差,也称平均绝对离差,是各变量值与其平均数离差绝对值的平均数,是指每一个数据与该组数据的中位数(或算术平均数)离差的绝对值的算术平均数。
本模型随着用户的原始数据及参数的输入,将自动给出所有可以得出的统计结果。每输入一组数据和参数,则模型会马上与前面的数据或参数进行综合,进而得到所有输入数据或参数的结果,并对这些结果进行释义,让学生明白这些结果的含义。这些统计结果可以让学生进行统计结论判定的辅助练习,针对每种统计结果,自动给出相应统计量的具体释义。
所以,统计参数的输入界面非常重要。
例如:当输入一组数据及一级相关参数时,会产生原始数据可以直接得到的统计量,并给出相关释义,如这组数据的个数、这组数据的调和平均数、几何平均数、标准差、方差、算术平均数、众数、中位数、百分位数等统计量。然后当输入二级相关参数,可以得到这组数据的一级相关参数统计量、原始数据以及其他数据结合可以得到的数据,并给出相关释义,如这组数据的加权平均数、离差平方和、差异系数等。
Figure 2. The explanatory design of partial statistical parametric relationship
图2. 统计参数关系部分释义设计图
3.2.2. 统计结论自动判定技术
原来的统计结论的判定往往需要计算统计数值后进行查表,而直接使用本文技术则无需进行查表,可以直接给出对应的查表值,因此使得统计结论的自动判定成为可能。例如,平均数显著性差异的自动判定流程如图3所示。
当输入原始数据及参数后,ECSDS则会自动生成该数据的平均数以及标准差、标准Z分数等统计量,在一定条件下可以自动进行显著性水平推断,此时将先确定分布类型属于Z分布还是t分布等,假如参数满足Z分布双侧检验,再进行是否符合0.05显著性水平的判断,如果判断为“否”,则输出“无显著差异”的结论;如果判断为“是”则继续进行是否符合0.01显著性水平的判断,如果判断为“否”则输出“有显著性差异 * 但无极其显著性差异**”;如果判断为“是”则输出“有极其显著性差异**”。对比原来的需要纸质查表后才能进行比较,新提出的ECSDS进一步省略了师生的单调劳动,让师生将更多的时间集中到统计情境的洞察和统计结果的释义中来,有效提供教育统计的实际应用水平。其它自动计算流程如平均数置信区间等限于篇幅不再列出。
3.3. ECSDS的应用示例
为了具体论述ECSDS的应用,图4给出应用示例及相关界面。
示例说明:其中“原始数据一”下输入数据及相关参数,然后在左侧“统计量值”中产生出对应左侧“统计量名称”的值,同时在“统计释义例子”下自动产生相对应统计量释义。如:“原始数据一”下输入了“3、4、6、6、8、9、8、6”数据及相关参数。“统计量值”下在相对应左侧“统计量名称”为“算术平均数”的位置上生成数字“6.25”,同时,在“统计释义例子”下相对应左侧“统计量名称”为“算术平均数”的位置上生成“假设右侧原始数据为分数,则他们的平均分为6.25,它表示了数据集中趋势”的释义;“统计量值”下在相对应左侧“统计量名称”为“方差”的位置上生成数字“3.6875”,同时,在“统计释义例子”下相对应左侧“统计量名称”为“方差”的位置上生成“假设右侧原始数据为分数,则他们每人的分数与平均分之差的平方和的均值为3.6875,它表示了数据的离散程度”的释义。在本实例中,原始数据使用了8个,实际上,本模型对于模型处理的数据容量并没有限制,只要在Excel许可范围内都是可以的,Excel 2007版本及以上支持的最大列数为16,384,因此本模型单行最大容量为16,381个数据。由于原始数据区共9行(下一版本模型将提供更多行数),模型数据最大容量为16,381X9 = 147,429个。模型到底使用多少数据量需要根据大小样本来确定,样本数量不同,根据统计规律,其分布可能属于Z分布或t分布,采用计算的公式也有不同。由于公式运算采用了数据区名称的方式,因此
Figure 3. Schematic design of automatic statistical inference technology
图3. 自动统计推断技术设计示意图
Figure 4. The example diagram of application of ECSDS
图4. ECSDS应用示例图
第一次数据有5个,第二次数据有8个或多于20个,输入第二次数据时,只要在数据区内输入,公式无需用户做任何调整,其运算的范围会自动适应。如果数据是需加权后进行统计的数据,可以使用Excel方便的将加权后数据复制到数据区即可。与SPSS等统计软件相比,从运算结果上讲是一致的。从辅助教学方面讲,该模型基于Excel为学生所熟悉,一般电脑中都有,无需培训即可掌握。而SPSS需要专门培训,需要额外安装,入门难度较大。
4. ECSDS的验证
4.1. ECSDS的计算有效性
ECSDS是基于Excel并与教育统计学相结合的模型。该模型充分利用了Excel的统计功能,使教学效果得到改善。下面通过求原始数据“56、76、60、60、99、78、89、60”的“算术平均数”,“方差”与“中位数”比较“手工计算”与ECSDS,来证明ECSDS的计算有效性。手工计算可得,算术平均数 = 72.25,方差 = 219.6875,中位数 = 68。ECSDS计算结果见图5,通过比较可以看出ECSDS与手工计算的计算结果相同。
4.2. ECSDS的简便快速性
ECSDS功能可满足教育统计学中的教学内容,而且易学好用、简便、快速。首先,ECSDS基于Excel,Excel操作简单且大众熟悉;使用该模型不用进行复杂的操作,不需要牢记教育统计学复杂公式,不需要进行繁杂计算。只需输入原始数据和参数,则可自动生成结果及其释义。其次,通过手工计算,不但计算时间长且由于粗心等情况,易产生错误,计算过程费时费力,还不能保证结果正确;而使用计算器的话,尽管功能强大的计算器也有统计功能,但它们操作复杂,且无释义,学生没有经过专门的训练,不能熟练地使用它们,操作时间也较长;而ECSDS没有复杂的操作命令,不需使用者经过专门的培训,操作时只需输入原始数据或参数即可,输入后一秒钟之内便可得到结果和相应释义,快速简单。
4.3. ECSDS的优势
尽管ECSDS比不上SPSS等专业统计软件功能强大,但却简单、实用,更适合教育统计学的师生使用。专业统计软件功能固然强大,但对于没有经过专业培训的学生和教师来说应用专业软件是困难的,而且需要额外安装,应用专业软件增加了师生的入门难度。
ECSDS是基于Excel的用来辅助教学的统计模型,操作简便,没有入门门槛,有多位学者建议结合Excel来学习统计 [4] ,因为使用师生熟知的Excel辅助教育统计学的学习和应用,其门槛低、操作简便的优势显而易见,而ECSDS是将Excel辅助教育统计学的优势整合到一起并更加充分的发挥出来,使得师生将更多的精力和时间集中到教育统计应用中去,解决学习者对统计软件实用性把握不够、施教对象和应用主体上存在的问题 [5] 。借助统计软件辅助统计教学,能实现统计方法与现代技术的紧密结合,能培养学生的数据分析能力及对统计结果的解释能力 [6] 。Excel作为国际通用表格软件,具备强大的国际认同基础,在它基础上的ECSDS操作简单,没有复杂的公式和操作命令,能更好的和教材结合,能更好的突出教育统计学学习重点,有效化解学习难点,实现了教育统计学教学重点的转移,可激发学习兴趣,提高课堂效果 [6] ,从而彻底解决教育统计学难教难学的情况。
Figure 5. Schematic diagram of calculation of ECSDS
图5. ECSDS计算示意图
5. 总结
本文主要贡献在于,迎合当前计算机领域人工智能正在从弱人工智能开始走向强人工智能的发展,指出相应的统计学将在人工智能发展中尤其是大数据分析和智能辅助决断中发挥越来越大的作用。然后针对统计学课程中的教师教学和学习学习上的困难以及教学效果差的问题,提出了一种面向描述统计的认知教学系统,即ECSDS (Excel-based Cognitive System of Descriptive Statistics),并对ECSDS进行了具体设计和实现,对其关键技术进行了解释,并给出了ECSDS的具体应用示例,在应用中得到体现了ECSDS的有效性和简单性。通过实践来看,所设计系统具有较好的稳定性和可靠性,但是还需要通过教学实践不断完善其细节。
ECSDS适应了教育统计学教学的发展趋势 [10] ,对教育统计学和统计软件的融合起到了探索的作用。ECSDS的广泛应用,有助于教育统计学教师的教学质量的提高和学生的学习效果的提升以及师生综合统计运用能力的巩固,最终促进教育统计学的发展和应用。应用ECSDS省略了大量的人工计算等统计过程,提高了统计效率,可能会产生学生片面注重计算结果而忽略统计原理的问题,这可以在教育统计学的教学中通过分步统计和加大统计原理讲解力度来强调统计过程和原理。总之,ECSDS是教育统计学教学活动中教师教与学生学的强有力工具,可以提高教学效率,提升教学质量,促进师生教育统计学运用能力的提高,增强学生运用教育统计学分析问题、解决问题的意识和能力,势必成为教育统计学教学改革的一款重要工具。
致谢
非常感谢耿悦、梁彤彤和赵凡同学在本文撰写过程中付出的努力和汗水,没有你们的支持和协助,本文不能及时成形。另外,非常感谢本刊审阅人提供的宝贵修改建议。