1. 引言
统计学中,在采用抽样分析的方法进行参数估计与推断时,常要求样本数据数量、完整性好,且须满足随机抽取等特点。然而在实际应用中常会遇到一系列按顺序排列的截尾样本数据,例如在教学活动中,经常会组织学生参加各类学科竞赛,竞赛组织方通常只公布获奖选手的成绩(可看成顺序截尾样本),而不公布所有参赛学生的成绩。这就涉及到参赛学校怎样根据获奖选手的成绩对本校所有参赛学生的整体成绩进行推断,从而评价各种教学指标的优劣。从数理统计的角度看,本问题可化为由次序截尾样本对总体参数进行统计推断的问题。
本文欲采用回归分析方法对总体参数进行推断。众所周知,传统的回归分析是一种强有力的数据处理工具,在自然科学和社会科学的各个领域都有广泛的应用,但是它只适用于来自正态分布的完全数据 [1] 。对于次序截尾数据是无法处理的。茆诗松等人提出了截尾数据的最佳线性无偏估计方法 [2] ,傅惠民等人又提出了最佳无偏整体估计方法 [3] ,本文结合这两种方法,将回归分析方法推广到利用次序截尾数据推断总体参数的问题当中,并且对所做结果进行模拟计算,通过误差比对,说明了该方法的可行性。
2. 预备知识
2.1. 次序统计量
设是来自某个总体的一个样本。该样本的第个次序统计量记为,它是如下的样本函数,每当该样本得到一组观测量值时,将它们从小到大排列起来为,其中第个值就是的观测值。称为该样本的次序统计量。由文献 [4] 知,若总体的分布函数为,密度函数为,可推出次序统计量的密度及联合密度如下:
的密度函数为,其中。
和的联合密度函数为,其中。
在这个等式中,都成立,在其他的场合。
由密度函数可以计算次序统计量的期望和方差,记
,,则
(1)
其中:为的反函数
(2)
(3)
上面各式中,,仅与,,和有关,可通过查表和专门程序计算 [5] 得到。
2.2. 广义Gauss-Markov模型
普通线性回归模型 [5] 中,若将改为,为已知正定阵,则形成所谓的广义Gauss-Markov模型,对此模型,因G > 0,存在n阶非奇异对称阵,使。令,则
由此,是一个Gauss-Markov模型,由该模型得到的最小二乘估计(LSE)为
(4)
称为的加权最小二乘估计,由文献 [6] ,知它仍是的最好线性无偏估计(BLUE)。
3. 次序截尾数据线性回归方法
设是来自的一个样本,要估计和 ()。设为观测到的前个次序统计量,考虑这样一类估计,它们是次序统计量的线性函数。
令
(5)
则相当于抽自的容量为n的前个截尾样本。记
由(1)、(2)、(3)式可知只依赖于n,和,而与无关,由于已知,所以当取定后,是可计算的。将(5)式化成
(6)
其中
记,,用矩阵表示(5)式,有
(7)
(8)
其中表示全部由元素1组成的r维列向量。这是广义Gauss-Markov模型,由(4)式可求出和的BLUE为
(9)
其协方差矩阵为
(10)
该估计方法的优点在于,不论个样品中被观测到的样品个数是多少(),上述方法都可使用。这样我们就可以由小样本进行线性回归,并且推断总体的未知参数,可以改进线性回归及统计推断在应用上的一些局限性。
4. 模拟计算
为了客观说明以上估计方法的可行性,本文由计算机随机产生正态分布的15个次序随机数作为一个样本,分别截取前r个,利用次序截尾数据线性回归方法来估计正态整体的参数和的值,并计算所得估计的相对误差。
产生的样本如下:
0.8621 0.8782 1.3564 1.3881 1.5075 1.8432 1.8461 1.8581
2.1582 2.2333 2.3906 2.5985 2.7109 3.1354 3.2702
所得的结果见表1。
绘制对参数和估计的相对误差分析图,分别见图1和图2。
从以上两个图可以看出当样本容量n固定的时候,随着截尾样本数r的增大,采用次序截尾数据线性回归方法来估计对正态分布整体的均值和标准差的估计值的相对误差整体基本呈下降趋势,而且相对误差控制在10%之内,符合实际应用中的估计要求。
5. 案例研究及结论
华北科技学院建工学院在2013年5月份派出22名学生参加了该校基础部组织的大学生数学建模比赛的选拔考试,赛后基础部只返回了获奖学生选手的名单及参赛成绩,而其他选手的成绩未出现,获奖名单及分数见表2。
Table 1. Results of simulation
表1. 模拟计算的结果
Figure 1. Relative error analysis of μ
图1. μ的相对误差分析图
为了解学生的学习状况,现欲利用次序截尾数据线性回归分析方法估计所有参赛选手的整体平均成绩。由经验知,学生成绩服从正态分布,现参赛学生人数为n = 22,获奖学生个数为r = 8,r个学生的成绩为一组具体的次序截尾样本数据,用表示。因为数学竞赛采用的是百分制,首先对成绩进行转换,令,,则有。由式(9),可计算出和的BLUE为,。由于是的估计,将其进行转换,可得到整体成绩的均值。此成绩与后来与基础部落实的实际平均参赛成绩60.8较吻合,相对误差仅为2%。
Table 2. Competition result
表2. 竞赛成绩
Figure 2. Relative error analysis of σ
图2. σ的相对误差分析图
6. 结语
本文讨论了次序统计量的期望和方差的计算公式,结合广义Gauss-Markov模型提出了一种次序截尾数据的线性回归分析方法,将只适用于完全数据的传统回归分析推广到了常见的次序截尾数据。通过计算机模拟计算发现,该方法对整体均值和标准差的估计值的相对误差整体基本呈下降趋势,而且相对误差控制在10%之内,符合样本量越大估计越精准的事实,实际案例的应用也进一步验证了该方法的应用效果。
基金项目
国家级大学生创新创业训练计划项目(编号:201511104044);华北科技学院教育科学研究课题基金资助(编号:HKJY201439);华北科技学院应用数学重点学科资助项目(编号:HKXJZD201402)。
参考文献