1. 引言
在传统统计研究中,研究者通常采用抽样调查的方式获取代表性样本,即从研究对象的全部单位中抽取一定数量的样本进行分析,以此来推断出总体的数量特征。很多研究者对抽样调查方法做了一些研究。例如:金勇进和刘晓宇[1]针对网络开展调查或进行社交网络数据的收集时提出了一种非概率的抽样方法;邓明和张荷观[2]阐述了基于比率估计的抽样方法对复杂的时间序列数据季节指数进行估计。贺建风等[3]在大数据背景下提出了基于切片逆回归估计的抽样方法。随着计算机技术的快速发展,难免会遇到一些函数型变量,然而传统的不等概抽样仅考虑了标量型的辅助变量,因此如何利用带有函数型变量的信息进行抽样显得尤为重要。函数型变量数据最初源于1982年Ramsay [4],之后1991年,Ramsay J. O.与Dalzell C. J. [5]提出了函数型数据分析的概念,处理函数型变量通常使用函数型主成分分析方法,详见文献Karuppusami R.等[6]、Shi Haolun等[7]和宁贺[8]。
由于传统的不等概抽样仅考虑了标量型的辅助变量,为了更好地研究函数型变量,本文将标量型的辅助变量扩展到函数型辅助变量,在这种条件下探究基于降维思想的不等概抽样。由于函数型变量及其他标量型自变量的维度可能很高,因此需要考虑如何在没有信息损失的情况下,对高维变量进行降维,切片逆回归方法(Sliced inverse regression, SIR)是一种有效的充分降维方法。切片逆回归方法由Ker-Chau Li [9]在1991年提出,由于切片逆回归法可以有效处理非正态高维数据,受到广泛应用,详见李岩岩[10]、荀鹏程等[11]、Benoit Liquet等[12]文献。
传统的不等概抽样方法实施的前提条件是确定总体单元的入样概率,通常情况下可以寻找到多个总体单元入样概率的辅助变量,如何将这些辅助变量综合到一起确定总体单元入样概率显得极为重要,同时由于函数型变量的收集变得越来越容易,因此需要考虑带有函数型变量的不等概抽样方法,为此我们提出一种带有函数型变量的不等概抽样方法,这种不等概率抽样方法从样本数据中提取方向向量的信息,从而构造每个总体单元的入样概率,克服了确定总体单元入样概率的困难。模拟结果表明带有函数型变量的不等概抽样估计结果优于简单随机抽样估计的结果。最后将其应用到共享单车数据中得到带有函数型变量的不等概抽样的良好表现。
2. 带有函数型变量的不等概抽样过程
假定总体数据满足如下广义函数型线性回归模型:
(1)
其中Y为因变量,函数型自变量为
,斜率函数
为定义在[0, 1]上的平方可积函数;
为维数p的其他自变量,
为其系数向量;
是均值为零,方差为
的随机误差项,与自变量
和Z独立;
是未知的平滑函数。由于样本来源于总体,因此样本数据满足上述广义函数型线性回归模型。在总体模型中因变量Y为主要的调查变量,函数型自变量为
和自变量Z均为辅助变量,通常情况下总体中的辅助变量可以通过调查获得,如何利用总体中的辅助变量构造并确定总体单元的入样概率显得尤为重要。
由于模型中带有函数型变量,因此考虑带有函数型变量的不等概抽样方法,其核心问题为带有函数型变量时如何确定每个总体单元的入样概率,具体每个总体单元入样概率计算如下:首先利用函数型主成分分析法将样本函数型变量
化为m个不相关的标量型变量
,即
(2)
其中
,
为
所对应的特征向量。然后利用切片逆回归法对样本数据
进行降维,之后得到样本第一主成分的方向向量
,从而得到第一主成分
(3)
之后对总体函数型变量
做函数型主成分分析,同样得出m个不相关的标量型变量
,利用标量型变量
与总体其他解释变量
以及得到的样本第一主成分方向向量可求得总体Y中每个个体单元的综合得分,
(4)
最后利用总体单元中每个个体的综合得分构造该个体被抽取的概率,从而进行不等概抽样。
3. 数值模拟分析
为比较数值模拟结果,建立如下三个数据集:
数据集1:
,
数据集2:
,
数据集3:
。
在每一个数据集中函数型部分类似刘等[13]设置为
,
,其中
服从正态分布,其均值为0,方差为
,
;
定义为其他解释变量,
为正态分布的随机数,
为均匀分布的随机数。误差项
服从标准正态分布,其标准差为
。在模拟研究以及实际数据中采用方差贡献率方法选择函数型变量的截断参数m,选取方差贡献率大于85%的截断参数m,数值模拟重复试验500次。首先对模拟的数据集Y进行描述统计分析如表1所示。
从模拟数据集Y的描述性统计表1可得,数据集1分布较均匀,数据集2方差较大,数据集3峰度较大。
Table 1. Descriptive statistics for Y in the three modelled datasets
表1. 三个模拟数据集中Y的描述统计
指标 |
数据集1 |
数据集2 |
数据集3 |
均值 |
0.7867 |
2.5695 |
0.2620 |
最大值 |
2.7431 |
15.1894 |
4.3858 |
最小值 |
−1.2686 |
0.1061 |
−0.4101 |
中位数 |
0.7817 |
2.1386 |
0.1173 |
方差 |
0.3910 |
2.8800 |
0.2028 |
峰度 |
2.8414 |
10.4047 |
14.7549 |
偏度 |
−0.0301 |
2.0742 |
2.7895 |
在3个模拟数据集上,采用两种抽样方式:简单随机抽样与函数型变量的不等概抽样,进行抽样。
(1) 简单随机抽样,从总体中
随机抽取得到样本数据
,对函数型变量
进行函数型主成分分析法,并取前两个主成分,将
化为m个不相关的标量型变量
;之后确定新的解释变量
,然后直接以因变量y,自变量
做回归,最后确定回归的效果。
(2) 带有函数型变量的不等概抽样,首先类似简单随机抽样的步骤,得到新的解释变量
,然后对得到的新的解释变量利用切片逆回归方法降维,然后得到样本第一主成分的方向向量
,从而得到第一主成分,之后对总体函数型变量
做函数型主成分分析,同样得出m个不相关的标量型变量
,利用标量型变量
与总体其他解释变量
以及得到的样本第一主成分方向向量可求得总体Y中每个个体的综合得分,进而将每个个体的综合得分所占权重看作是该个体被抽取的概率,最后从总体中利用不等概抽样方法抽取样本,最后用样本数据中的因变量y,自变量
做回归。
将两种抽样方法抽取的样本,分别以样本数据中的因变量y,自变量
做回归模型。线性回归模型中决定系数R2可以衡量线性拟合程度,其中R2的值越大,表明线性模型拟合效果越好。
考虑样本量因素,保持总体
,误差项
的标准差
不变,分别抽取样本
、
、
、
,其中
是对全部总体进行抽取,过程各重复抽样100次,切片数为10,对比分析带有函数型变量的不等概抽样与简单随机抽样这两类抽样方式的模拟结果。
通过对表2~4的模拟结果的比较,可得到对总体数据进行抽样估计的结果均优于对总体直接估计的结果,而且抽取样本量越小,其拟合效果越高,但是拟合稳定性会略微变差。由表2~4可知,由带有函数型变量的不等概抽样的结果中的R2均值大于由简单随机抽样得到的R2均值,并且带有函数型变量的不等概抽样的结果中的R2值的标准差比简单随机抽样得到的R2值的标准差要小,例如:在表4中,当样本量为500时,带有函数型变量的不等概抽样的结果中的R2均值为0.749685,大于由简单随机抽样得到的R2均值0.668072,并且带有函数型变量的不等概抽样的结果中的R2值的标准差为0.009062,小于由简单随机抽样得到的R2值的标准差0.017733,因此可得带有函数型变量的不等概抽样的拟合效果优于简单随机抽样的拟合结果,由此表明,带有函数型变量的不等概抽样利用了切片逆回归方法对变量进行降维,将得到的每个总体单元的综合得分作为其入样概率,这样的抽样估计对提高模型估计是有效的。
Table 2. Simulation results for dataset 1 on both sampling methods
表2. 数据集1在两种抽样方法上的模拟结果
指标 |
评定标准 |
n1 = 100 |
n2 = 500 |
n3 = 1000 |
n4 = 2000 |
带有函数型变量
的不等概抽样 |
R2均值 |
0.994225 |
0.993754 |
0.993269 |
0.991319 |
R2标准差 |
0.000771 |
0.000326 |
0.000180 |
0.000107 |
简单随机抽样 |
R2均值 |
0.989578 |
0.988667 |
0.989305 |
0.988723 |
R2标准差 |
0.002003 |
0.001047 |
0.000492 |
0.000293 |
Table 3. Simulation results for dataset 2 on both sampling methods
表3. 数据集2在两种抽样方法上的模拟结果
指标 |
评定标准 |
n1 = 100 |
n2 = 500 |
n3 = 1000 |
n4 = 2000 |
带有函数型变量
的不等概抽样 |
R2均值 |
0.967296 |
0.964953 |
0.964829 |
0.963953 |
R2标准差 |
0.018276 |
0.003721 |
0.000228 |
0.000027 |
简单随机抽样 |
R2均值 |
0.934351 |
0.931703 |
0.930886 |
0.923806 |
R2标准差 |
0.021626 |
0.010058 |
0.005537 |
0.001158 |
Table 4. Simulation results for dataset 3 on both sampling methods
表4. 数据集3在两种抽样方法上的模拟结果
指标 |
评定标准 |
n1 = 100 |
n2 = 500 |
n3 = 1000 |
n4 = 2000 |
带有函数型变量
的不等概抽样 |
R2均值 |
0.744041 |
0.749685 |
0.732813 |
0.662768 |
R2标准差 |
0.038447 |
0.009062 |
0.001960 |
0.000033 |
简单随机抽样 |
R2均值 |
0.685497 |
0.668072 |
0.657453 |
0.647429 |
R2标准差 |
0.051671 |
0.017733 |
0.012397 |
0.001079 |
考虑误差项
标准差因素,保持总体
、抽取样本
的条件,分别在误差项
的标准差
、0.5、0.8的情况下,得到第3个数据集在两种抽样方法的模拟结果。
由表5模拟结果可看出,误差项
的标准差越小,其拟合效果越高,拟合稳定性也越强,例如:误差项
的标准差为0.1时,带有函数型变量的不等概抽样的R2均值为0.749685,大于误差项
的标准差为0.8时带有函数型变量的不等概抽样的R2均值0.381070。
由于带有函数型变量的不等概抽样所用的降维方法为切片逆回归方法,因此讨论切片数的设定是否影响数据集的模拟结果。保持总体
、抽取样本
、误差项
的标准差
的条件不变,得到这3个数据集利用带有函数型变量的不等概抽样法,分别在切片数H = 5、10、20情况下的模拟结果数据并进行分析。
由表6可得这三个数据集分别在不同切片数下进行带有函数型变量的不等概抽样得到的模拟结果,结果表明切片数设定不同对模拟结果并没有很大影响。
Table 5. Simulation results for dataset 3 on both sampling methods (σ = 0.1, 0.5, 0.8)
表5. 数据集3在两种抽样方法上的模拟结果(σ = 0.1, 0.5, 0.8)
指标 |
评定标准 |
σ = 0.1 |
σ = 0.5 |
σ = 0.8 |
带有函数型变量
的不等概抽样 |
R2均值 |
0.749685 |
0.513179 |
0.381070 |
R2标准差 |
0.009062 |
0.017462 |
0.024816 |
简单随机抽样 |
R2均值 |
0.668072 |
0.341252 |
0.200145 |
R2标准差 |
0.017733 |
0.030486 |
0.026131 |
Table 6. Simulation results for each of the three datasets under unequal probability sampling (n = 500, σ = 0.1)
表6. 三个数据集分别在不等概抽样下的模拟结果(n = 500, σ = 0.1)
模型 |
评定标准 |
H = 5 |
H = 10 |
H = 20 |
数据集1 |
R2均值 |
0.993855 |
0.993575 |
0.993754 |
R2标准差 |
0.000326 |
0.000301 |
0.000326 |
数据集2 |
R2均值 |
0.964093 |
0.961138 |
0.964953 |
R2标准差 |
0.002292 |
0.003420 |
0.003721 |
数据集3 |
R2均值 |
0.752940 |
0.772856 |
0.749685 |
R2标准差 |
0.009287 |
0.006929 |
0.009062 |
由表7可得不同截断参数m时两种抽样方法上数据集2的模拟结果,不同的截断参数下,简单随机抽样的R2均值始终小于对应的带有函数型变量的不等概抽样的R2均值,同时随着截断参数m的增加,带有函数型变量的不等概抽样的R2均值始终变化不大,因此截断参数的选取对模拟结果没有太大的影响。
Table 7. Simulation results for dataset 2 for different truncation parameters m (n = 200, σ = 0.1)
表7. 不同截断参数m时两种抽样方法上数据集2的模拟结果(n = 200, σ = 0.1)
指标 |
评定标准 |
m = 2 |
m = 3 |
m = 4 |
m = 5 |
带有函数型变量
的不等概抽样 |
R2均值 |
0.955859 |
0.945505 |
0.951521 |
0.964499 |
R2标准差 |
0.000451 |
0.000334 |
0.000038 |
0.000030 |
简单随机抽样 |
R2均值 |
0.938772 |
0.937190 |
0.939289 |
0.940703 |
R2标准差 |
0.000451 |
0.000581 |
0.000129 |
0.000158 |
4. 实证分析
本论文以UCI机器学习库中名为Bike-Sharing-Dataset的数据集为例进行分析。以casual (非会员使用共享单车总数)为因变量Y,函数型变量选取体感温度
,其中时间t为0到23表示一天每小时测量一次体感温度。Working day (工作日)、weather sit (天气情况)作为变量
、
,建立如下的广义函数型回归模型:
此数据共有N = 731条数据,采用带有函数型变量的不等概抽样和简单随机抽样两种抽样方法分别抽取样本n = 100、200、500,重复抽取100次,切片数为10个,利用方差贡献率大于85%条件选取的截断参数
,最后得到实际数据结果如下表8所示:
Table 8. Calculation of the actual dataset Y on the two sampling methods
表8. 实际数据集Y在两种抽样方法上的计算结果
指标 |
评定标准 |
n1 = 100 |
n2 = 200 |
n3 = 500 |
n4 = 731 |
带有函数型变量
的不等概抽样 |
R2均值 |
0.857097 |
0.838514 |
0.787554 |
0.778110 |
R2标准差 |
0.012985 |
0.005829 |
0.001315 |
0.000850 |
简单随机抽样 |
R2均值 |
0.689107 |
0.680881 |
0.683699 |
0.671363 |
R2标准差 |
0.042889 |
0.020846 |
0.019758 |
0.016210 |
为考察切片数H对抽样结果的影响,使用数据集Y,确定抽取样本数为n = 200,分别设置
、
、
,得到如下表所示结果:
Table 9. Calculation of the actual data set Y at different number of slices H
表9. 实际数据集Y在切片数H不同时的计算结果
指标 |
评定标准 |
H1 = 5 |
H2 = 10 |
H3 = 20 |
带有函数型变量
的不等概抽样 |
R2均值 |
0.752672 |
0.748591 |
0.838514 |
R2标准差 |
0.017783 |
0.020816 |
0.005829 |
简单随机抽样 |
R2均值 |
0.691670 |
0.685788 |
0.680881 |
R2标准差 |
0.026053 |
0.01796 |
0.020846 |
从上表9可看出,带有函数型变量的不等概抽样模型拟合效果普遍较好,且稳定性也更好。对比切片数对模型估计结果的影响发现,模型拟合结果随着切片数的增加,有着上升的趋势。这是因为随着切片数的增加,同一个因变量对应相应较少的自变量取值,之后对以切片数划分的自变量在切片组内进行求取均值,进而起到区分自变量的作用。但是随着切片数越来越大,每个因变量对应越来越少的自变量,这样无法将相同的自变量融合在一起,不能更好地起到改善拟合效果的作用,因此在实际中,取一个比较适中的切片数也很重要。
5. 结论
带有函数型变量的不等概抽样,其思想是首先利用函数型主成分分析法将函数型变量化为标量型自变量,然后将这些标量型的自变量和其他标量型自变量结合形成新的自变量,再通过切片逆回归法对新的自变量进行降维处理,从而得到每个总体单元的综合得分,此得分权重可作为每个总体单元的入样概率。
通过对带有函数型变量的不等概抽样与简单随机抽样方法这两种抽样方法的比较研究,得到结论如下:1) 带有函数型变量的不等概抽样的估计结果优于简单随机抽样估计结果;2) 随着抽取样本量的增大,抽样所显示出的拟合效果会变差,但是其稳定性会相对变好,所以选择合适的样本量进行抽样就好,无需抽取过大样本量;3) 切片数及截断参数对带有函数型变量的不等概抽样的估计结果影响不大,因此只需设定合适的切片数,选择合适方法选择截断参数即可。
致 谢
非常感谢编委及审稿人的意见和建议。
基金项目
本文是天津商业大学本科教学改革项目成果(编号:TJCUJG2023085),项目名称:复杂数据背景下统计类本科抽样技术课程教学模式研究与实践。
NOTES
*通讯作者。