1. 引言
抽样调查中常常利用比估计来提高调查的精度,对于调查的变量Y,如果有一个与调查变量Y相关性较高的辅助变量X,并且利用已有资料知道总体中辅助变量X的总值和均值,即可考虑利用比估计来估计调查变量Y的总值或者均值 [1]。另外,如果需要调查总体中两个变量X与Y的比值,也可以利用样本比值给出总体比值的估计。因此比估计是抽样调查中常用的方法,适用面广,常用于简单随机抽样法中,也可以用于分层随机抽样法中。
首先给出利用已知的辅助变量X的信息构造比估计,可以提高调查变量Y估计值精度的介绍。简单随机抽样下的比估计定义为:总体的两个变量Y和X的总值或均值的比率为
,简单随机样本中两个变量Y和X的总值或者均值的比率,也就是总体比例的估计值
,因此调查变量Y的均值的比估计为
,调查变量Y的总值的估计值为
,其中辅助变量X的总值或者均值需已知 [2] [3]。
由抽样调查中的知识可知比估计有如下性质 [4] - [11]:
• 比估计和变量Y的均值估计均为有偏估计:
,
。
• 比估计和变量Y的均值估计的均方误差分别为:
,
,
其中抽样比
,相关系数
。
• 当满足
,即
时,其中变异系数
,
,比估计方法均值
的估计值
的均方误差优于简单估值法
的均方误差。
2. 广义比估计定义以及性质
2.1. 广义比估计定义
文 [12] 中对于超总体模型提出了一种广义差估计方法,文 [13] 中对于超总体模型提出了一种广义比估计方法,并与文 [12] 中的广义差估计方法进行了比较,讨论了其优良性。本文中对于总体中的二元变量X与Y给出一个广义比估计的定义,总体的两个变量总值或均值的广义比率
其中a为任意实数,简单随机样本中两个变量总值或者均值的广义比,即总体广义比的估计值
,因此调查变量Y的均值的广义比估计值为
,同样调查变量Y的总值的广义比估计为
,特殊的当a = 1时,调查变量Y的均值的广义比估计即为一般的比估计,广义比估计与一般比估计要求一样,需要已知辅助变量X的总值或者均值;当a = 0时,调查变量Y的均值的广义比估计即为一般的简单估计。
2.2. 广义比估计的性质
由广义比估计的定义可以推知广义比估计有如下性质:
定理1. 调查变量Y的均值的广义比估计为有偏估计。
其中抽样比
,相关系数
,变异系数
,
。
证明:记
,即
,
,即
,则可知
,
,
,
,
。
又因为
,
即
,
所以
。
定理1得证。
定理2. 调查变量Y的均值的广义比估计的均方误差为
。
证明:
。
定理2得证。
定理3. 调查变量Y的均值的广义比估计
,当
时,估计值
的均方误差达最小,最小值为
。
证明:由定理2可知
,因此对a求导可得:
,
求得
,并且
的均方误差最小值
。
定理3得证。
由此可见广义比估计方法调查变量Y的均值
的估计值
的最小的均方误差优于简单估值法
的均方误差
,并且当调查变量Y与辅助变量X相关性越高时,广义比估计方法调查变量Y的均值
的估计值
的最小均方误差越小。
3. 一个应用例题
调查某一社区居民用于食物的消费的支出,若该社区有居民共300户,共1100人,现简单随机抽样调查了其中的35户居民,调查各户的月食物支出Y (单位:元)和家庭人口X,得数据:
,
,
,
,
。
• 按照简单估值法,估计每户每月用于食物的平均支出的估计值为
,这一估计的均方误差的估计值为:
• 按照比估计法,以每户人数X作辅助变量,记
其估计值为
,因此每户每月用于食物的平均支出的估计值为
,这一估计的均方误差的估计值为:
• 按照广义比估计法,以每户人数X作辅助变量,记
,其中
时,估计值
的均方误差达最小。因此每户每月用于食物的平均支出的估计值为
,这一估计的均方误差的估计值为:
。
由此可见广义比估计法的估计值相对而言比较适中,并且其估计值的均方误差最小。
4. 总结
本文中讨论了一种广义比估计方法,显然一般比估计方法只是广义比估计方法的特例,广义比估计法中有一个参数a,可以先根据具体问题确定参数a的值使得广义比估计法的估计值的均方误差达最小,并且本文证明了广义比估计方法得到的估计值的均方误差是小于简单估值法估计的均方误差。另外,一般比估计方法要求辅助变量X与调查变量Y有强相关性,但是广义比估计法没有此要求,当然如果辅助变量X与调查变量Y有较强相关性,则广义比估计法的估计值的均方误差会更小,效果则更优。
基金项目
国家自然科学青年基金《不定度量子流形的相关问题研究》,项目批准号:NSFC 1180106。