基于变异系数的最优估计量及性质的研究
Research on Optimal Estimation and Properties Based on Coefficient of Variation
DOI: 10.12677/AAM.2022.1111829, PDF, HTML, XML, 下载: 187  浏览: 274  国家自然科学基金支持
作者: 徐 晨, 常桂松:东北大学理学院数学系,辽宁 沈阳;吴文彬:抚顺新钢铁有限责任公司智造中心,辽宁 抚顺
关键词: 抽样调查变异系数最优估计Survey Sampling Coefficient of Variation Oprimal Estimation
摘要: 讨论调查变量的最优估计,一直是抽样调查中的重要研究课题。首先本文在一般简单估计基础上提出广义均值估计的定义,其中一般简单估计可以看作是广义均值估计的特例,接着讨论广义均值估计的最优估计量与最优估计量的设计效率,最后通过一个实例计算广义均值估计的最优估计值。
Abstract: Discussing the optimal estimation of survey variables has always been an important research topic in survey sampling. Firstly, a generalized mean estimator based on the general simple estimator is defined in this article, and the general simple estimator is a special case of the generalized mean estimator. Then the optimal estimator and the design efficiency of the generalized mean estimator are discussed. Finally, an example is given to calculate the optimal estimator of generalized mean estimator.
文章引用:徐晨, 常桂松, 吴文彬. 基于变异系数的最优估计量及性质的研究[J]. 应用数学进展, 2022, 11(11): 7844-7849. https://doi.org/10.12677/AAM.2022.1111829

1. 引言

在抽样调查中,对于调查变量Y,常用样本均值 y ¯ 来估计总体均值 Y ¯ ,称为一般简单估计,而得到调查变量Y的最优估计一直是抽样调查的重要研究课题。Singh与Pal [1] 研究应用指数估计法在两种情况下的连续性抽样的最优估计。Singh与Priyanka [2] 提出了基于两次抽样结果的可提高估计精度的估计模型。Priyanka [3] 等为了解决无响应问题,提出了一类单参数插补技术,并提出了相应的点估计。Nath [4] 在两相抽样中使用折衷插补方法,并用比率加乘积估计人口平均数,进一步讨论了所提出估计量的优良性。

当已知一些辅助信息,并满足一些特定条件时,例如基于与调查变量Y相关性较强的辅助变量X,可用比估计 Y ¯ ^ R = y ¯ x ¯ X ¯ ,回归估计 Y ¯ ^ L = y ¯ + b ( X ¯ x ¯ ) 来估计总体均值 Y ¯ ,在一定条件下,比估计与回归估计的估计量的均方误差小于一般简单估计的方差,即提高了估计的精度 [5] [6] [7]。文献 [8] - [16] 分别提出了估计总体均值时改进的比估计与回归估计方法,各种估计结果如表1所示。

Table 1. Various estimators of population mean and mean squared error of the estimators

表1. 各种总体均值估计值与估计值的均方误差

其中ab为任意实数, C Y C X 分别为调查变量Y与辅助变量X的变异系数, ρ 为调查变量Y与辅助变量X相关系数,一般简单估计和比估计均可以看作是这些估计值的特例,文献 [8] - [17] 均进一步讨论了这些估计值的性质及最优的估计量。若在抽样框中不已知辅助变量X的值,或者不存在与调查变量相关性较高的辅助变量X,基于调查变量Y的变异系数 C Y ,其中 C Y 是调查变量Y离散程度的一个归一化度量值,本文给出广义均值估计的定义,而且一般简单估计也可以看作广义均值估计的特例,进而进一步讨论广义均值估计的最优估计量。

2. 广义均值估计

2.1. 广义均值估计的定义及性质

定义1. 调查变量Y的均值的广义均值估计为 y ¯ k = k y ¯ ,其中 y ¯ 为样本均值,k为任意实数。

定理1. 调查变量Y的均值的广义均值估计 y ¯ k 是总体均值 Y ¯ 的有偏估计。

证明: E ( y ¯ k ) = E ( k y ¯ ) = k Y ¯ ,其中k为任意实数。□

可见,当广义估计 y ¯ k 中的k = 1时,广义估计即为简单随机抽样中的一般简单估计,并且是总体均值 Y ¯ 的无偏估计。

定理2. 调查变量Y的均值的广义均值估计 y ¯ k 的均方误差 M S E ( y ¯ k )

M S E ( y ¯ k ) = Y ¯ 2 [ k 2 N 1 N n C Y 2 + ( k 1 ) 2 ] ,

其中N为总体中个体的个数,n为样本容量, C Y 为调查变量Y的变异系数。

证明: M S E ( y ¯ k ) = E [ k y ¯ Y ¯ ] 2 = E [ k ( y ¯ Y ¯ ) ( k 1 ) Y ¯ ] 2 = k 2 V a r ( y ¯ S R S W R ) + ( k 1 ) 2 Y ¯ 2 + 0 = k 2 N 1 N n S Y 2 + ( k 1 ) 2 Y ¯ 2 = Y ¯ 2 [ k 2 N 1 N n C Y 2 + ( k 1 ) 2 ] .

2.2 广义均值估计的最优估计量及均方误差

定理2. 设调查变量Y的变异系数为 C Y ,则总体均值的广义均值估计 y ¯ k 的最优估计 y ¯ k *

y ¯ k * = k * y ¯ = y ¯ N 1 N n C Y 2 + 1 .

证明:由定理2中的结论可知,当 d M S E ( y ¯ k ) d k = 0 时,可解出广义均值估计 y ¯ k 均方误差 M S E ( y ¯ k ) 的极值,

d M S E ( y ¯ k ) d k = Y ¯ 2 [ 2 k N 1 N n C Y 2 + 2 ( k 1 ) ] k [ N 1 N n C Y 2 + 1 ] = 1 k = 1 N 1 N n C Y 2 + 1 = k * .

y ¯ k * = k * y ¯ = y ¯ N 1 N n C Y 2 + 1 。□

推论1. 调查变量Y总体均值的广义均值估计的最优估计 y ¯ k * 的均方误差 M S E ( y ¯ k * )

M S E ( y ¯ k * ) = Y ¯ 2 N 1 N n C Y 2 N 1 N n C Y 2 + 1 .

证明: M S E ( y ¯ k * ) = Y ¯ 2 [ k 2 N 1 N n C Y 2 + ( k * 1 ) 2 ] = Y ¯ 2 [ N 1 N n C Y 2 ( N 1 N n C Y 2 + 1 ) 2 + ( N 1 N n ) 2 C Y 4 ( N 1 N n C Y 2 + 1 ) 2 ] = Y ¯ 2 N 1 N n C Y 2 ( N 1 N n C Y 2 + 1 ) 2 [ 1 + N 1 N n C Y 2 ] = Y ¯ 2 N 1 N n C Y 2 N 1 N n C Y 2 + 1 .

可见广义均值估计的最优估计量的设计效率Deff为

M S E ( y ¯ k ) V a r ( y ¯ ) S R S W R = Y ¯ 2 N 1 N n C Y 2 N 1 N n C Y 2 + 1 1 V a r ( y ¯ ) S R S W R = V a r ( y ¯ ) S R S W R N 1 N n C Y 2 + 1 1 V a r ( y ¯ ) S R S W R = [ N 1 N n C Y 2 + 1 ] 1 1.

3. 一个应用例题

若调查某高校学生的月消费情况Y(单位:元),该高校共有在校学生30,000人,现采用简单随机抽样方案,随机调查1000名学生,得到数据

i = 1 1000 y i = 1135453 , i = 1 1000 y i 2 = 33545539665 ,

· 按照一般简单估计,估计每位高校学生每月的月消费情况的平均值为

Y ¯ ^ = y ¯ = i = 1 1000 y i 1000 = 1135453 1000 1135.45 ,

并且一般简单估计的均方误差的估计值为

M S ^ E ( Y ¯ ^ ) = 1 f n S Y 2 = 1 f n 1 n 1 [ i = 1 n y i 2 1 n ( i = 1 n y i ) 2 ] 176.67 2 .

· 按照广义均值估计,首先调查变量Y的变异系数 C Y 的估计值为

C ^ Y = s Y y ¯ = [ 1 n 1 [ i = 1 n y i 2 1 n ( i = 1 n y i ) 2 ] ] 1 2 1 n i = 1 n y i 5.004 ,

则应用广义均值估计的最优估计量,来估计每位高校学生每月的月消费情况的平均值为

Y ¯ ^ = y ¯ k * = k * y ¯ = y ¯ N 1 N n C ^ Y 2 + 1 1107.71 ,

并且广义均值估计的最优估计量均方误差的估计值为

M S ^ E ( y ¯ k * ) = Y ¯ ^ 2 N 1 N n C ^ Y 2 N 1 N n C ^ Y 2 + 1 173.14 2 .

由此可见广义均值估计的最优估计量与一般简单估计比较,偏差不大,并且广义均值估计的最优估计量的均方误差小。

4. 总结

1) 本文讨论广义均值估计,显然一般简单估计是广义均值估计的特例,并且基于调查变量Y的变异系数为 C Y ,可确定广义均值估计中参数k的值,使得广义均值估计的均方误差达最小,即解出广义均值估计的最优估计量。与一般简单估计的抽样误差相比,广义均值估计的最优估计量的设计效率Deff ≤ 1,因此广义均值估计的最优估计量是优于一般简单估计的。在实际应用中若不已知调查变量Y的变异系数为 C Y ,可用样本变异系数来估计总体的变异系数 C Y

2) 若在抽样框中已知与调查变量相关性较高的辅助变量X的值,今后工作中还可以进一步结合文献 [8] - [17] 中的结论,讨论广义均值比估计 Y ¯ ^ k R α = k y ¯ x ¯ a X ¯ a Y ¯ ^ k R = k y ¯ X ¯ + C X x ¯ + C X ,或者广义均值回归估计 Y ¯ ^ k L = k y ¯ + b ( X ¯ x ¯ ) x ¯ X ¯ Y ¯ ^ k L ρ = k y ¯ + b ( X ¯ x ¯ ) x ¯ + ρ ( X ¯ + ρ ) 等等。

3) 若在抽样框中已知与调查变量相关性较高的两个辅助变量 X 1 X 2 的值,结合文献 [17] 中的结论今后工作中还可以进一步讨论广义均值比估计 Y ¯ ^ k R α = k 1 y ¯ x ¯ 1 a 1 X ¯ a 1 + k 2 y ¯ x ¯ 2 a 2 X ¯ a 2 Y ¯ ^ k R = k 1 y ¯ X ¯ + C X 1 x ¯ + C X 1 + k 2 y ¯ X ¯ + C X 2 x ¯ + C X 2 等等。

基金项目

国家自然科学青年基金《不定度量子流形的相关问题研究》,项目批准号:NSFC 1180106。

参考文献

[1] Singh, H.P. and Pal, S.K. (2017) Search of Good Rotation Patterns Using Exponential Method of Estimation in Two-Occasion Successive Sampling. Communication in Statistics—Theory and Methods, 46, 5466-5486.
https://doi.org/10.1080/03610926.2015.1104351
[2] Singh, G.N. and Priyanka, K. (2008) Search of Good Rota-tion Patterns to Improve the Precision of Estimates at Current Occasion. Communication in Statistics—Theory and Methods, 3, 337-348.
https://doi.org/10.1080/03610920701653052
[3] Singh, G.N., Priyanka, K., Kim, J.M., et al. (2010) Estimation of Population Mean Using Imputation Techniques in Sample Surveys. Journal of the Korean Statistical Society, 39, 67-74.
https://doi.org/10.1016/j.jkss.2009.04.002
[4] Nath, K. and Singh, B.K. (2018) Population Mean Estimation Us-ing Ratio-Cum Product Compromised-Method of Imputation in Two-Phase Sampling Scheme. Asian Journal of Mathe-matics & Statistics, 11, 27-39.
https://doi.org/10.3923/ajms.2018.27.39
[5] 李金昌. 应用抽样技术[M]. 北京: 科学出版社, 2010: 22-81.
[6] 孙山泽. 抽样调查[M]. 北京: 北京大学出版社, 2004: 13-50.
[7] Kish, L. 抽样调查[M]. 倪加勋(主译), 孙山泽(校译). 北京: 中国统计出版社, 1997: 229-242.
[8] 徐晨, 何川. 一种广义比估计及其性质的研究[J]. 统计学与应用, 2019, 8(6): 895-900.
[9] Shashi, B. and Praveen, K.M. (2017) A Family of Unbiased Estimators of Population Mean Using an Auxiliary Variable. Advances in Computational Sciences and Technology, 10, 129-137.
[10] Gupta, R.K. and Yadav, S.K. (2017) New Efficient Estimators of Population Mean Using Non-Traditional Measures of Dispersion. Open Journal of Statistics, 7, 394-404.
https://doi.org/10.4236/ojs.2017.73028
[11] Uraiwan, J. and Nuanpan, L. (2019) A Combined Family of Ratio Estimators for Population Mean Using an Auxiliary Variable in Simple Random Sampling. Journal of Mathematical and Fundamental Sciences, 51, 1-12.
https://doi.org/10.5614/j.math.fund.sci.2019.51.1.1
[12] Mir, S., Showkat, M., et al. (2018) Efficient Estimators of Population Mean Using Auxiliary Information under Simple Random Sampling. Statistics in Transition New Series, 19, 219-238.
https://doi.org/10.21307/stattrans-2018-013
[13] Kalim, U., Zawar, H., et al. (2022) Estimation of Finite Population Mean in Simple and Stratified Random Sampling by Utilizing the Auxiliary, Ranks, and Square of the Auxil-iary Information. Mathematical Problems in Engineering, 2022, Article ID: 5263492.
https://doi.org/10.1155/2022/5263492
[14] Anum, I., Hongbo, S., et al. (2022) Efficient Estimators of Finite Pop-ulation Mean Based on Extreme Values in Simple Random Sampling. Mathematical Problems in Engineering, 2022, 15-24.
https://doi.org/10.1155/2022/5866085
[15] Pal, S.K., et al. (2018) A Family of Efficient Estimators of The Finite Population Mean in Simple Random Sampling. Journal of Statistical Computation and Simulation, 88, 920-934.
https://doi.org/10.1080/00949655.2017.1408808
[16] Irfan, M., Javed, M. and Lin, Z. (2018) Efficient Ratio-Type Estimators of Finite Population Mean Based on Correlation Coefficient. International Journal of Science and Technology, 25, 2361-2372.
[17] 卢静莉. 有限总体均值估计的新方法[J]. 统计与决策, 2021, 37(10): 20-23.