一种基于Tobit回归模型的序贯压缩估计方法研究

doi:10.12677/PM.2021.117148

期刊菜单

一种基于Tobit回归模型的序贯压缩估计方法研究
A Sequential Shrinkage Estimate Based on Tobit Regression Model

DOI: 10.12677/PM.2021.117148, PDF, HTML, XML, 科研立项经费支持
作者: 鲁海波：新疆师范大学数学科学学院，新疆乌鲁木齐
关键词: Tobit模型；样本量；序贯压缩估计；停止法则；Tobit Models； Sample Size； Shrinkage Estimate； Stopping Rule

摘要: Tobit回归模型在计量经济学等研究领域中有着广泛的应用。但是我们在处理面板数据以及时间序列数据时经常会遇到包含太多变量的数据集，而这些变量中只有少数变量对模型有贡献。为了去除这些“无效变量”的影响，在本文中，我们提出一种基于自适应压缩估计的序贯抽样策略来构造“有效”参数的固定长度的置信集，并在自适应设计下对所提出的序贯抽样策略进行数值模拟，最后数值模拟达到了预期的效果。

Abstract: In the applications of Tobit regression models we always encounter the data sets which contain too many variables, but only a few of them contribute to the model. Therefore, it will waste much more samples to estimate the “non-effective” variables in the inference. In this paper, we use a sequential procedure for constructing the fixed size confidence set for the “effective” parameters to the model based on an adaptive shrinkage estimate such that the “effective” coefficients can be efficiently identified with the minimum sample size. Adaptive design is considered for numerical simulation.

文章引用：鲁海波. 一种基于Tobit回归模型的序贯压缩估计方法研究[J]. 理论数学, 2021, 11(7): 1320-1325. https://doi.org/10.12677/PM.2021.117148

1. 引言

Tobit回归模型 [1] 是一种因变量受限模型，被称作样本选择模型，或者删失回归模型。Tobit回归模型被广泛应用于计量经济学等众多研究领域 [2] [3] [4]，在面板数据和时间序列数据的分析中发挥着越来越重要的作用。假设 $a^{+} = \max {a, c}$ ，我们可以如下定义Tobit回归模型

$y_{i}^{+} = \max {x_{i}^{T} β_{0} + ε_{i}, c}, i = 1, 2, \dots, n$ (1)

其中， $β_{0}$ ( $p$ 维向量)是回归系数， $x_{i}$ 是 $p$ 维协变量， $ε_{i}$ 是随机误差。然而，在计量经济学等领域对面板数据或者时间序列数据等分析研究中，常常会遇到数据集通常有大量的解释变量，但其中只有少数对模型有贡献。也就是说，在一个 $p$ 维的回归系数中只有 $p_{0}$ ( $p_{0} < p$ 且 $p_{0}$ 未知)个分量是取非零值的，我们称之为有效变量 [5]。目前有很多方法可以用来识别有效变量，如LASSO [6] 和LARS [7] 等等。但另外需要关注的问题是，用多少样本才能既识别出有效变量，同时又能使参数估计达到预定的精度。这对于计量经济学等领域需要考虑抽样成本的研究具有重要的意义。对于线性回归模型，Wang 和Zhang (2013) [5] 提出了一种序贯压缩估计方法来识别有效变量，从而达到参数估计的精度。数值模拟结果表明，与传统的序贯抽样方法相比，序贯压缩估计不仅可以从所有变量中识别出有效变量，而且可以节省大量样本。对于Tobit回归模型，如何提出相应的序贯估计方法以及在自适应设计下给出相关性质和数据模拟有待进一步的研究。本文针对Tobit回归模型提出了一种基于自适应压缩估计(ASE)来构造有效变量的固定窗宽的置信集的序贯抽样方法，使有效变量能以最小样本量快速识别。本文将在适应性设计(adaptive design)下研究所提出的自适应压缩估计(ASE)的大样本性质，同时在自适应性设计下通过数值模拟得到了很好的模拟结果。

2. 基于Tobit模型的序贯自适应压缩估计(ASE)

2.1. 最小一乘估计(LAD)

不失一般性在模型(1)中，令 $c = 0$ 。假设随机误差 $ε_{i}, i = 1, 2, \dots, n$ 独立同分布且 $ε_{i} \sim N (0, σ^{2})$ ，那么似然函数的形式为：

$L = \prod_{0} (1 - Φ (\frac{x_{i}^{T} β}{σ})) \prod_{1} σ^{- 1} ϕ (\frac{x_{i}^{T} β}{σ})$

其中 $Φ$ 和 $ϕ$ 分别为标准正态分布的概率分布函数和密度函数， $\underset{0}{Π}$ 为集合 ${i : y_{i} \leq 0}$ 中若干元素的乘积， $\underset{1}{Π}$ 为集合 ${i : y_{i} > 0}$ 中若干元素的乘积。记

$Q_{n} (β) = \sum_{i = 1}^{n} | y_{i}^{+} - \max {x_{i}^{T} β, 0} |$

使 $Q_{n} (β)$ 达到最小的 $β$ 被称为回归参数 $β$ 的最小一乘估计 [8]，记为 ${\tilde{β}}_{n}$ 。我们给定假设条件：

(A1) $\sup_{i} ‖ x_{i} ‖ < \infty$ ；

(A2) 若随机误差 $ε_{i}$ 的密度函数 $f (x)$ 满足 $f (0) = 0$ 和 $m e d (ε_{i}) = 0$ ，那么存在 $δ > 0$ 使得 $\lim_{n \to \infty} \frac{λ}{\log n} \sum_{i = 1}^{n} I (x_{i}^{T} β > δ) x_{i} x_{i}^{T} = \infty$ 。

当 ${\tilde{β}}_{n}$ 满足(A1)和(A2)时，文献 [9] 给出了 ${\tilde{β}}_{n}$ 的相合性和渐近正态性：

$\lim_{n \to \infty} {\tilde{β}}_{n} = β_{0}, a . s .$

$(2 f (0) M_{n}^{1 / 2}) \cdot \sqrt{n} ({\tilde{β}}_{n} - β_{0}) \overset{d}{\to} N (0, I_{n})$

其中 $I_{n}$ 是单位阵，并且 $M_{n} = E (\frac{1}{n} \sum_{i} I (x_{i}^{T} β_{0} > 0) x_{i} x_{i}^{T})$ 。

2.2. 自适应压缩估计(ASE)

设 $κ = κ (n)$ ，当 $n \to \infty$ 时，存在 $0 < δ < 1 / 2$ 和 $γ > 0$ 使得 $n^{\frac{1}{2}} κ \to 0$ ， $n^{\frac{1}{2} + γ δ} κ \to \infty$ 。下面我们给出Tobit回归模型下回归系数的自适应压缩估计的定义：

定义2.2.1 设 $\tilde{β}$ 为模型(1)的最小一乘估计，则称 ${\hat{β}}_{n} = I n (ε) {\tilde{β}}_{n}$ 为回归系数 $β_{0}$ 的自适应压缩估计(ASE)，其中 $I_{n} (ε) = d i a g {I_{n 1} (ε), I_{n 2} (ε), \dots, I_{n p} (ε)}$ 是一个 $p \times p$ 维对角阵。同时可以证明 ${\hat{β}}_{n} = I n (ε) {\tilde{β}}_{n}$ 满足相合性和渐进正态性。

2.3. 序贯抽样策略

依据文献 [10] [11] 中的结论我们可以证明 $\sqrt{n} ({\hat{β}}_{n} - β_{0}), n = 1, 2, \dots$ 是依概率一致连续的，由此可得如下定理：

定理2.3.1 设随机变量N(t)取正整数值，当 $t \to \infty$ 有 $N (t) / t$ 依概率收敛于1，且条件(A1)和(A2)成立，则当 $t \to \infty$ 时，

$\sqrt{N (t)} ({\hat{β}}_{N (t)} - β_{0}) \to N (0, I_{0} Σ I_{0}^{- 1})$

由定理2.3.1我们可以构造 $β_{0}$ 的置信集和能够决定最小样本量的停止法则的序贯抽样策略。设 ${(y_{i}, x_{i}) : i = 1, 2, \dots, k}$ 是最先进入研究的 $k$ 个样本，用 $C_{k}$ 来表示。在任意给定小正数 $ε$ 下，

${\hat{p}}_{0} (k) = \sum_{j = 1}^{p} I_{k j} ( ε )$

是回归系数 $p_{0}$ 基于条件 $C_{k}$ 的估计量。令 $a_{k}^{2} \in R$ 对任意 $α > 0$ ，有 $P (χ_{{\hat{p}}_{0} (k)}^{2} \leq a_{k}^{2} | C_{k}) = 1 - α$ 成立。现在定义停时法则 $N_{d}$ 为

$N = N_{d} \equiv \inf {k : k \geq n_{0} and \frac{d^{2}}{a_{k}^{2}} \geq ν_{k}}$ , (2)

其中 $ν_{k}$ 是 $k I_{k} (ε) {(Σ)}^{- 1} I_{k} (ε)$ 的最大特征值， $d$ 是置信集的预设精度。在本文的序贯估计策略中，一次只有一个新的观测进入研究直到满足(2)式的停止法则时就停止抽样，此时 $β_{0}$ 的置信集为

$R_{N} = {Z \in R^{p} : \frac{S_{N}}{N} \leq \frac{d^{2}}{ν_{N}} 且当 I_{N_{j}} (ε) = 0 时, z_{j} = 0, 1 \leq j \leq p}$ (3)

其中 $S_{N} = {(Z_{N_{1}} - {\hat{β}}_{N_{1}})}^{T} {\tilde{Σ}}_{11} (Z_{N_{1}} - {\hat{β}}_{N_{1}})$ 。我们所提出的序贯抽样方法致力于找到有效变量的同时忽略无效变量的影响，这是和传统序贯方法相比我们能够节省大量样本的关键，在下面的定理中我们给出停时 $N_{d}$ 和置信集 $R_{N}$ 的相关性质。

定理2.3.2 假定条件(A1)和(A2)都成立，设N是满足(2)式的停时，则：

i) $\lim_{d \to 0} \frac{d^{2} N}{a^{2} ν} = 1$ ，a.s.；ii) $\lim_{d \to 0} P (β_{0} \in R_{N}) = 1 - α$ ；

iii) $\lim_{d \to 0} \frac{d^{2} E (N)}{a^{2} ν} = 1$ ；iv) $\lim_{d \to 0} {\hat{p}}_{0} (N) = p_{0}$ ，a.s.且 $\lim_{d \to 0} E ({\hat{p}}_{0} (N)) = p_{0}$ ，

其中 $ν$ 是矩阵 $I_{0} Σ^{- 1} I_{0}$ 的最大特征值。

3. 数值模拟

在固定样本量下用所提方法对随机数据集合进行分析，以此来验证所提出的序贯压缩估计方法的性能。按照停止法则的定义，当抽样停止时，最终的置信集将满足预设精度和覆盖概率，因此我们可以比较分别基于LAD和ASE的序贯抽样方法的平均停时。由于序贯压缩估计方法忽略无效变量的影响，故理论上平均所需停时应该显著小于不考虑变量选择的序贯方法。如果事先已知有效变量为 $p_{0}$ 个同时无无效变量，那么只使用这 $p_{0}$ 个有效变量的序贯方法无疑是效率最高的。所以，为便于比较，我们将所有( $p_{0}$ 个)变量全部为有效变量的序贯估计方法作为基准线，在此情况下所获得的样本量应该是最小的。在自适应设计下，随机模拟数据集中的 $x_{1}$ 仍然由多元标准正态分布生成， $x_{j} (j > 1)$ 由均值为 $\sum_{i = 1}^{j - 1} [x_{j} / (j - 1)]$ ，方差协方差矩阵为单位阵的多元正态分布生成。不失一般性，选择模型(1)中的常数 $c = 0$ 。回归系数真值取 $(- 1.2, 2.0, 0, 0, 0, 0, 0, 0, 0, 0)$ ，其中含有八个无效变量，回归系数置信集的预设精度 $d \in {0.3, 0.4, 0.5, 0.6}$ ，取 $α = 0.05$ ， $γ = 1$ ， $δ = 0.45$ ， $θ = 0.75$ 。另外当用ASE方法时我们用BIC方法来确定 $ε$ 。

表1描述了Tobit回归模型下的序贯抽样方法的数值模拟结果。在表1中我们列出了最终样本量N (停

时)， $κ^{*} = d^{2} N / (a^{2} ν)$ 和95%置信集的经验覆盖概率 $R_{N}$ 。所有三种情况( ${LAD}_{p_{0}}$ , ASE, LAD)下的 $κ$ 值都非

常接近1，并且当d不断减小时经验覆盖概率CP越来越接近95%，正如定理2.3.2描述的一样。然而，应用LAD方法所得的样本量N比应用ASE方法和 ${LAD}_{p_{0}}$ 都大得多。而应用ASE的抽样策略所需的样本量和应用 ${LAD}_{p_{0}}$ 的抽样策略所需样本量差不多，这说明我们所提方法在变量选择的同时效率和回归参数中只有有效变量无无效变量的情况下的效率非常接近，而比不做变量选择情况下(即LAD)的抽样效率提高很多。

表2比较了在估计Tobit回归模型的回归系数时分别应用ASE和LAD的抽样策略对识别回归系数中的有效变量和无效变量的效率。从结果可以看出应用ASE的抽样策略时不能被正确识别的零变量的平均个数几乎趋向于0，而能被正确识别的非0变量的平均个数和模型中有效变量个数的真值非常接近(2和8)。结果表明基于ASE的序贯抽样策略下 ${\hat{p}}_{0}$ 是 $p_{0}$ 的优良估计。而基LAD的序贯抽样策略不能识别有效变量，因此无法获得 $N_{c}^{*}$ 和 $N_{i c}^{*}$ 的值。此外，所有参数的估计值和它们的真值都非常接近。

Table 1. Results of sequential sampling method based on ASE, LAD with all variables and LAD with only p 0 non-zero variables for Tobit regression model

表1. Tobit回归模型下分别应用ASE，LAD和 ${LAD}_{p_{0}}$ 的序贯抽样方法的结果分析

；是95%置信集的经验覆盖概率；^**经验标准差在括号内。

Table 2. Power of variable identification and estimation of nonzero components under sequential sampling method based on ASE and LAD with Tobit regression model

表2. Tobit回归模型下分别应用ASE和LAD的序贯抽样策略的变量识别和非零参数估计效率

：中零分量(无效变量)被错误识别的平均个数；：中非零分量(有效变量)被正确识别的平均个数。

4. 结论

在Tobit回归模型下基于自适应压缩估计(ASE)建立的序贯抽样方法不仅能够用最少的样本识别出回归参数中的有效变量，同时可以使回归参数的估计值达到预设的精度 [12]。我们在自适应设计下对相关性质做数值模拟，结果表明和传统的序贯抽样方法相比，我们提出的方法能够节省大量样本。然而，本文中所提方法涉及到的变量维数是固定的，后期我们将研究当变量维数随样本量变化时的序贯抽样方法的相关性质。

基金项目

1) 新疆师范大学博士科研启动基金项目：“基于广义线性模型的序贯分析研究”XJNUBS1539；

2) 新疆维吾尔自治区高校科研计划项目：“基于Cox比例风险回归模型的序贯分析研究”(XJEDU2016I033)。

参考文献

[1]	Tobin, J. (1958) Estimation of Relationships for Limited Dependent Variables. Econometrica, 26, 24-36. https://doi.org/10.2307/1907382
[2]	Adams, J.D. (1980) Personal Wealth Transfers. Quarterly Journal of Eco-nomics, 95, 159-179. https://doi.org/10.2307/1885354
[3]	Ashenfelter, O. and Ham, J. (1979) Education, Unemployment, and Earnings. Journal of Political Economy, 87, S99-S116. https://doi.org/10.1086/260824
[4]	Fair, R.C. (1978) A Theory of Extramarital Affairs. Journal of Political Economy, 86, 45-61. https://doi.org/10.1086/260646
[5]	Wang, Z.F. and Chang, Y.I. (2013) Sequential Estimate for Linear Regression Models with Uncertain Number of Effective Variables. Metrika, 76, 949-978. https://doi.org/10.1007/s00184-012-0426-4
[6]	Tibshirani, R. (1996) Regression Shrinkage and Selection via the Lasso. Journal of the Royal Statistical Society, Series B, 58, 267-288. https://doi.org/10.1111/j.2517-6161.1996.tb02080.x
[7]	Efron, B., Hastie, T., Johnstone, I. and Tibshirani, R. (2004) Least Angle Regression. Journal of Annals of Statistics, 32, 407-499. https://doi.org/10.1214/009053604000000067
[8]	Powell, J.L. (1984) Least Absolute Deviations Estimation for the Censored Regression Model. Journal of Econometrics, 25, 303-325. https://doi.org/10.1016/0304-4076(84)90004-6
[9]	Chen, X.R. and Wu, Y.H. (1994) Consistency of l1 Estimates in Censored Linear Regression Models. Communications in Statistics, 23, 1847-1858. https://doi.org/10.1080/03610929408831360
[10]	Anscombe, F.J. (1952) Large Sample Theory of Sequential Es-timation. Mathematical Proceedings of the Cambridge Philosophical Society, 48, 600-607. https://doi.org/10.1017/S0305004100076386
[11]	Woodroofe, M. (1982) Nonlinear Renewal Theory in Sequential Analysis. Society for Industrial and Applied Mathematics, Philadelphia. https://doi.org/10.1137/1.9781611970302
[12]	Chow, Y.S. and Robbins, H. (1965) On the Asymptotic Theory of Fixed-Width Sequential Confidence Intervals for the Mean. Annals of Mathematical Statistics, 36, 457-462. https://doi.org/10.1214/aoms/1177700156

为你推荐

友情链接