1. 引言
“十四五”规划纲要提出要全面推进健康中国建设,标志着我国医疗卫生事业发展迈向新征程[1]。医疗支出不同于其他类型的支出,其不仅受制于家庭收入水平,而且与个体健康质量等直接关联。近年来,国家大力投入居民医疗卫生事业,致力于缩小地区、收入层次之间的医疗资源差距,确保每个公民都能够享受到基本医疗保障[2]。
从2013年至2022年,我国卫生总费用从31661.5亿元增长至85327.49亿元,具体来讲,居民的个人卫生支出由10726.8亿元增长至22914.5亿元,人均卫生总费用从2326.8元增长至6044.1元,增加了约1.57倍,且人均卫生总费用占比逐年上升。而这十年间,居民人均GDP仅增加了约0.97倍。由此可见,医疗支出已经逐渐成为居民日常消费支出中不容忽视的部分。在全面推进乡村振兴战略的大背景下,随着脱贫攻坚成果的巩固,农村地区居民对医疗服务的需求日益增长。
医疗问题关系到人们的健康和福祉,解决群众医疗问题是社会发展和公共服务的重要方面之一[3],从现有的研究文献中不难发现,影响人们医疗支出的因素众多,而大部分研究选取影响因素时偏向微观[4] [5],为了更好地解决农村地区居民的医疗需求,本文结合社会人口特征和地区特征两个维度,通过Lasso回归筛选重要变量后,再采用Koenker和Bassett提出的分位数回归方法[6],探究其医疗支出的影响因素至关重要,全方位了解我国农村地区居民医疗支出的影响因素,为制定切实政策提供理论依据。本文的贡献在于:第一,突破传统文献对医疗支出影响因素的单一关注,通过融合社会人口特征和地区特征的双重维度,更全面地研究农村地区居民医疗支出的影响因素。第二,通过结合LASSO回归和分位数回归更深入研究医疗支出的不同水平下各影响因素的异质效应。
2. 文献综述
近年来,随着社会经济的快速发展和乡村振兴战略的大力推进,农村地区居民的医疗支出成为重点关注的问题,在研究居民医疗支出的影响因素时,国内外学者通常会采用定性和定量分析相结合的方式,分析各因素对居民医疗支出的影响。
已有文献主要从社会人口特征的角度进行探讨大多以社会人口特征来研究居民医疗支出。早期学者从健康状态的视角出发,探究健康状况与医疗支出的影响,Sahoo等人指出健康状况的改善与医疗服务的利用息息相关,随着健康状况的恶化,人们对医疗服务的需求以及医疗支出都在上升[7]。在此基础上,部分学者运用分位数多变量回归进一步分析了疾病类型和严重程度对医疗支出的具体影响,提出了慢性病患者的医疗需求更高[8]。已有大量的文献认为农村老年人的医疗支出受年龄影响最为显著[9],李呈呈等人指出老年人医疗支出随年龄增长显著增加。尤其是在低医疗支出的高龄老年人群体中,年龄的增加对医疗支出的影响更为强烈。这一发现突出了年龄因素在老年人医疗支出中的核心作用,尤其是对于低支出群体,其医疗支出随着年龄增长的敏感性更高[10]。医疗保险均能够缓解农村家庭就医经济负担,但也会增加家庭发生灾难性医疗支出的概率[11]。此外,随着移动支付技术的快速发展,支付方式对医疗支出的影响逐渐引起学者们的关注。谢磊指出,在疾病冲击下,移动支付可以提高居民的医疗服务利用频率,进而增加家庭医疗支出[12]。
另一方面,樊敏杰等人从政府投入的视角出发,建立RIF-Gini回归模型探究政府医疗卫生支出对于居民健康水平及健康差距的影响因素。结果显示,国家通过疾病预防、医疗服务利用和医疗服务供给等渠道加大政府医疗卫生支出,缩小了居民健康差距[13]。
综上所述,现有文献少有研究地区特征对农村地区居民医疗支出的影响,而本文将融合社会人口特征和地区特征双重维度以深入探究其异质效应及作用机制,拓展居民医疗服务方面的相关研究。
3. 研究设计
(一) 数据来源与样本选择
本文选取2022年中国家庭追踪调查(China Family Panel Studies, CFPS)、《中国卫生统计年鉴》及《中国统计年鉴》中农村地区的数据作为原始样本。并根据以下原则对数据进行清洗与处理:① 使用Stata匹配个人库、家庭经济库及地区特征变量,并对缺失值进行插补处理;② 剔除样本数据异常的数据。最后共得到7194个观测值。
根据已有文献,本文基于社会人口特征及地区特征两个维度,选取了16个可能影响医疗支出的变量,见表1。
Table 1. Variable Indicators and Measures
表1. 变量指标与测度
变量 |
定义 |
赋值方法 |
因变量 |
|
医疗支出 |
|
原始数值 + 1,取对数(元) |
自变量 |
|
社会人口特征 |
|
年龄 |
|
(岁) |
性别 |
|
性别:女性 = 0 (参照组)、男性 = 1 (
) |
受教育年限 |
|
文盲/半文盲/没上过学为0年,小学为6年,初中为9年,高中/中专/技校/职高为12年,大专为15年,大学本科为16年,硕士为19年,博士为23年,故受教育年限在0~23年之间。(年) |
是否有配偶 |
. |
离婚、丧偶、未婚 = 0 (参照组),在婚、同居 = 1 (
) |
是否有工作 |
. |
无(失业、退出劳动力市场、退休) = 0 (参照组有工作 = 1 (
) |
是否上网 |
|
不上网 = 0 (参照组),上网(移动设备或者电脑上网) = 1 (
) |
续表
半年内是否有慢性疾病 |
|
无慢性疾病 = 0 (参照组),有慢性疾病 = 1 (
) |
对看病点的评价 |
|
不及很不好(认为看病点条件差) = 0 (参照组),认为看病点条件一般 = 1,好及很好(认为看病点条件好) = 2 |
医疗保险 |
|
无保险 = 0 (参照组),城镇职工医疗保险 = 1 (
),新型农村医疗合作保险 = 2 (
),城乡居民基本医疗保险 = 3 (
),公疗 = 4 (
),补充医疗保险 = 5 (
) |
是否锻炼身体 |
|
不锻炼 = 0 (参照组),锻炼 = 1 (
) |
收入水平 |
|
家庭人均收入原始数值 + 1,再取对数(元) |
家庭成员数量 |
|
(人) |
地区特征 |
|
地区经济水平 |
|
地区人均可支配收入原始数值 + 1,再取对数(元) |
地区医疗水平 |
|
人均医疗保健支出原始数值 + 1,再取对数(元) |
每千乡村人口卫生技术人员数 |
|
(村卫生室人员数/某市所有乡村人数) * 1000 (人) |
每千乡村人口村卫生室机构数 |
|
(村卫生室机构数/某市所有乡村人数) * 1000 (个) |
(二) 模型构建
1) LASSO回归
LASSO回归,即Least Absolute Shrinkage and Selection Operator,是由Robert Tibshirani提出的一种方法[14],用于变量选择和防止过拟合。它是在普通最小二乘(OLS)回归的基础上,引入了L1范数惩罚项,迫使某些回归系数变为零,从而达到特征选择的效果。
普通线性模型LASSO回归的目标函数为:
(1)
其中λ是调节参数。
2) 多重线性回归
多重线性回归是研究一个连续型因变量和多个自变量之间线性关系的统计学分析方法,其模型如下:
(2)
其中
是自变量,
是待估计系数,
是截距,
是随机误差,j是引入的自变量个数。
3) 分位数回归
分位数回归是由Koenker与Bassett提出的一种估计方法,它与传统线性回归不同,分位数回归是一种基于因变量的条件分布来拟合自变量线性函数的回归模型[15],它有很强的稳健性,并且能够对极端值进行分析,也不需要对模型中的误差项做任何假设[16]。分位数回归模型如下:
(3)
其中
是自变量,
是待估计系数,
是随机误差,
是截距,q是分位数取值,0 < q < 1,j是引入的自变量个数。
4. 实证结果及分析
使用Stata软件整理数据并进行统计分析,采用频数、最小值、最大值等进行数据的描述性分析;LASSO回归模型、多重线性回归及分位数回归拟合部分使用R软件进行分析。
(一) 调查样本基本情况
Table 2. Descriptive statistics of variables
表2. 变量的描述性统计
变量 |
观测值 |
均值 |
标准差 |
最小值 |
最大值 |
|
7194 |
7.082 |
1.768 |
0.693 |
12.899 |
|
7194 |
48.120 |
16.722 |
16 |
95 |
|
7194 |
0.461 |
0.498 |
0 |
1 |
|
7194 |
7.240 |
4.837 |
0 |
19 |
|
7194 |
0.795 |
0.403 |
0 |
1 |
|
7194 |
0.750 |
0.433 |
0 |
1 |
|
7194 |
0.640 |
0.479 |
0 |
1 |
|
7194 |
0.244 |
0.429 |
0 |
1 |
|
7194 |
2 |
0.720 |
0 |
3 |
|
7194 |
1.9 |
0.702 |
0 |
5 |
|
7194 |
0.370 |
0.482 |
0 |
1 |
|
7194 |
9.688 |
1.087 |
0 |
14.796 |
|
7194 |
4 |
2.047 |
1 |
16 |
|
7194 |
9.756 |
0.282 |
9.344 |
10.559 |
|
7194 |
7.324 |
0.183 |
6.196 |
7.795 |
|
7194 |
3.048 |
0.795 |
1.427 |
5.095 |
|
7194 |
1.414 |
0.427 |
0.432 |
2.302 |
Figure 1. Histogram of medical expenditure and the logarithm of medical expenditure
图1. 医疗支出和医疗支出对数的直方图
在7194份观测样本中,男性占46.1%,女性占53.9%;有配偶占79.5%,没有配偶占20.5%;有工作占75 %,没有工作占25%;使用互联网占64%,不使用互联网占36%;半年内有慢性疾病占24.4%,半年内没有慢性疾病占75.6%;锻炼身体的人占37%,不锻炼身体的人占63%。见表2。
图1展示的是医疗支出和医疗支出对数的直方图,纵坐标为频数,可见医疗支出呈现的是偏态分布,而医疗支出取对数后的直方图近似呈现对称分布。
Figure 2. Kernel density estimation of medical expenditure
图2. 医疗支出的核密度估计图
图2展示的是医疗支出取对数后的核密度估计图,纵坐标为核密度的估计值,可见医疗支出取对数后近似呈现对称分布。因此,为了避免异方差问题,本文将使用对数处理后的医疗支出作为因变量。
(二) 多重共线性检验
为了避免出现多重共线性,确保结果的准确性,对上述变量进行多重共线性检验,结果见表3。最大的VIF为4.107,小于通常认为的多重共线性阈值5 [17],并且所有变量间的Mean VIF为1.841,同样小于多重共线性的阈值5,因此得出各变量之间不存在多重共线性。
Table 3. Results of multicollinearity test
表3. 多重共线性检验结果
Variable |
VIF |
|
2.338 |
|
1.083 |
|
1.733 |
|
1.312 |
|
1.157 |
|
1.703 |
|
1.209 |
|
1.025 |
|
1.022 |
续表
|
1.109 |
|
1.204 |
|
1.116 |
|
2.066 |
|
1.698 |
|
3.744 |
|
4.107 |
Mean VIF |
1.841 |
(三) LASSO回归筛选变量
为了进一步筛选出重要变量,本文使用LASSO回归方法来进行变量选择,调用R语言的glment包完成,采取交叉验证来得到模型误差与
的关系,通过计算,均方误差最小时对应的
为0.003,见图3。
Figure 3. Mean squared error graph of cross-validation
图3. 交叉验证的均方误差图
Figure 4. LASSO variable selection diagram
图4. LASSO变量筛选图
LASSO回归模型共计纳入15个变量,包括年龄、性别、受教育水平、是否有配偶、是否有工作、是否上网、是否锻炼身体、半年内是否有慢性病、是否有医疗保险、收入水平、家庭成员数量、地区经济水平、地区医疗水平、每千乡村人口卫生技术人员数、每千乡村人口村卫生室机构数,即这些因素为居民医疗支出的重要影响因素。见图4和表4。
Table 4. LASSO regression coefficient estimates
表4. LASSO回归变量系数估计值
Variable |
Coe |
(Intercept) |
5.014 |
|
0.020 |
|
−0.102 |
|
−0.003 |
|
0.366 |
|
−0.317 |
|
−0.060 |
|
1.152 |
|
0.009 |
|
−0.090 |
|
0.036 |
|
−0.008 |
|
−0.202 |
|
0.373 |
|
0.051 |
|
−0.236 |
(四) 医疗支出的多重线性回归分析
以医疗支出的对数作为因变量,以LASSO回归筛选出的15个变量作为自变量进行多重线性回归,结果显示,调整R2为0.193,回归方程有统计学意义(F = 91.43, P < 0.01)。具体来看,年龄、男性、有工作、半年内有慢性疾病、城镇职工医疗保险、新型农村合作医疗保险、有配偶、锻炼身体、收入水平、地区医疗水平、地区经济水平、每千乡村人口卫生技术人员数、每千乡村人口村卫生室机构数对居民的医疗支出均有显著性影响,且相比没有医疗保险的居民,参加城镇职工医疗保险或者新型农村合作医疗保险对农村地区居民医疗支出有显著性影响,而参加城乡居民基本医疗保险、公费医疗、补充医疗保险对农村地区居民医疗支出没有显著差异。见表5。
Table 5. Multiple linear regression analysis of medical expenditure
表5. 医疗支出的多重线性回归分析
Variable |
Estimate |
Std. Error |
T−value |
Pr (>|t|) |
(Intercept) |
5.269 |
0.862 |
6.107 |
1.07e−09*** |
|
0.020 |
0.002 |
11.892 |
< 2e−16*** |
|
−0.102 |
0.038 |
−2.623 |
0.00874*** |
|
−0.007 |
0.005 |
−1.508 |
0.13157 |
|
0.360 |
0.053 |
6.799 |
1.13e−11*** |
|
−0.354 |
0.046 |
−7.571 |
4.18e−14*** |
|
−0.065 |
0.050 |
−1.282 |
0.19992 |
|
1.155 |
0.045 |
25.138 |
< 2e−16*** |
|
|
续表
|
0.426 |
0.103 |
4.140 |
3.51e−05*** |
|
0.162 |
0.079 |
2.042 |
0.04119*** |
|
0.104 |
0.101 |
1.026 |
0.30490 |
|
0.143 |
0.228 |
0.628 |
0.53011 |
|
0.063 |
0.244 |
0.261 |
0.79413 |
|
−0.109 |
0.041 |
−2.666 |
0.00770*** |
|
0.031 |
0.019 |
1.676 |
0.09377 * |
|
−0.008 |
0.009 |
−0.857 |
0.39140 |
|
0.414 |
0.132 |
3.122 |
0.00181*** |
|
−0.266 |
0.095 |
−2.786 |
0.00534*** |
|
0.076 |
0.045 |
1.668 |
0.09527* |
|
−0.287 |
0.088 |
−3.236 |
0.00122*** |
Adjust R2 = 0.193 |
注:*p < 0.1、**p < 0.05、***p < 0.01。
(五) 医疗支出的分位数回归分析
Table 6. Quantile regression results
表6. 分位数回归结果
Variable |
分位数 |
10% |
30% |
50% |
70% |
90% |
β |
β |
β |
β |
β |
(Intercept) |
4.471*** |
5.690*** |
5.108*** |
5.282*** |
5.674*** |
|
0.019*** |
0.023*** |
0.022*** |
0.019*** |
0.015*** |
|
−0.285*** |
−0.272*** |
−0.170*** |
0.003 |
0.218*** |
|
−0.010 |
−0.002 |
−0.008 |
−0.017*** |
−0.013** |
|
0.308*** |
0.293*** |
0.286*** |
0.385*** |
0.363*** |
|
−0.153*** |
−0.244*** |
−0.296*** |
−0.433*** |
−0.561*** |
|
0.032 |
−0.101* |
−0.054 |
−0.086 |
−0.016 |
|
1.242*** |
1.289*** |
1.210*** |
1.094*** |
0.918*** |
|
|
|
0.311** |
0.424*** |
0.461*** |
0.437*** |
0.403** |
|
0.002 |
0.059 |
0.146 |
0.225** |
0.226* |
|
0.101 |
0.058 |
0.101 |
0.162 |
−0.085 |
|
0.129 |
0.185 |
0.141 |
0.228 |
0.212 |
|
0.089 |
0.002 |
−0.231 |
−0.060 |
0.244 |
|
−0.010 |
−0.085* |
−0.175*** |
−0.213*** |
−0.072 |
|
0.017 |
0.049** |
0.034 |
0.044* |
0.047 |
|
−0.016 |
0.001 |
−0.002 |
−0.003 |
−0.017 |
|
−0.338** |
−0.306*** |
−0.298** |
−0.251* |
−0.070 |
续表
|
0.369** |
0.249 |
0.458*** |
0.501*** |
0.371** |
|
0.129** |
0.031 |
0.061 |
0.041 |
0.145** |
|
−0.345** |
−0.197* |
−0.265** |
−0.223* |
−0.311*** |
MAE |
2.078 |
1.412 |
1.257 |
1.440 |
2.246 |
MSE |
6.301 |
3.288 |
2.532 |
3.164 |
6.908 |
注:*p < 0.1、**p < 0.05、***p < 0.01。
基于上述研究,为进一步分析各因素对农村地区居民医疗支出的影响,使用分位数回归模型进行分析。从表6可以看出,在各分位点上,年龄、有配偶、半年内有慢性疾病、有城镇职工医疗保险对农村地区居民医疗支出的影响显著为正。在部分分位点上,新型农村合作医疗保险、收入水平、地区医疗水平、每千乡村人口卫生技术人员数对农村地区居民医疗支出的影响显著为正。新型农村合作医疗保险的系数估计值随着分位数的增加而增加,而年龄、半年内有慢性疾病、城镇职工医疗保险有的系数估计值均随着分位数的增加呈现出先增加后减小的特征。
有工作和每千乡村人口村卫生室机构数对农村地区居民医疗支出的影响都显著为负。在部分分位点上,受教育年限、锻炼身体、地区经济水平对农村地区居民医疗支出的影响都显著为负。其中,有工作的系数估计值随着分位数的增加而减小,地区经济水平的系数估计值随着分位数的增加而增加。此外,男性在0.1分位、0.3分位和0.5分位对医疗支出的影响显著为负,在0.9分位对医疗支出的影响显著为正。
5. 结论与建议
(一) 结论
本文使用LASSO回归筛选变量、多重共线性回归及分位数回归来分析年龄等11个社会人口特征和地区特征等4个宏观因素对农村居民医疗支出影响。
结果发现,针对不同分位的医疗支出,其影响因素效应各异。
1) 在社会人口特征方面,对于医疗支出水平较低的居民,应着重关注的影响因素为年龄、性别、半年内是否有慢性疾病、地区医疗水平;对于医疗支出水平中等的居民,应着重关注的影响因素为是否参加城镇职工医疗保险、地区经济水平、是否锻炼身体;对于医疗支出水平较高的居民,应着重关注的影响因素为是否有配偶、是否有工作;此外,性别是医疗支出水平较低和较高都需要关注的因素。
2) 在地区特征方面,在医疗支出水平较低和较高都需要关注的因素为每千乡村人口村卫生室机构数。
(二) 政策建议
根据上述回归结果和结论,本文针对不同医疗支出水平的居民给出以下政策建议:
1) 关注重点人群,优化医疗保障政策
针对老年人和慢性疾病患者,鼓励建立长期护理保险,提高慢性疾病患者的医保报销比例,降低其医疗负担;加强对不同性别人群,特别是女性在生育、乳腺癌等方面的健康教育;推动企业为员工提高更全面的健康保险服务,优化医疗保障政策,提升医疗可及性。
2) 强化农村医疗保障体系
优化新型农村合作医疗保险政策,提高报销比例;扩大城镇职工医疗保险覆盖范围,例如鼓励农村地区居民灵活就业以提高参加城镇职工医疗保险的占比。不同医疗保险政策存在着不平衡,需要深化医疗改革,从而提高医疗保障水平,减少医疗支出负担。
3) 促进农村医疗资源均衡发展
加大对乡村医疗设施的投资,加强乡村医生培训,提高诊疗能力,通过优化乡村卫生室布局,确保基层医疗机构能够覆盖更多居民,增加农村地区居民的就医质量。