1. 引言
消费是拉动经济增长的“三架马车”之一,消费是社会再生产的重要环节,是社会经济活动的出发点和归宿,消费结构的状况反映社会经济发展的水平。近年来,随着我国经济快速发展,居民消费结构也发生很大变化。由于各地区的经济发展不均衡,使得各地区的消费结构仍然存在着明显差别。为了进一步改善消费结构,正确引导消费,提高我国城镇居民的消费水平,有必要考察我国各地区城镇居民的消费结构之间的差异并进行比较研究,从宏观上观测各地区城镇居民的消费现状和不同地区消费结构及消费水平的差异,为提高我国各地区消费水平提供决策依据。本文选取2022年我国城镇居民人均消费支出数据,首先运用层次聚类法对各地区人均消费结构进行聚类。然后运用K-Means聚类法,对各地区人均消费结构进行K-Means聚类,不仅从总体上掌握了消费结构类型的地区分布,而且系统阐述了各地区消费结构的特点,最后在此基础上提出了促进城镇居民消费结构合理化的政策建议,为我国各地区因地制宜地制定消费政策提供了科学合理的决策借鉴。
2. 国内外研究现状
许多学者运用消费结构模型分析体系中的因子分析法、聚类法、VAR模型、面板模型以及灰色关联分析等对消费结构进行了深入研究。Matyas et al. [1] (1992)采用面板数据(Panel Data)模型来研究居民消费结构中关于消费的相关变量。卢方圆等 [2] (2009)是将中国农村居民的消费结构作为研究对象,并且通过Panel data模型,得出层次不同的农村居民的消费支出差异较大。查道中等 [3] (2011)通过var模型重点研究了经济增长和产业结构二者与城乡的居民消费结构之间的关系,研究表明经济增长和产业结构两者中,经济增长对消费结构的作用更明显,而产业结构的作用相对较弱。马银晓等 [4] (2012)通过因子分析和聚类分析二者相结合研究了我国31个省的消费结构,并将31个省市的消费结构可以划分为五大类别。朱玉春等 [5] (2013)运用灰色关联分析法研究了农村的收入变动对消费结构的变动影响,研究表明随着收入的增加,居民消费结构有所改善,但仍然存在一些制约其改善的因素。缪迎迎 [6] (2017)通过聚类分析和灰色关联分析发现合肥的居民消费结构正在优化,但与安徽的消费倾向仍有一定差距,并通过灰色预测模型预测出未来几年消费支出进一步提高,但仍存在一些医疗保健发展较慢等问题。柯善淦等 [7] (2017)研究了武汉城市群的消费结构时空演变特征,通过运用基尼系数、偏离一份额分析法对武汉城市群居民消费支出进行了分析,研究表明消费结构变化的特点是由中心向外围辐射。戴林送 [8] 通过2000年和2015年两个年份我国31个地区评价消费质量相关指标数据,运用因子分析法得出近十几年来我国城镇居民消费质量发展变化的特点。唐琦等 [9] (2018)运用QUAIDS模型分析了1995~2013年城镇居民消费结构的变动,发现居住消费的增长较快并在一定程度上影响了其他类消费的支出。侯淑静 [10] 首先用因子分析的方法将8个消费指标降为3个公共因子,然后用综合得分法分析了排名前五名和排名后五名省市的城镇居民消费水平。陆丹妮 [11] 基于2002、2007和2012年数据,采用因子分析方法提取隐性抽象因子,分析15年来居民消费结构变动。张芬等 [12] 以2019年31省市数据为依据,运用因子分析建立了消费水平评价函数模型,分析了影响31省市的居民消费结构差异的因素。
聚类分析法可以将数据按照相似性进行分组,有助于帮助用户发现数据中的隐藏模式和规律,综上所述,本文在以上学者采用的方法基础上,运用K-Means聚类方法对我国城镇居民2022年消费数据进行分析。
3. 数据来源及可视化分析
3.1. 数据来源
样本数据来自中国统计年鉴2022年我国城镇居民人均消费支出。数据包含8个变量分别为:食品烟酒(X1)、衣着(X2)、居住(X3)、生活用品及服务(X4)、交通通信(X5)、教育文化娱乐(X6)、医疗保健(X7)、其他用品及服务(X8)。数据包含31个“观测值”,分别对应中国31个省、市、自治区城镇居民的人均消费支出。为了消除原来各指标量纲,使各指标之间具有可比性,需要对原始数据进行标准化处理。Xij标准化的计算公式为
,
经过处理后的数据的相关系数矩阵由R表示,其中
,表示第j和第k个变量之间的样本相关系数。
3.2. 数据可视化分析
3.2.1. 城镇居民消费结构分析
表1列出了2022年全国城镇居民在食品烟酒、衣着、居住、生活用品及服务、交通通信、教育文化娱乐、医疗保健、其他用品及服务八项支出结构。

Table 1. Proportion of consumption structure of urban residents in 2022 (Unit: Yuan)
表1. 2022年城镇居民消费结构占比(单位:元)
从表1可以看出2022年,全国城镇居民人均食品烟酒消费支出为8958元,食品烟酒在各项消费支出中的比重最大为29.48%,接下来依次是居住、交通通信、教育文化娱乐、医疗保健、生活用品及服务、衣着、其他用品和服务。整体来看,我国居民的消费支出结构中满足日常生活需求的比例较高,消费结构较为合理。
3.2.2. 星图分析
以星图为例对样本数据进行可视化分析。利用Rstudio所做星图各半径与原变量的对应关系为:从右起水平半径对应第一个变量,逆时针旋转,星图的各半径分别对应第二、第三到第八个变量。根据星图各半径的长短,可以清晰地判断出各地区对应变量的相对水平,以此来分析各地区的消费水平及消费结构。同时,也可以利用星图对各地区进行分类。2022年各地区消费支出星图如图1所示。
根据星图分析结果为:北京和上海的八项消费支出指标均超出其他地区,位于全国第一梯队;天津、江苏、浙江、广东八项消费支出指标较高,大致位于第二梯队;福建、山东、重庆、湖南等大致位于第三梯队;山西、内蒙古、吉林、黑龙江、河南的星图形状相似,其消费支出结构偏向第二变量(X2)即衣着消费,其余省份的八项消费支出指标较为低,广西的八项消费支出指标最少。

Figure 1. Star chart of consumer spending by region, 2022
图1. 2022年各地区消费支出星图
4. 城镇居民人均消费支出的聚类分析
聚类分析是对多种属性统计样本进行分类的一种多元统计分析方法。其基本思想是:研究样本或变量之间存在着不同程度的相似性。于是根据一批样本的多个观测变量,具体找出一些能够度量样本或变量之间相似程度的统计量,以这些统计量为划分类型的依据,把一些相似程度较大的样品聚为一类。关系密切的聚为一个小的分类单位,关系疏远的聚为一个大的分类单位,直到把所有样本或变量都聚类完毕,这样就可以形成一个由小到大的分类系统。
4.1. 层次聚类
聚类是研究不同组样本间的相关关系,它以各个类的相关度来衡量,将相似的聚到同一类别中,而使得同一类别中的差别尽量小,不同类的差距尽量大。层次聚类有三种分别为:简单连接法、完全连接法、平均连接法。
4.1.1. 简单连接法
简单连接法定义两族群间相隔最近的两个个体间的距离为两族群的距离。31省市城镇居民人均支出简单连接聚类如图2所示。
简单连接法公式:D(A, B) = min{d(yi, yj), for yi in A and yj in B}

Figure 2. Simple connection method hierarchical clustering
图2. 简单连接法层次聚类
从图2可以看出,简单连接法可以将31个省市城镇居民人均消费情况大致聚为两个群体,具体为北京、上海聚为一个群体,该群体地区物价较高、房价较高、教育发达、娱乐设施齐全且先进。因此,该群体各方面的消费支出都远超全国平均水平;其余省市为一个群体,除北京、上海外的地区均聚为一个群体使得群体样本过多,样本间差异性过大,聚类过于笼统,不能更好地反映实际情况。因此,简单连接聚类效果并不好。
4.1.2. 完全连接法
完全连接法定义两族群间相隔最远的两个个体间的距离,为两族群的距离。31省市城镇居民人均支出完全连接聚类如图3所示。
完全连接法公式:D(A, B) = max{d(yi, yj),for yi in A and yj in B}

Figure 3. Complete connection method hierarchical clustering
图3. 完全连接法层次聚类
从图3可以看出,完全连接法将31个省市城镇居民人均消费支出情况大致聚为四类,具体为:北京、上海聚为一类;浙江、广东、天津、江苏、福建聚为一类;陕西、河南、山西、吉林、黑龙江、广西、新疆、贵州、宁夏聚为一类;河北、湖北、安徽、江西、辽宁、甘肃、山东、湖南、内蒙古、云南、青海、西藏、海南、重庆、四川聚为一类。
前三类聚类效果较好符合实际情况,但在第四类组别中,样本数量较多,情况较为复杂,此组别聚类效果也不完全准确。其中,山东地区经济一直较为发达,湖北、湖南、安徽、重庆等地区近几年来经济发展有显著进步,更多的年轻人青睐于武汉、长沙、重庆等新一线城市,且这些新一线城市房价并不算高。所以,在饮食、教育文化娱乐、医疗保健等方面的支出比例变大,居民消费的结构呈合理化趋势。然而,甘肃、内蒙古、青海、西藏等地区城镇居民收入较低,这些地区的经济发展仍需引起国家措施,加大扶持力度。
4.1.3. 平均连接法
平均连接法为:两族群之间的距离定义为nA个A集合点和nB个B集合点产生的所有nAnB个距离数值的平均。31省市城镇居民人均支出平均连接聚类如图4所示。
平均连接法公式为:
从图4中可以看出,平均连接法将31省市城镇居民人均消费支出大致聚为三类,具体为:北京、上海聚为一类;浙江、广东、天津、江苏、福建聚为一类;其余24个省份聚为一类,可以大致分为一线发达地区、较发达地区、欠发达地区。其中,第三类组别的样本含量较大,组内样本差异偏大,如山东与甘肃虽聚为一个组别,但两地区经济发展有很大差异。
4.2. K-Means聚类分析模型构建
在层次聚类中,一旦个体被分入一个族群,它将不可再被归入另一个族群,而K-Means聚类能弥补层次聚类的不足,它的建模思想为:在所有要聚类的对象中,任意选择k个对象作为初始聚类中心,计算每个对象与聚类中心的马氏距离,计算公式为:

Figure 4. Average join method clustering
图4. 平均连接法聚类
并根据最小距离重新划分,循环计算聚类中心至聚类中心不再变,划分使得下面式子最小:
根据图5碎石图显示,应当聚为3类,2022年我国城镇居民人均消费支出聚类结果如表2所示,聚
Figure 5. Lithotriptic plan
图5. 碎石图
类散点图如图6所示。具体聚类结果为:北京、上海聚为一类;天津、辽宁、江苏、浙江、福建、山东、湖南、广东、重庆聚为第二类;其余省份聚为第三类。
2022我国城镇居民人均消费支出聚类分析结果表明:北京、上海聚为第一类地区即发达地区,这类地区经济发达,城镇居民收入偏高,人均消费支出也偏高,聚类结果符合实际情况;天津、江苏、浙江、福建、山东、广东、重庆、辽宁、湖南九个地区聚为第二类地区即较发达地区,但从图6聚类结果散点图看出,这类组别内的样本差异较大,较为分散,如辽宁虽被聚到了较发达地区,但与同组的浙江、天津、江苏等地区的差距较大。其余山西、黑龙江、吉林等20个省份聚为第三类地区即欠发达地区,同组内的差距也比较大。K-Means聚类虽然存在一定缺陷但总体聚类效果对比于三种层次聚类较好。

Figure 6. Scatter plot of clustering results
图6. 聚类结果散点图
5. 促进我国消费结构合理化的发展建议
根据上面两种统计分析表明:经济发展较好的地区,居民的消费水平较高,消费结构也越合理。而且,居民收入水平是影响居民消费需求最直接、最根本的因素,并最终决定着居民的消费层次和消费结构。但是,除收入水平外,还有很多因素影响居民消费结构,如:价格水平、消费习惯、替代品及相关商品的价格、消费环境、消费者预期等。因而,政府也要继续出台切实有效的政策措施,增加居民消费积极性,并引导居民消费结构向更健康、合理的方向发展,以此全面提高我国各地区城镇居民的生活质量。鉴于此,提出以下几点建议。
5.1. 提高居民收入水平、扩大消费基础
收入是影响居民消费需求最直接、最根本的因素,并最终决定着居民的消费层次和消费结构。因此,在国家经济增长的同时,进一步提高城镇居民的收入水平。同时,国家还需采取措施改善经济发展不平衡的现象,尽可能地缩小不同地区间的收入差距,真正发挥大国经济的内部拉动作用,使经济发展走上需求投资拉动的良性发展的道路。
5.2. 改善收入分配结构
改善收入分配结构,增强中低收入人群的消费能力,提高劳动报酬在国民收入分配中的比重,建立健全工资正常增长机制,完善和落实促进农民增收减负的政策措施,将所得税征收重点放在高收入人群,减少中低收入人群的税负,增加城镇居民人均可支配收入。
5.3. 刺激消费,积极培育新的消费热点
当前,我国经济发展收到疫情的影响,由于居民收入会较疫情前收入有所降低,因此消费需求相对不足,旅游方面的消费支出的影响尤其严重。一方面,我们应该进一步巩固已有成果,另一方面还须培育新的消费热点,如医疗保健、保险、健身等。
5.4. 加快中西、东北部发展,缩小地区差异
中西部及东北部地区由于所处地理位置和基础设施建设较差,大多数地区经济基础差,这些地区发展缓慢,发展相对滞后,因此必须加快这些地区的转型发展。政府应在资金、政策上给以重点扶持并加大扶持的力度,为这些地区提供一个良好的外部投资环境,吸引更多的投资资源。此外,各地区也应积极探索发展新思路,借鉴东部沿海经济发达地区的成功经验,同时利用自身的资源优势和后发优势实现跨越式发展,因地制宜探索出一条适合本地区的发展之路,尽可能缩小地区发展的差距。
6. 结语
本文根据2022年我国城镇居民人均消费支出数据,利用聚类分析法,对各地区31个省、市、自治区城镇居民人均消费进行分类,先运用层次聚类法对各地区人均消费结构进行聚类。然后运用K-Means聚类法,对各地区人均消费结构进行K-Means聚类,不仅从总体上掌握了消费结构类型的地区分布,而且系统阐述了各地区消费结构的特点,最后在此基础上提出了促进城镇居民消费结构合理化的政策建议,为我国各地区因地制宜地制定消费政策提供了科学合理的决策借鉴。