1. 引言
在经济快速增长下,人们对城乡教育公平愈发关注,在关于教育资源分配的研究中,姚文佳、李建华[1]提出实现教育资源的分配正义,首先需实现基础教育资源分配的均等化,通过教育资源的分配保障受教育者选择的自由。盛艳玲[2]等通过构建以各居住小区教育质量方差最小化为目标的函数模型,结合ArcGIS网络分析技术,提出优化方案,提出实现均衡发展为目标的“多校划片”政策建议。吴云勇、姚晓林[3]发现经济环境是教育政策目标得以实现的物质基础;政治环境决定了教育政策改革的性质及发展方向;文化环境是教育政策改革有效实施的非正式制度约束。刘婧[4]分别从建设课程资源服务平台、实现数字教育资源供给模式、创新授课模式等方面对高等教育资源进行合理化分配,以加速高等教育的全面发展,促进教育资源更加合理化应用等。这些研究在基础教育均等化、空间资源优化、政策环境分析等方面为构建差异化的教育公平测度框架与政策优化提供了重要参考。
研究主要选取财政性教育经费、学校数量、师生比、专任教师数、在校生数作为影响教育公平程度的主要特征,同时控制政治特征、家庭特征、人口密度以及其他特征,保证研究的准确性与可行性。
本文引入DEA-EM模型和多层级交互建模,对四川21个市州的面板数据进行教育资源配置优化。选取交叉验证与贝叶斯信息准则优化模型,将DEA效率分析与EM聚类算法相结合,并引入模拟退火算法对DEA效率值进行全局优化,以多区域分析与双向固定效应模型解决地区和时间层面的偏差问题,对教育资源配置进行优化模拟。
2. 基本理论
本文依托面板数据,整合数据包络分析(DEA)、期望最大化(EM)聚类算法,构建DEA-EM融合模型,并结合多区域分析与双向固定效应、K折交叉验证及模拟退火算法构建教育资源配置优化理论框架,以精准评估资源利用效率与分配公平性。
2.1. DEA-EM融合模型
DEA-EM融合模型是整合DEA效率评价与EM聚类分析的复合型模型,可同时评估多决策单元(DMUs)的资源利用效率,并依据效率值对决策单元聚类分组[5]。其中,DEA应用CCR模型的线性规划形式计算效率值,具体如下:
目标函数:
(1)
约束条件:
(2)
上式(2)中,
为输入变量,
为输出变量,
表示决策单元的相对效率值(
);
和
分别表示第j个决策单元的第i项输入和第r项输出;
反映第j个决策单元对当前单元的贡献。
、
分别对应被评估决策单元(DMU)的输入与输出。
通过EM算法对DEA效率结果进行聚类分析,假设存在k个潜在类别,步骤如下:
Step 1:计算后验概率(E步)
(3)
Step 2:更新参数(M步)
(4)
上述公式(3)、(4)中,
为第n个区县的DEA效率值;
、
、
分别为第k类别的混合系数、均值和标准差;
表示第k类混合系统中的样本数量,
是样本n属于第k类的概率或权重。
2.2. 多区域分析与双向固定效应
多区域分析聚焦不同区域(i)在不同时间(t)的教育资源配置差异,通过横纵向对比捕捉区域异质性;双向固定效应模型纳入区域与时间固定效应,消除地区差异和时间趋势干扰,借助面板数据回归精准估计变量对教育资源配置的影响[6],核心回归公式为:
(5)
2.3. K折交叉验证
研究选择K折交叉验证将数据集均匀地分成K个子集,每个子集轮流作为测试集,其余
个子集作为训练集;对于第i折,在训练集
上训练模型,在验证集上
进行验证,得到该折的均方误差
,经过K次折叠验证后,计算平均均方误差
作为模型性能的评估指标以及均方误差的标准差
,评估模型拟合与预测性能,减少数据划分偶然性误差,保障模型稳定性,核心计算公式为:
(6)
(7)
如表1所示,模型在交叉验证中表现良好,平均
达到0.742,能较好地解释数据的变异;平均RMSE仅为2.554,预测误差较小。整体来看,模型既具备较好的拟合能力,表现出稳定的预测性能,能够在实际应用中提供较为可靠的结果。
Table 1. Model fitting degree and prediction effect under different folds of cross-validation
表1. 不同折交叉验证下的模型拟合程度和预测效果
模型参数 |
验证结果 |
R² scores |
[0.76, 0.73, 0.78, 0.71, 0.73] |
RMSE scores |
[2.74, 2.31, 2.49, 2.39, 2.84] |
平均R² |
0.742 |
平均RMSE |
2.554 |
2.4. 模拟退火算法
如图1所示,模拟退火算法(SA)是一种用于全局优化的随机算法,能够有效避免陷入局部最优解,从而在更广泛的范围内搜索最优解。在DEA模型中,该算法被用于寻找最优权重或优化效率值,尤其在比较多决策单元(DMUs)的效率时,能够充分发挥其优化能力[7]。
Figure 1. Flowchart of simulated annealing algorithm
图1. 模拟退火算法流程图
3. 数据来源及模型应用
3.1. 数据来源
本研究采用2017~2023年的教育资源数据,主要来源于国家数据、国家统计局、四川省统计局、中国互联网数据平台及四川各地统计局。部分地区数据如下(表2)。
Table 2. Data of educational resources in various regions
表2. 各地区教育资源数据
区县 |
财政性教育经费 |
对数标准化 |
师生比 |
学校数量 |
专任教师数(人) |
资金投入(亿元) |
西昌市 |
19.361 |
2.963 |
0.051 |
147 |
8178 |
0.0601 |
阿坝县 |
3.806 |
1.337 |
0.045 |
28 |
1296 |
1.2103 |
天全县 |
2.634 |
0.968 |
0.091 |
19 |
1279 |
2.6857 |
会理市 |
4.661 |
2.671 |
0.065 |
71 |
3940 |
3.0162 |
名山区 |
3.459 |
1.241 |
0.072 |
35 |
1885 |
3.4745 |
康定市 |
3.668 |
1.299 |
0.083 |
30 |
1685 |
3.5631 |
雨城区 |
4.094 |
1.409 |
0.076 |
39 |
3111 |
4.1142 |
高坪区 |
8.387 |
2.127 |
0.075 |
67 |
4617 |
8.3865 |
阆中市 |
10.302 |
2.332 |
0.094 |
82 |
5156 |
8.5112 |
江油市 |
8.862 |
2.182 |
0.064 |
56 |
4418 |
9.0299 |
三台县 |
14.434 |
2.671 |
0.077 |
118 |
7562 |
12.8603 |
仪陇县 |
13.446 |
2.599 |
0.089 |
101 |
7108 |
13.2044 |
金堂县 |
6.406 |
1.857 |
0.072 |
88 |
5800 |
14.3002 |
锦江区 |
17.893 |
2.884 |
0.075 |
56 |
7061 |
17.8701 |
武侯区 |
20.571 |
2.984 |
0.079 |
76 |
8257 |
23.6031 |
3.2. 数据标准化
对选定特征数据进行标准化处理,消除各变量量纲与数值范围差异,保障模型分析中变量贡献的公平性、准确性与科学性。研究采用对数标准化,将大范围数据压缩到较小区间,使数据更集中,便于分析处理。
图2展示了我们对各个城市的数据集进行对数标准化处理后各种特征的密度分布图。经过对数标准化后数据密度分布更接近正态,同时弱化了极端值影响,降低了高方差数据中异常值的干扰,故处理后的数据对分布提取有一定的帮助。
3.3. 数据概论
从数据图3中看出,各地财政性教育经费波动区域投入差距大,学校数量虽有波动,但多数地区差异不大,这意味着尽管学校数量较均衡,仍可能因财政经费与师资不同,导致部分地区教育资源无法满足学生需求;资金投入与财政性教育经费关联密切,如凉山、甘孜等地区投入较高,而部分地区资金投入少,可能引发教育设施陈旧、师生比失衡等问题,影响教育质量与公平;专任教师数量对教育公平影响显著,即便部分地区财政经费充足,师资不足仍可能造成教育质量差异[8]。
Figure 2. Density distribution of data from each city after logarithmic standardization
图2. 各市数据对数标准化后密度分布
Figure 3. The different impact of the characteristics of educational investment on educational equity in various regions
图3. 教育投入特征对各个地区的教育公平产生的不同影响
3.4. 模型应用
随机森林分析教育资源特征的相关性,揭示了四川各市教育资源分配的关键特征重要性差异显著[9]。研究分别以不同的特征为因变量,探究财政性教育经费、学校数量、资金投入以及师生比等特征对教育系统关键指标的影响程度。图4为特征重要性3D图,从紫色到黄色,特征重要性数值由0.0 (重要性最低)逐步递增至1.0 (重要性最高),反映出四川教育资源在城市间、特征间存在不均衡分配的状况,为深入探究四川教育资源公平提供了丰富且直观的数据线索与研究方向[10]。
Figure 4. 3D map of the importance of features in each city
图4. 各城市特征重要性3D图
将DEA-EM模型应用到实际问题数据中,通过DEA效率值分布、地区聚类效率以及在不同聚类类别中的分布,从直方图、核密度估计(KDE)线等图中可以清晰看出四川省教育资源分配情况。
如图5所示,DEA效率值大多数集中在较低的区间(0.0~0.4),尤其是效率值接近0.2时聚集最多。表明这些区域在某些方面的效率较差,大部分区域的教育投入和产出并不充分,效率较低;同时每个聚类类别的效率分布差异显著,这种分布表示不同类别的地区效率差异较大[11]。
Figure 5. DEA efficiency values and cluster efficiency distribution
图5. DEA效率值和聚类效率分布
表3中所展示出的聚类结果较为合理,整体效率分布离散,且大量样本集中于低效率区间,四个聚类的效率分布区间界限相对分明。其中,聚类3 (高效集群)的分布位置最高且跨度较大;而聚类2 (低效集群)则紧密分布在0.2水平线以下;聚类1和聚类0的分布存在部分重叠,但聚类1的整体中位水平明显高于聚类0。
Table 3. Analysis of clustering features
表3. 聚类特征分析
Cluster |
DEA效率 |
资金投入(亿元) |
师生比 |
mean |
std |
min |
max |
0.0 |
0.347 |
0.051 |
0.265 |
0.460 |
2.920 |
0.060 |
1.0 |
0.564 |
0.070 |
0.469 |
0.751 |
2.045 |
0.075 |
2.0 |
0.180 |
0.050 |
0.073 |
0.265 |
8.887 |
0.070 |
3.0 |
0.912 |
0.080 |
0.761 |
1.000 |
1.545 |
0.087 |
我们得出系统性结论:资源投入规模并非效率的决定性因素,单纯增加资金投入并不能保证效率提升,甚至可能因管理不善而导致效率损失;高效集群的极高师生比也是显著的特征,暗示了优化人力资本结构、提升人力资源利用效率可能是驱动效率改善的核心因素;对大多数低效和中低效单元,改进重点不应局限于争取更多资源,而应转向优化现有资源配置结构,尤其是提升人力资源的利用效率,并着力消除资源冗余。
通过残差与预测值以及实际值与模型预测值之间的关系分析DEA模型的效果和拟合情况[12]。理想的残差图应该表现为随机分布,且残差的平均值应为零,红色虚线是理想的完美预测线,模型的预测效果越接近这条线,则模型越准确(图6)。
Figure 6. Visualization of regression analysis
图6. 回归分析可视化图
通过拟合结果发现,而研究大部分点靠近红色预测线,回归模型的预测效果较好,实际值和预测值大体一致,但也存在一些偏差较大的异常点,随着预测值增大,误差或残差也增大,表明模型在较大值的预测上可能出现问题。
为提高模型的准确性,采用模拟退火算法对模型进行优化,如图7所示。
Figure 7. The results of DEA-EM model optimization
图7. DEA-EM模型优化后结果图
原始平均效率约为0.3,优化后平均效率提升至约0.75,说明优化措施对提高效率有积极作用。不同聚类类别的DEA效率值分布差异明显,类别0的效率值整体较高,集中在0.3~0.4左右:类别1效率值次之,集中在0.6~0.7左右:类别2效率值整体偏低;类别3效率值集中在0.8~1.0左右,这反映出不同聚类群体在资源利用等方面的效率存在显著差别。从直方图和拟合曲线看,DEA效率值主要集中在0.7~0.8之间,大部分对象的效率处于中等水平,同时也存在少量效率较低(如接近0.4)和较高(如接近0.9)的情况。
优化前效率值分布较广且有较多较低值,优化后效率值集中在较高区间,验证了优化的有效性。通过一系列分析可知,基于模拟退火优化的聚类及资源分配等操作,有效提升了教育资源相关的DEA效率,且不同聚类类别在效率表现上存在明显差异,可为后续针对不同类别制定差异化资源优化策略提供依据。
3.5. 模型检验
通过敏感性分析发现,DEA-EM分析的敏感性较强。max、standard、minmax这三种标准化方式大幅改变了DEA效率的整体特征(如平均效率、标准差、分布形态等),进而明显影响了聚类类别与DEA效率之间的关联模式。无论是2类、3类还是4类的聚类划分,聚类数的变化会直接调整对DEA效率细分的“颗粒度”,聚类数越多,效率与类别间的对应关系就越精细,不过也可能存在过拟合风险,这使得结果会随着聚类数的改变而有较显著的变化。
这样的结果意味着,在实际应用DEA-EM方法时,标准化方法以及聚类数的选择会对最终分析结果产生较大影响,故需要结合具体的研究目的和数据特点,谨慎地去选取合适的标准化方法与聚类数,这样能够让分析结果更具有准确性与可靠性。
比较图8不同聚类数设置下样本的聚类标签,可以发现多数样本在不同参数设置下仍被归类于逻辑一致的簇中,聚类边界随簇数增加而细化,而非剧烈变化,进一步印证了模型在DEA效率维度上的聚类是稳定且合理的。在不同的聚类数设置下,模型仍能保持一致的结果,这表明研究使用的模型具备较强的可靠性。
Figure 8. Sensitivity analysis results of the DEA-EM fusion model
图8. DEA-EM融合模型敏感性分析结果
4. 结论与建议
4.1. 研究结论
1) 经权重分析,学校数量、财政教育经费投入及专任教师数量三项指标权重占比较为突出,在教育资源配置中发挥核心支撑作用。这提示政策制定者在优化资源分配策略时应参考以上三个指标以提升教育资源投入的实效性。
2) 区域间教育资源配置效率呈现显著差异,经济欠发达地区(如凉山州)尤为突出。同时城乡过渡地带及流动人口集中区域,存在“基础设施短缺–师资稀释–教育质量滑坡”的恶性循环,优化学校布局、动态调控师生比是破解关键。
3) 教育资源分配缺乏精确性,导致资源的浪费和不公平。比如凉山这些地区的财政投入相对较大,但由于资源分配的不精确和滞后性,教育资源未能按需分配,可能导致了资金浪费和地区之间的教育质量差距。
4) 四川部分县域教育资源投入与产出效率不匹配,如凉山州等地虽资金投入较高,但DEA效率值偏低(见表3),可能存在资金使用效率低下、配套机制不完善等问题,这制约了教育资源质量的空间均衡提升。
4.2. 政策建议
1) 财政投入从“人均均摊”转向“按需倾斜”,建立资源倾斜机制,优先向配置低效区域定向投放资源,引入“教育机会平等系数”(结合教育基尼系数、平均受教育年限)动态调节,依托数字化技术搭建“教育资源共享平台”;加大对凉山州等资源紧张地区的转移支付,强化资金绩效监管与透明化。
2) 构建区域师资流动与数字资源共享机制,将跨区任教纳入职称评定、科研支持、专项补贴体系;组建教育协作体,通过远程教学、在线课程等形式,推进课程共建与直播共享,实现优质资源向薄弱地区常态输送。
3) 按区域差异制定分层配置政策:资源薄弱地区重点完善校舍、强化师资培训、调控师生比;加大贫困地区财政投入,统筹资金用于校舍维护与智慧设备引入,构建城乡一体数字教育生态。
4.3. 研究局限
1) 所用模型均为量化工具,高度依赖数据质量,假设简化了动态复杂性和参数设置敏感的现实,导致结果与显示存在一定偏差,一定程度上制约了模型应用。
2) 教育公平不应该止步于资源层面,更应该延伸至教育机会、教学过程与最终结果的全维度公平。研究主要聚焦于财力、物力与人力等资源的配置效率,对教学质量、课程内容、学生参与度及综合素质发展等非资源性维度的测度尚显不足,而“软性”因素也是影响教育结果公平的关键之一。
3) 学界对教育基尼系数理论适用性仍有异议:一方面,该系数无法完全反映教育质量差异(如教师学历、课程设置);另一方面,教育公平的“多维性”(如机会、过程、结果公平)难以通过单一指标全面展现。
基金项目
中国高等教育学会“2024年高等教育科学研究规划课题”(24SX0203),2025年国家级大学生创新创业训练计划项目(202510649056)。
NOTES
*通讯作者。