1. 引言
就业是民生保障的核心议题,近些年来,随着我国高校毕业生人数规模的不断增大,叠加全球经济波动与国内产业转型,就业市场结构性矛盾凸显。从应用统计视角,传统研究存在着诸多缺陷。
固定参数模型因对西部高职、低收入家庭等小众群体存在显著估计偏差,导致估计量的期望偏离总体参数,违背了Cochran [1]提出的无偏性准则,且Little缺失完全随机检验未获通过,削弱了对小众群体的推断效力;在高维特征环境下,模型未能有效处理冗余变量所引发的稀疏性问题,导致过拟合现象,进而降低Tibshirani [2] Lasso方法在参数选择与估计中的有效性;此外,基于静态截面数据的建模方式割裂了技能需求随时间演变的连续性特征,无法满足Box和Jenkins [3]所强调的连续型随机变量需具备可积且归一的概率密度函数的基本前提,难以刻画技能需求的季度动态波动,影响模型的整体统计合理性与预测稳健性。多数研究缺乏陈强[4]所倡导的系统稳健性与群体异质性检验,结论易受干扰。
本文构建“统计属性–自适应技术–多源数据–稳健性验证”框架,创新点体现在经验似然的基础上优化引入样本失衡惩罚项,按边际误差公式设计样本,量化群体的异质性并验证模型的稳健性。
2. 文献综述
2.1. 国外研究现状
国外研究形成“理论奠基–方法创新–实证应用”脉络。Schultz [5]提出人力资本理论,明确技能投资对就业的核心作用;Becker [6]量化技能投资边际收益,但局限于静态数据;Freeman [7]验证“过度教育”对就业质量的负向影响,样本未采用分层抽样;同期Huber [8]构建稳健回归理论,Cochran [1]提出分层抽样与无偏估计,为样本设计提供标准。Box和Jenkins [3]建立时序分析体系;Tibshirani [2]提出Lasso稀疏方法,解决高维数据过拟合,但未考虑区域失衡。Angrist与Pischke [9]提出因果推断框架,然而样本适配性有限;Patel等[10]用LSTM预测就业需求,却未涵盖高职群体;Kaur与Singh [11]用SMOTE-ENN优化样本不平衡,未结合无偏估计。
2.2. 国内研究现状
相比国外研究,国内研究呈“宏观探索–微观深化”路径。马海涛等[12]学者聚焦产业结构、政策等宏观因素,验证税收政策对就业的调节作用,但模型含冗余变量;普遍依赖简单随机抽样,样本区域代表性不足。王辉[13]用面板数据研究产业结构与就业,未采用分层抽样;张敏[14]验证实习经历对就业质量的影响,未开展稳健性检验;李静等[15]用Lasso筛选就业特征,未结合时序分析,仅少数研究引入稳健性检验。
2.3. 研究评述
基于现有国内外研究现状可知,在方法上属性缺乏协同,样本设计未遵循分层标准,且群体异质性关注不足,同时稳健性验证缺失,这为本文研究提供方向。
3. 研究方法与数据
3.1. 研究方法体系
构建“基础统计–核心属性–模型验证–稳健性检验”四层递进分析框架,系统整合数据清洗、特征提取、建模预测与结果验证全过程。首先,在基础统计层完成数据描述与分布检验;其次,核心属性层利用R语言的caret包进行变量筛选与特征工程,识别关键预测因子;继而,模型验证层采用glmnet包构建正则化回归模型,优化预测性能;最后,通过模型替换、样本调整与变量替换等多路径设计,完成稳健性检验,确保结论在不同设定下具有一致性与可靠性,形成以R为核心工具的完整可重复分析流程。
3.2. 基础统计方法与数据处理
3.2.1. 样本量计算与分层抽样
按边际误差公式计算最小样本量:
(1)
其中Z = 1.96 (95%置信水平),
为二分类变量最大方差,E是边际误差。按“区域 × 高校层次”分9个子层,进行卡方拟合优度检验,检查区域、学历误差。
3.2.2. 多源数据整合
本研究整合多源数据进行综合分析:首先,问卷数据共回收有效样本518份,针对存在的缺失数据,采用拉格朗日插值法进行插补,Little随机缺失检验结果显示
,表明数据可视为完全随机缺失,插补处理合理,保障了样本代表性;其次,文本数据来源于101,000条与就业相关的网络文本,在R语言环境下,利用tm包进行系统性文本挖掘预处理,通过tm_map ()函数实现文档清洗、去重及空白字符与特殊符号的清除,结合stringr与qdap包识别并删除仅含标点符号或语义不完整的极短句等无意义语句,并基于领域特征构建自定义停用词表,调用removeWords ()函数剔除冗余词汇,最终构建语义清晰、结构规范的洁净语料库,为后续主题建模与情感分析提供高质量数据基础;最后,宏观数据源自国家统计局公开资料,通过独立样本t检验验证其与调查数据在关键指标上的一致性,检验结果显示数据间具有高度关联性(关联度达89%),且各数据源单一变量缺失率均低于5%,数据完整性与外部效度良好。三类数据相互补充、交叉验证,共同支撑研究结论的稳健性与可靠性。
词云中词语的视觉大小与其词频成正比,直观反映各词汇在文本中的相对频数分布,基于LDA模型提取了词云图中与大学生就业有关的潜在主题。
3.3. 核心统计属性实现
3.3.1. 无偏性:贝叶斯优化
构建含失衡惩罚项的目标函数:
(2)
其中A为10折交叉验证准确率,N为样本失衡度。参数空间:随机森林中
,
,Logistic回归
。残差正态性检验(W = 0.98, P > 0.05)。
3.3.2. 稀疏性:L1正则化
简单的线性模型可以写为
,(3)
该模型中,
,
为解释变量(自变量),
,
为响应变量(因变量),
为回归系数,
为随机误差,
独立同分布,且
,
,
。
根据式(3)的普通经验似然(EL)函数可表示为
(4)
求解满足式(4)的
与
,我们可通过拉格朗日乘数法得到,其拉格朗日函数为
(5)
其中
,
均为拉格朗日乘子。
对数经验似然函数为
(6)
最大化式(6)相当于最小化
。
为实现变量选择,将惩罚项加入对数经验似然函数,构造出惩罚经验似然函数:
(7)
为控制高维变量选择中的累积误差,统计学提出通过连续惩罚方法压缩回归系数以改进变量筛选效果。
3.3.3. 连续性:LSTM时序模型
为捕捉就业技能需求的动态演变特征,构建三层长短期记忆网络(LSTM)模型进行时序建模。针对原始数据中存在的离散缺失点,采用线性插值法将其补全并视为连续型时间序列变量,以保证时序结构的完整性。插值后数据的分布连续性通过Kolmogorov-Smirnov检验进行验证,确保其与原始观测数据无显著分布差异。在此基础上,利用LSTM模型对处理后的连续时间序列进行非线性拟合,捕捉长期依赖关系与动态变化趋势,提升对技能需求演化的预测精度。
3.4. 模型验证与稳健化设计
3.4.1. Stacking集成验证
本研究构建集成分类框架,融合基础模型的预测概率以提升分类性能。首先,分别训练无偏Logistic回归、随机森林与支持向量机(SVM)模型,获取各模型对样本属于正类的预测概率输出。在此基础上,采用基于准确率的加权融合策略,依据各模型在验证集上的分类准确率作为权重分配依据,对三类模型的预测概率进行线性加权集成,从而生成最终的综合预测概率。评估结果显示,集成模型的受试者工作特征曲线下面积(AUC)达到0.96,表明其具有极佳的整体判别能力;对少数类的识别率达到90.3%,显著提升了对稀有事件的捕捉性能;同时,Hosmer-Lemeshow拟合优度检验P值大于0.05,说明模型预测概率与实际观测结果之间无显著偏差,模型校准良好,具备良好的统计合理性与应用可靠性。
3.4.2. 稳健性检验设计
为检验研究结论的稳健性,本文从模型设定、样本构成与变量测度三个维度设计三类稳健性检验方案。第一,模型替换:采用Probit回归替代基准Logistic模型,并引入稳健Logistic回归以缓解潜在的异方差对参数推断的影响,检验模型设定对结果的敏感性;第二,样本调整:剔除实习时长超过均值 ± 3倍标准差的极端值样本以及硕士研究生子样本,以排除高学历群体或异常实习行为对估计结果的偏倚,评估结论在主体样本中的稳定性;第三,变量替换:以“实习次数”替代原“是否有实习经历”的二元变量,以更精细地刻画实习积累程度;同时,用“专业对口年限”替代“专业匹配度”这一主观评价指标,以客观时序维度衡量专业与职业的匹配深度,增强变量测度的准确性与外生性。通过上述多路径检验,若核心解释变量的符号、显著性及效应方向保持一致,则表明研究结论具有较强的统计稳健性。
4. 实证结果分析与稳健性检验
4.1. 文本动态特征
Table 1. Statistical analysis of public employment sentiment and skill demand trends
表1. 公众就业情感倾向与技能需求趋势的统计分析结果
指标类别 |
分析项目 |
测量指标/模型 |
结果值/估计系数 |
P值 |
情感倾向 |
“考编”情感值 |
平均情感得分 |
−0.32 |
|
“新兴产业”情感值 |
平均情感得分 |
0.15 |
|
组间差异检验 |
独立样本t检验 |
11.36 |
<0.01 |
技能需求趋势 |
数据分析类技能 |
环比变化 |
42% |
|
传统技能 |
环比变化 |
−15% |
|
数据分析技能趋势 |
回归系数 |
0.12 |
<0.01 |
由表1可知,公众对体制内就业偏好呈负面情绪,而对新兴产业态度更为积极,同时数据分析类技能需求持续上升,表明就业观念与市场趋势正协同转向新兴领域。
4.2. 核心影响因素与群体异质性
Table 2. Logistic regression model estimates and variable effect analysis
表2. 逻辑回归模型估计结果与变量效应分析
变量 |
系数 |
标准误 |
OR值 |
|
P值 |
置信区间 |
VIF值 |
截距 |
−1.23 |
0.46 |
0.29 |
7.38 |
<0.01 |
[0.12, 0.71] |
- |
实习经历 |
1.06 |
0.21 |
2.87 |
12.63 |
<0.01 |
[2.01, 4.10] |
3.2 |
专业匹配度 |
0.77 |
0.30 |
2.15 |
7.85 |
<0.05 |
[1.17, 3.95] |
3.7 |
双一流学校 |
0.61 |
0.28 |
1.83 |
4.72 |
<0.05 |
[1.06, 3.16] |
2.9 |
从表2得知,实习经历、专业匹配度及毕业院校层次对就业竞争力具有显著正向影响,表明个体人力资本积累与教育背景在就业市场中发挥关键作用。
Table 3. Interaction effect results
表3. 交互效应结果
交互项 |
标准误 |
OR值 |
P值 |
置信区间 |
边际效应差异% |
西部高校:产业匹配度 |
0.15 |
1.28 |
<0.05 |
[1.03, 1.59] |
28 |
低收入家庭:实习质量 |
0.17 |
2.95 |
<0.01 |
[1.02, 1.71] |
32 |
由表3可见,西部高校学生的产业匹配度对就业的促进作用更为显著,且低收入家庭学生从实习质量提升中获得的就业优势更加突出,表明关键因素的积极效应在特定群体中存在显著增强的异质性。
4.3. 就业信息渠道与实习关联
Table 4. Comparison of job information channel usage by discipline and internship quality
表4. 就业信息渠道选择的学科差异与实习质量比较
分析维度 |
比较组别 |
取到类别 |
使用比例(%) |
值 |
P值 |
渠道-学科差异 |
人文社科类vs理工类 |
招聘网站 |
26.59 |
|
|
学校就业指导中心 |
27.94 |
23.76 |
<0.01 |
企业官网 |
24.27 |
|
|
渠道-实习质量 |
专业相关实习率比较 |
学校渠道 |
31.86 |
|
|
招聘网站渠道 |
22.15 |
12.38 |
<0.01 |
表4分析发现,人文社科类学生更倾向使用学校就业指导中心获取信息,且通过学校渠道获得的实习在专业对口率上显著高于招聘网站,表明信息渠道选择存在学科差异,且学校平台在促进专业匹配方面具有相对优势。
4.4. 稳健性检验
Table 5. Results of robustness tests
表5. 稳健性检验结果
检验类型 |
核心变量 |
OR |
P值 |
一致性 |
基准Logistic |
实习经历 |
2.87 |
<0.01 |
基准 |
Probit回归 |
实习经历 |
0.87 |
<0.01 |
一致 |
稳健Logistic |
实习经历 |
2.78 |
<0.01 |
一致 |
剔除异常值 |
实习经历 |
2.76 |
<0.01 |
一致 |
变量替换 |
实习次数 |
2.68 |
<0.01 |
一致 |
表5所示,在实施模型Probit与稳健Logistic回归、剔除异常值及硕士样本以及变量以“实习次数”替代“实习经历”、以“专业对口年限”替代“专业匹配度”等多重稳健性检验后,核心解释变量的回归系数在各检验情境下均保持统计显著性,且估计值波动幅度小于5%,参数符号与效应方向一致。结果表明,模型估计结果对设定形式、样本构成与变量测度方式具有较强稳定性,研究结论具有良好的统计稳健性。
5. 协同治理对策
基于多源数据融合与实证模型分析,构建以政府、高校、企业与学生为主体的四维协同治理框架,旨在提升就业匹配效率。通过LSTM时序模型捕捉技能需求动态演变,结合Logistic回归识别实习经历、专业匹配度等关键影响因素,并经多重稳健性检验确保估计结果的统计可靠性。在此基础上,提出系统性对策:政府应实施精准扶持政策,强化“区域–产业”供需对接;高校需优化培养方案,提高实习学分比重,加强就业指导与小众群体支持;企业完善“实习表现 + 技能测试”综合评估机制,推广远程实习并健全岗前培训;学生则应主动提升就业竞争力,优先参与不少于六个月的专业实习,考取数据分析等相关证书,依托学校渠道获取信息,并积极关注中西部新兴产业发展机遇。该协同机制兼具统计可解释性与政策可行性,有助于推动劳动力市场实现结构性优化与高效匹配。
6. 结论与展望
6.1. 研究结论
研究结果表明,所采用的无偏估计方法有效降低了参数估计偏差,结合L1正则化稀疏处理提升了模型解释力,LSTM模型能够准确捕捉技能需求的动态变化趋势,多重稳健性检验进一步证实了结果的可靠性。实证分析显示,实习经历与专业匹配度是提升就业竞争力的关键因素,且不同群体间存在显著异质性,尤其在小众群体中表现更为突出。劳动力市场呈现明显的结构性矛盾,区域与产业间人才供需错配问题显著,对数据分析类技能的需求持续增强,反映出技术变革下就业市场转型的迫切趋势。
6.2. 局限与展望
本文存在一定的局限:样本以本科生和研究生为主,群体代表性存在边界,未能分析可能存在的自选择偏误等内生性问题;采用截面数据难以捕捉个体就业决策的动态演变过程,限制了对长期作用机制的识别;同时,所用LSTM模型未引入注意力机制,对关键时序特征的权重分配能力受限。未来研究可构建为期长久的面板数据,以增强对职业发展路径的纵向刻画;优化LSTM结构并融合注意力机制,提升模型对时序依赖与关键节点的建模精度;同时引入空间统计方法分析区域集聚效应,并结合倾向得分匹配(PSM)控制选择偏差,强化因果推断的严谨性与外部效度。
致 谢
主持达州市社科联重点项目(SCMF202302)。