基于集成学习与关联规则算法的毕业生就业分析
Employment Analysis of Graduates Based on Ensemble Learning and Association Rules Algorithms
DOI: 10.12677/sa.2025.142038, PDF, HTML, XML,    科研立项经费支持
作者: 郭茂鹏, 吴静琳, 佘梓航*:韩山师范学院数学与统计学院,广东 潮州
关键词: 集成学习就业分析数学与应用数学关联规则Ensemble Learning Employment Analysis Mathematics and Applied Mathematics Association Rules
摘要: 本文针对H学院数学与应用数学(师范)专业2020至2022届的684名毕业生的就业数据与大学四年学业成绩等数据,采用集成学习-AdaBoost回归分析以及关联规则等方法,使用Python软件对大学毕业生就业情况及其影响因素进行了详细的分析。研究结果表明,学生专业成绩对初次就业薪酬水平的影响最为显著,尤其是核心课程成绩对薪酬的影响。这一发现,验证了学业成绩与就业竞争力之间具有正相关性的结论。另外,根据数据分析的结论,本文还发现就业时间和地点、学生性别、学生生源地等因素也会对大学生的初次就业薪酬水平产生影响。综合而言,本文的分析结果为具有数学与应用数学专业的学校人才的培养提供了一些建议,学校可以根据这些发现,优化课程设置,提升学生的就业竞争力。
Abstract: This study examines the data of employment and four-year college academic performance of 684 college graduates who majored in Mathematics and Applied Mathematics (Teacher Training) at H University from the classes of 2020 to 2022, utilizes ensemble learning-AdaBoost regression and association rules to investigate in detail the employment of college graduates and their influencing factors by using Python software. The results of the study indicate that academic performance, particularly in core courses, has the most significant impact on initial employment salary level. This finding provides empirical evidence for a positive relationship between academic performance and employment competitiveness. In addition, based on the findings of the data analysis, this paper also found that factors such as employment time and location, students’ gender, and students’ places of origin also have an impact on college students’ initial employment salary level. Taken together, the results of the analysis in this study provide some suggestions for the cultivation of talents in schools with majors in Mathematics and Applied Mathematics, and the schools can optimize their curricula based on these findings to enhance the employment competitiveness of their students.
文章引用:郭茂鹏, 吴静琳, 佘梓航. 基于集成学习与关联规则算法的毕业生就业分析[J]. 统计学与应用, 2025, 14(2): 85-93. https://doi.org/10.12677/sa.2025.142038

1. 引言

广东的H学院的数学与应用数学(师范)专业(下文简称“数本专业”)积极贯彻新时代党的教育方针,致力于培养适应国家新时代师范教育高质量发展和广东省基础教育现代化的“四有”优质中学教师。随着对数学与应用数学(师范)专业人才的需求不断增长,该专业近几年的就业形势备受关注。

事实上,毕业生在就业市场上的表现和薪酬水平受多方面因素的影响,不少学者针对毕业生的就业情况,从不同的角度开展了研究。张颜江等[1]对某高职院校财会类专业毕业生的毕业相关数据进行分析,发现学习能力与就业环境对毕业生初次就业薪酬水平有显著的正向影响,并且前者的影响程度高于后者。谭修等[2]根据四川大学102位毕业生的就业信息,运用计量经济学的相关知识和累积Logit模型加以分析,发现综合能力素质对该专业学生的就业影响最为显著。李洁等[3]利用层次分析法构建大学生农村就业影响因素模型,得到无论生源为城市还是乡村,大学生自身学业实践能力、专业背景及学校教师授课过程中的育人影响是促进其成功就业的主要因素。凌立文等[4]对华南农业大学工业工程专业类毕业生的薪酬水平进行研究后发现,影响工业工程毕业生起薪的主要因素是实习经历、学历、岗位类别和英语能力。基于东北财经大学2015届毕业生的调查数据,与一般专业毕业生就业意向对比,王亚迪[5]运用最优尺度回归分析方法发现会计专业毕业生就业意向的特点。但是,已有的毕业生就业薪酬研究的文献中,关于数本专业学生初次就业薪资水平的研究,还存在研究文献较少、研究方案未建立等问题。

因此,为了在一定程度上解决该问题,本文收集了H学院2020~2022届数本专业684名学生共21,149条(含学生成绩、就业地、生源地等)数据展开研究。利用Python软件,通过使用集成学习、关联规则等方法对收集的数据进行分析,从而发现影响数本专业学生初次就业薪酬水平的主要因素,并研究了各个因素之间的关联性。研究成果能为该专业学生职业规划方面以及学校人才培养方面提供相应的建议。本文的研究方法也可以直接应用于其他师范类专业就业问题的研究中。

2. 数据预处理

本文的数据来源于H学院数本专业2020届至2022届684名毕业生的就业信息,原始数据的例子见图1 (数据已去除涉及个人隐私信息及无关数据)。

Figure 1. Partial initial data display chart

1. 部分初始数据展示图

根据给定的684名毕业生的就业信息,本文先去除重复值与异常值,利用箱线图去除薪资列中的异常值,并以0填充有缺失的数值型数据,同时删除文本类型的缺失值。随后,利用Python软件,对生源地、工作单位所属地区等信息进行了提取,并以省市信息作为指标,将不同城市划分为一至六线城市[6]

在提取学生的学分与绩点之后,计算第j ( j=1,2,,684 ) 学生的加权绩点(除非特别说明,第二节之后的加权绩点简写为绩点),具体计算公式为:

s j = i=1 n p i,j × c i,j i=1 n p i,j

上式中, p i,j 为第j位学生第i门课的学分, c i,j 为第j位学生第i门课的绩点。为了方便计算,本文对文本型数据进行文本标签编码,将毕业去向、单位所属行业和专业与就业相关度等文本列中的不同类别,将它们映射到所设置的整数上,并以这些整数代替文本数据进行分析。本文使用0和1分别代替男和女,将加权绩点按照 s j 4 3 s j <4 1 s j <3 s j <1 分别划分为优秀、良好、合格、不合格,其中不合格的学生人数为0。对于薪酬水平,本文将薪酬大于10,000元、7500~10,000元、5000~7500元、3000~5000元和小于3000元分别定义为高薪酬、较高薪酬、中等薪酬、较低薪酬和低薪酬[7]。对教学人员、办事人员和有关人员、经济业务人员等10种职业类型,将其分别赋予1至10的数值代号。关于就业地点与生源地,根据城市的人口数量与经济实力,划分城市级别,将就业地点与生源地划分为一线至六线城市[6],并分别赋予了相应的数值代号1至6。下文将进一步阐述具体的研究方法及相关的数据挖掘算法。

3. AdaBoost回归分析

AdaBoost回归主要通过迭代的方式训练弱回归模型,根据其预测误差来调整样本的权重,并通过加权平均的方式将多个弱回归模型组合成一个强回归模型。

假设包含了N个样本的数据集 D= { ( x i , y i ) } i  N ,其中 x i d 表示第i个样本的d个特征,yi表示样本xi的目标数值,则AdaBoost回归算法具体步骤如下:

Step 1:假设初始样本权重 w t ( x i )= 1 N , i=1,2,,N ,且迭代次数t = 1。

Step 2:利用给定权重对应的样本分布,训练弱回归(基于决策树)模型 h t ( x )

Step 3:分别计算弱回归模型 h t ( x ) 在数据集D上的最大误差Et和误差率et

E t =max| y i h t ( x i ) |,  e t = i=1 N w t ( x i ) e ti

e ti = ( y i h t ( x i ) ) 2 E t 2 , i=1,2,,N

Step 4:更新弱回归模型的权重 ω t 和数据集样本的权重 w t+1 ( x i ) ,计算公式为:

ω t = e t 1 e t ,  w t+1 ( x i )= w t ( x i ) Z t ω t 1 e ti ,  Z t = i=1 N w t ( x i )   ω t 1 e ti

Step 5:令t: = t + 1,迭代直到t = T。最终强回归模型如下:

H( x )= t=1 T ln ( 1 ω t ) h t ( x )

此算法与王强[8]运用的AdaBoost回归树算法一致,可以查看该参考文献。本文使用Python软件的sklearn.ensemble包中的AdaBoostRegressor函数实现AdaBoost回归算法。

4. 数据分析

() AdaBoost回归分析与统计分析

R 2 [ 0,1 ] 是衡量回归模型对样本数据的拟合程度,计算公式是:

R 2 =1 SSR SST

上式中,SSR代表残差平方和,SST代表总平方和。R2越接近1,表示模型能够越好地解释因变量的变异[9]

本文使用已处理好的数据,将性别、单位所属行业、专业与就业相关度、职业类型、加权绩点、城市级别、年份、月份作为自变量(即特征),薪酬作为因变量。通过随机抽取的方式,抽取80%的数据进行AdaBoost回归分析,并利用余下20%的数据对得到的回归模型进行测试,并分别给出相应的R2。在重复进行10次回归和测试之后,得到训练数据的平均R2 ≈ 0.8和测试数据的平均R2 ≈ 0.6。可见,模型的拟合能力较好,并具有一定的预测能力。因此,在了解毕业生与回归自变量相关的信息之后,可以利用该模型进行初次薪酬的预测。

为了进一步分析影响学生初次就业薪酬水平的相关因素的重要程度,下文展示了AdaBoost回归中特征的重要程度图,见图2

Figure 2. Chart of feature importance in AdaBoost regression

2. AdaBoost回归中特征重要程度图

从上图可知,绩点对薪酬水平的影响最为显著,其次是签约月份与生源地级别,而单位所属行业与职业类型对薪酬的影响较小。毕业生绩点水平的高低能反映学习能力水平的高低,学习能力水平越高在就业竞争中越具竞争力,能获得更高的薪酬水平。

现如今,本科生一般需要通过上岗考试来成为一名教师。一二线城市的教师上岗考一般会比其他城市早,比如广州、深圳等城市的教师上岗考一般集中在11月和12月[10]。招聘得早,一般签约时间也较早,这在一定程度上解释了为什么签约月份作为特征之一,其重要程度较高。另一方面,生源地级别影响着学生所处地的经济状况和就业市场,较发达的生源地通常具有更多的就业机会和较高的薪酬水平。如在经济发达的珠三角地区就业,或者在毕业生拥有更多社会资源的生源地就业,会显著提高薪酬水平[1],这与生源地级别重要程度较高的结论相对应。

Figure 3. Importance of core courses

3. 核心课程重要程度

图2表明加权绩点是薪酬水平最为重要的影响特征,为了更加深入地研究绩点对薪酬水平的影响,本文提取了数本专业14门核心课程作为特征与薪酬水平进行AdaBoost回归分析,具体课程与分析结果如图3所示。图3所展示的AdaBoost回归模型的R2 ≈ 0.822,模型拟合程度高。另外,从该图可以看出,数据库应用技术、心理学、中学数学教学法、现代教育技术被认为是影响薪酬水平的重要课程。这些课程涉及专业技能与教学能力的培养,影响着毕业生的专业水平。上述核心课程成绩的高低对薪酬水平的影响程度高,这也与现实经验相一致。可见,师范生的专业技能在就业竞争中扮演着关键角色,学校可以强化核心课程的培养体系,选择高水平且高职称的教师进行核心课程的授课,从而提升学生的就业竞争力。

下面,本文将分析绩点对毕业生就业地以及职业类型选择的影响。

图4展示了不同成绩学生的职业类型分布的情况。由于所有毕业生都为师范生,大部分毕业生最终选择成为教学人员。值得注意的是,成绩优秀(绩点4以上)的毕业生,他们有更高的比例加入教师的行列。成绩合格(绩点1至3)、成绩良好(绩点3至4)、成绩优秀的毕业生从事教学工作分别占比79.7%、88.4%、94.7%。学业上表现出色的学生,具备较强的专业知识和技能、较好的学习方法,因此更容易通过上岗考试并成为教学人员。另一方面,成绩良好的毕业生除了选择教学人员之外,就业类型更为广泛,包括军人、经济业务人员、公务员等不同领域的工作。绩点介于3至4分的同学,他们参加的课外活动更多,综合能力更强。这与马骁[11]的研究发现相符合,这也为该类学生就业类型丰富这一现象提供了理论依据。然而,绩点在1至3分的毕业生,在就业信息采集时间截止前,未就业的较多,占该类学生的9.5%,远高于另外两类的毕业生。可见,成绩的好坏会对毕业生初次就业产生一定的影响。因此,对于未毕业的绩点在1至3的学生,学校可以适当建立预警机制,督促学生学习,提高学生成绩,从侧面提高学生的就业竞争力。

Figure 4. Occupational types by different grade intervals

4. 不同成绩区间职业类型图

Figure 5. Employment location levels by different grade intervals

5. 不同成绩区间就业地级别图

图5展示了不同成绩区间毕业生就业地的分布。如图所示,绝大多数毕业生倾向于选择前往一、二线城市就业。成绩合格、良好、优秀的毕业生在一、二线城市就业的比例分别为42.8%、51.4%、57.9%。杨朝继等[12]的研究也表明,在经济发展水平越高的地区就业的毕业生薪酬越高,也越吸引人才。值得注意的是,对于成绩合格的这类毕业生更倾向于选择前往四线以下城市就业。这可能是四线以下城市竞争压力相对较小,求职环境较为宽松的原因所导致的。

Table 1. Average salary and average grades by gender

1. 不同性别平均薪酬与平均成绩表

平均薪酬

平均绩点

男生

5340.14

3.26

女生

5121.84

3.47

通过统计分析,发现91.1%的女生绩点在3以上,而只有75.6%的男生绩点在3以上。可见,所研究学校的数本专业中,女生在学习成绩方面表现更为优秀。然而,在对男女生薪酬的统计分析中,女生的平均成绩高于男生,但男生的平均薪酬却高于女生的平均薪酬,数据见表1。这种薪酬差异的产生包含多方面的因素,包括性别歧视、职业选择、薪酬谈判能力等。郭丛斌等[13]对就业性别差异这一情况展开了研究,感兴趣的读者可以参看相应的文献。

() 关联规则分析与统计分析

通过对就业地、生源地与薪酬进行数据分析后,可以观察到一些有趣的趋势,见图6。就业地或生源地在一、二线城市的毕业生的平均薪酬较高,这可能是由若干方面的原因造成的。首先,一、二线城市通常是经济发达、产业多样化的地区,拥有更多的高薪职位和机会,平均薪酬会更高。另外,生源地在一、二线城市的毕业生,他们在教育方面的优势高于其他城市,眼界更加开阔并且可能拥有更多的社会资源,这也提高了这类毕业生的就业竞争力。与此同时,数据分析结果表明,高达55.6%的生源地在一、二线城市的毕业生回生源地工作,这也与杨晋等[14]研究的社会资本对毕业生初职薪酬具有显著正向影响的结论相对应。

Figure 6. Comparison chart of employment location, origin of students, and salary

6. 就业地、生源地与薪酬对比图

图6中还可以发现,六线城市平均薪酬水平较高于四五线城市。这可能与当地政府的人才政策有关。此外,六线城市在劳动力成本和生活成本方面通常较低,具备更为稳定的就业环境、宽松的工作氛围和较低的生活压力等优势,这些因素也吸引一部分人才前往该地区就业。相反,生源地在六线城市的毕业生平均薪酬水平较低,这可能与该类学生的受教育背景和社会资源水平有关。总体而言,薪酬水平受到多方面因素的综合影响,包括地区经济发展状况、政府政策、就业机会、劳动力成本、家庭背景等[2]

根据H学院“立足粤东,面向广东”的办学发展理念,通过对毕业生生源地、就业地及返乡情况进行分析,得到下图7

Figure 7. Employment destinations and the return situation chart of Guangdong students

7. 就业去向与广东学生返乡情况图

图7中,本文发现数本专业的学生有约60.1%是来自粤东地区,并且绝大多数毕业生留在广东省就业,这符合了H学院对于该专业的办学理念。另外,从男女生返乡情况的饼图可以看出,广东的女生更倾向于返乡就业,占比约50.7%。女毕业生返乡工作的这种情况可能与广东地区的传统家庭文化、家庭教育相关,这与朱苗[15]的研究结论相接近。

最后,本文利用关联规则对不同因素之间的关联情况进行分析,并设置关联规则的最小支持度为15%,最小置信度为80%,得到如下表2所示的结果。

Table 2. Some strong association rules

2. 部分强关联规则

前提条件

结果

支持度

置信度

女,三线生源地

教育

25%

95%

二线就业地,二线生源地

成绩良好

17%

84%

女,二线就业地

三线生源地

21%

86%

成绩良好,二线生源地

一线就业地

18%

81%

四线生源地,女

成绩良好

16%

91%

成绩良好,二线生源地

22%

86%

根据表格结果,可以发现一些平时比较难观测到的结论。例如:来自四线生源地的女生,有91%的人成绩良好。同时,对该校在读的数本专业同学进行访谈,发现大部分同学倾向往一、二线城市就业,他们认为一、二线城市就业前景广、薪资待遇好。其次,访谈中发现,女同学更倾向回家乡就业,他们普遍认为家乡待遇尚可,并且竞争较小。然而,不同学生对学习成绩的看法不同,访谈的大部分同学认为学习成绩好有助于考研与就业,而倾向考公和考编的同学则认为成绩“够用”即可,也即及格就好。访谈的结果也在一定程度上验证了本文数据分析的结果。综上所述,学校或相关部门可以利用本文发现的关联规则,更好地观察学生的个人信息与就业薪酬、地点之间的关系,帮助在校生更好地制定大学的规划,并为毕业生提供更好的就业建议。

5. 结论与建议

本文针对H学院数本专业684名毕业生的就业相关数据,分析了数本专业毕业生的就业情况并得出以下结论:

1) 学业成绩对就业薪酬有显著的影响,高绩点的毕业生在就业市场上更有竞争优势。

2) 性别导致的薪酬差异有可能存在,尽管女生学业表现更为优秀,但平均薪酬却略低于男生,如何减少性别对薪酬水平的影响,是后续值得研究的一个问题。

3) 毕业生的生源地、就业地会影响毕业生的平均薪酬水平。

4) H学院数本专业基本达到“立足粤东,面向广东”的办学发展理念。

最后,为了提高毕业生的就业竞争力,学校及有关部门可以根据上述分析的结果,继续做好数本专业学生的教学工作,鼓励学生学好自己的专业课程,安排教学能力强的老师进行授课。对于生源地在五六线城市的学生,可以增加一些相关就业的培训,邀请校友进行经验分享,提高他们的就业竞争力。与此同时,引导学生关注五六线城市的人才计划并鼓励其到相关城市就业。这样不仅能减少城市人才分布不均的现状,也保证毕业生能够获得较高的收入,符合国家促进区域协调发展的要求。

基金项目

广东省普通高校重点科研平台项目(编号:2022KSYS003);韩山师范学院博士启动项目(编号:QD2024216)。

NOTES

*通讯作者。

参考文献

[1] 张颜江, 彭晨. 基于结构方程模型的毕业生初次就业薪酬影响因素分析[J]. 漯河职业技术学院学报, 2020, 19(4): 38-41.
[2] 谭修, 任红梅. 大学生就业薪酬影响因素分析[J]. 中国商界(下半月), 2009(3): 268.
[3] 李洁, 张成凤. 乡村振兴战略背景下大学生农村就业影响因素评价研究[J]. 数学的实践与认识, 2019, 49(11): 313-320.
[4] 凌立文, 莫美琪, 陈诗欣, 等. 基于多元回归的工业工程专业薪酬影响因素分析[J]. 现代计算机, 2020(22): 23-27.
[5] 王亚迪. 会计专业毕业生就业意向及其影响因素分析——基于东北财经大学毕业生的调查数据[J]. 东北财经大学学报, 2017(1): 91-97.
[6] 知乎. 中国一二三四五线城市分别是哪些[EB/OL]. (2020-01-01)
https://zhuanlan.zhihu.com/p/100540087, 2023-07-20.
[7] 人民网. 国家统计局: 月入2000元至5000元并非“中等收入群体” [EB/OL]. (2019-01-26)
http://society.people.com.cn/n1/2019/0126/c1008-30591099.html, 2023-07-20.
[8] 王强. 基于AdaBoost回归树的电网基建投资模型研究[D]: [硕士学位论文]. 成都: 电子科技大学, 2019.
[9] 赵松山. 对拟合优度R2的影响因素分析与评价[J]. 东北财经大学学报, 2003(3): 56-58.
[10] 华图教师. 2022年广东教师招聘|报名时间|笔试时间公告汇总[EB/OL]. (2022-11-07)
https://www.hteacher.net/jiaoshi/20221107/381865.html, 2023-07-20.
[11] 马骁. 开展丰富多彩的课外活动提升大学生的就业竞争力[J]. 技术与创新管理, 2008, 29(4): 374-376.
[12] 杨朝继, 王昱懿. 高校毕业生薪酬影响因素研究[J]. 西北民族大学学报(哲学社会科学版), 2023(2): 120-127.
[13] 郭丛斌, 曾满超, 丁小浩. 中国高校理工类学生教育及就业状况的性别差异[J]. 高等教育研究, 2007, 28(11): 89-101.
[14] 杨晋, 叶晓阳, 伍银多, 丁延庆. 高校扩招过程中毕业生初职及薪酬影响因素研究[J]. 国家教育行政学院学报, 2019(5): 70-78, 95.
[15] 朱苗. 家庭照料责任与女性就业关系研究[J]. 广西质量监督导报, 2020(12): 43-44.