1. 引言
研究生培养质量是建设一流和高水平研究型大学的关键问题。党的十八大以来,国家全面实施创新驱动发展战略,突出把人才作为创新的第一资源。习近平总书记强调,创新驱动实质上是人才驱动。因此对创新型人才的培养是国家兴旺发达的关键所在。研究生作为创新型人才的主力军,肩负着发展国家科学技术的重任。因而研究生教育质量成为能否为国家输送高层次创新型人才的中心环节 [1]。随着研究生招生体制和培养体制的改革,逐步实现从规模化发展向内涵式发展的转变。研究生的生源质量是研究生培养质量的基础,研究生招生工作得到提升,研究生生源质量则提高,直接影响研究生的培养质量 [2] [3]。针对目前研究生招生数量大量扩张的情况,研究生生源质量不能得以保障。教育管理的重点:如何适时、适宜地抓好并推进研究生的培养工作,提高研究生的培养质量,已经成为摆在我们面前的首要问题 [4] [5]。科学的、合理的、有效的前期准备很大程度上决定了招生单位获取生源的质量,进而影响着整个硕士研究生培养工作的开展。为了更好地提升研究生培养质量,必须加强研究生生源质量评估体系建设。
针对现有生源质量评估办法难以定量分析,为后续招生工作提供数据支撑,本文提出了DNN (Deep Neural Network)神经网络方法。DNN网络是数据挖掘技术的重要手段,可以根据大量的数据分析及推理的有效工具,具有很强的实用性,已在数据分析实际中得到广泛应用 [5] [6] [7] [8]。研究生生源质量的评价,存在生源质量影响相互制约的关系,不确定分析地推演其中联系,构建合理的不确定性框架,并进行数据训练分析计算,DNN为生源质量的影响因素的关系建立模型,DNN神经网络数据分析技术为研究生生源质量的评价与预测提供了良好的技术支撑,因此,本文以吉林大学研究生招生的历史数据为基础,首先从DNN网路入手,在谷歌的Tensorflow框架上搭建网络并选择合适的优化器来训练网络,进一步通过2013年至2019年的研究生生源数据来训练优化网络权值与偏置,预测未来,根据招生生源数据预测研究生生源质量,为招生工作提供技术支持,进一步为提升研究生培养质量提供保障。
2. 基于DNN网络的预测模型搭建
首先,通过简要分析数据集的相关影响参数可以初步判断网络的特征输入的个数。进一步地,根据需要的预测结果确定网络的输出个数。最后,针对DNN网络,设置其内部隐藏层的层数,用已知的数据集训练DNN网络,选择合适的梯度下降算法,优化网络内部的权值、偏置,使网络训练后得到的输出接近已知数据集。在得到训练后的DNN网络模型后,即预测模型搭建完成,将得到的特征输入到预测模型中,得到的网络输出就是预测结果。DNN网络是在已有基本神经网络结构的基础上,增加了隐藏层中包含的神经元层数,在增加了网络权值与偏置个数的条件下,虽然计算速度有所下降,但网络模型的预测结果会更加准确。
2.1. DNN网络基本单元
DNN网络隐藏层中的每一层都由多个神经元构成,如下图1所示,以单个神经元模型(也称为感知机模型)为例,假设它有若干个输入和一个输出。
其中间输出结果z为:
(1)
接着,激活函数得到神经元输出y为:
(2)
因此对于一个基本神经单元的计算,首先是权重、偏置与输入的线性计算得到中间结果z,然后再通过激活函数
求得神经元最终的输出 [9] [10] [11]。
2.2. DNN网络层结构
从DNN按不同层的位置划分,DNN内部的神经网络层可以分为三类,输入层,隐藏层和输出层,如下图2示例,第一层是输入层(Input Layer),最后一层是输出层(Output Layer),其余都是隐藏层(Hidden Layer)。因此对于DNN网络来说,其隐藏层中包含很多基本神经元模型可以有很多层,层与层之间是全连接的,即第i层的任意一个神经元一定与第
层的任意一个神经元相连 [12] [13] [14]。虽然DNN看起来很复杂,但是从小的局部模型来说,还是和上述的感知机模型一样,即一个中间结果z加上一个激活函数
。
2.3. DNN网络常用激活函数
1) Sigmod函数
Sigmod是常用的非线性的激活函数,它的数学形式如下:
(3)
Sigmod几何图像如下图3:
它的一个优良特性就是能够把
的输入“压缩”到
区间,这个区间的数值在神经网络中常用来将网络的中间结果转换为概率分布(0, 1)区间的输出,即用来解决二分类问题。
2) ReLu函数
为了避免使用Sigmod而出现的梯度弥散现象(即网络参数长时间得不到更新,导致训练不收敛或停滞不动的现象发生),引入ReLu激活函数能很好地避免这一情况发生,ReLu函数定义为(如图4):
对于输出结果为某段或者整个实数空间,例如房价预测、函数趋势预测等问题,常用ReLu函数作为激活函数 [15] [16] [17]。
2.4. 基于Adam梯度下降的DNN参数优化方法
假设网络预测输出为
,而实际数据值为
,则不可避免的预测输出与实际数据会有损失
,在回归预测问题中,损失函数常用均方差如下定义:
(5)
由于网络预测输出为
与其内部权值、偏置、激活函数相关,因此损失函数也与网络内部的参数相关,可以表示为
,其中
分别代表第l层第i个神经元的权值、偏置以及激活函数 [18] [19] [20]。在回归问题中的激活函数
默认为ReLu函数,因此,可以表示损失函数为
。
训练网络的目的就是为了使损失函数最小,通过梯度下降算法更新网络权值,目前Adam梯度下降算法在实际应用中效果良好,超过了其他的自适应技术。具体的Adam迭代更新公式为:
(6)
(7)
(8)
其中规定
,w代表带更更新的数值,v,s是在梯度更新过程中的中间变量。Adam算法相当于先把原始梯度做一个指数加权平均,再做一次归一化处理,然后再更新梯度值。应用此方法可以同时更新网络的权值与偏置。
3. 基于DNN神经网络的研究生生源质量预测
3.1. 训练数据
如图5、表1所示,收集了2013至2019学年的数据作为DNN网络训练数据,其中特征为年份与每年的生源总人数,对应特征输出就是通过不同招生方式选拔而来的研究生人数。通过这部分数据集对搭建好的DNN预测网络模型,实现其预测未来各项招生计划下的人数。
Figure 5. Quality of graduate students in a college of Jilin University in 2013~2019
图5. 吉林大学某学院2013~2019学年研究生生源质量
Table 1. Number of graduate students in various enrollment plans of Jilin University
表1. 吉林大学研究生各项招生计划人数
3.2. DNN网络建立
由数据可知,其特征为年份和每年招生总人数,特征输出为5种招生方式的研究生人数。因此,在这里得到DNN网络的输入层为2,输出层为5。设置中间隐藏层为2层。如下图6所示。其中,隐藏层的第一层设置为3个神经元,第二层设置为4个神经元。
3.3. 网络激活函数选择与梯度优化
对于研究生生源质量进行预测的问题,可以归结于回归预测类问题,因此选择激活函数为ReLu,应用Adam梯度下降算法对网络权值、偏置进行更新。
Figure 6. DNN network for graduate student source quality prediction
图6. 研究生生源质量预测DNN网络
3.4. 多损失函数定义
设对于每种招生方式下的研究生损失函数为
,则有
(9)
其中,
分别代表5种招生方式;
代表年份;
代表第j种招生方式下,所有年份招生人数总和的平均值;
代表第j种招生方式下第i年的实际招生人数;
代表第j种招生方式下第i年的网络预测招生人数。
利用Tensorflow的多线程模式,开启5个会话,利用Adam梯度下降方法,设置学习率
,并采用打乱样本顺序,重复训练的方式训练DNN预测网络,直到使得以上5个损失函数值都达到10−5,完成网络训练。
4. 仿真结果
4.1. DNN网络验证
在训练已经达到目标损失值后,将训练数据的特征作为验证输入到训练好的网络中,得到验证输出,与实际结果对比,可以看到网络的输出精度很高,网络验证精度达到99.4%。
4.2. DNN网络预测
针对本文所搭建的DNN预测网络模型,需要得到当年份,即2020年份下的报考总人数,根据表3每一年份下吉林大学某学院研究生报名总人数,对这组2013至2019学年的招生总人数进行回归预测得到2020年份预计招生总人数为110人(详见表2)。
Table 3. Total number of graduate students enrolled in Jilin University in each year
表3. 吉林大学每一年份报考研究生总人数
将2020年份预计招生总人数,110人作为网络输入,得到每项计划下的招生预测人数如表3所示。
Table 4. DNN network predicts the enrollment results under various plans in 2020
表4. DNN网络预测2020年份各项计划下的招生结果
结合网络验证、预测结果如图7所示分析2013至2020年各项计划招生以及招生总人数不难发现自2016年以后的研究生招生总人数逐渐趋于稳定,各项计划下的招生人数也趋于稳定,这不仅标志着国家制度逐渐完善,也验证了吉林大学研究生招生名额变化幅度的降低,稳固保持在每年招收100~115名研究生。基于这一预测信息,能够便于吉林大学2020年研究生各项招生计划的开展。
Figure 7. Verification and prediction results of DNN network model
图7. DNN网络模型验证及预测结果
5. 结论
通过DNN网络的验证输出与实际数据值,可知网络精度较高,可以满足预测吉林大学某学院2020年研究生生源质量的需要,而且随着时间推移,已有数据的增多,可以将训练样本增多,重新训练网络权值,以实现精度更高的研究生生源质量的预测。通过DNN神经网络的方法可以对研究生生源质量进行科学有效地预测,进一步为研究生招生宣传方案提供理论依据,以提高研究生培养质量。
基金项目
国家自然科学基金青年项目“隧道磁共振旋转探测水害隐患定位成像方法研究”(42104142),吉林省自然科学基金项目“基于时移核磁共振4D成像的地下水动态监测方法与仪器”(20190201111JC);吉林大学本科教学改革研究项目“金课”视角下“误差理论与数据处理”的教学改革与深化(2019XYB223);卓越工程师背景下工科学生招生就业创业能力培养机制研究(2019zsyb021)。