1. 引言
近几年来,高校频繁报告出大学生负面情绪引发的新闻,使得大学生心理健康问题成为一个热门的社会研究对象。本文的研究能有效地对大学生心理健康状况进行及时分析和掌握、跟踪,一方面,为了消除心理障碍提供判断依据,营造良好心理环境;另一方面,为后期的大学生心理健康预警和干预的问答系统、知识库构建、推荐系统等人工智能化研究提供必要的基础研究。
大学生心理健康分析是指针对特殊的大学生群体心理状况,采用量表测量,参照心理健康标准,进而判断属于健康或者不健康。目前,国内外学者对大学生心理健康研究取得一定成果。在国外,Canby N K等人(Canby et al., 2015)探讨了为期6周的适应性正念减压(MBSR)干预对大学生心理健康和幸福感的影响,研究结果表明MBSR对大学生具有广泛的积极作用,有助于大学生缓解校园压力;Patrick J. Michaels等人(Michaels & Corrigan, 2015)针对大学生心理求助率低问题,运用聚类方法,研究发现主要来自于对校园资源认识的缺乏和心理疾病的耻辱感,倡导组织研究与其大学认可的学生校园分会合作,促进心理健康活动。在国内,陈小芳等人(陈小芳等,2020)提出了面向多源调查问卷数据的大学生心理健康可视分析方法解决了多源调查问卷之间的关联,降低心理健康分析的不确定性;王强(王强,2014)提出应用分层整群的抽样方法了解大学生心理健康状况并分析大学生心理健康状况的影响因素;吴怡等人(吴怡等,2020)采用方便抽样法和滚雪球抽样法分析新冠肺炎疫情防控期间的心理健康状况及产生焦虑的影响因素。以上研究主要通过问卷收集调查、人工分析问卷方式、对比分析法进行判断心理是否健康,并大学生已经存在心理健康问题,该整套分析流程复杂、受心理分析专家的经历、知识面、主观意识影响、工作耗费人力物力财力资源等问题存在。
针对以上存在的问题,本文提出基于朴素贝叶斯算法的大学生心理健康分析模型,能够客观、快速地对大学生心理健康进行分析和评判。首先,本文以大学生心理健康调查问卷方式为基础,获得被测大学生群体心理健康语料数据,邀请大学生心理咨询专家,对获取到的心理健康语料数据进行去噪与清洗,得到高质量心理健康语料库;其次,从心理健康语料库和专家背景知识分析,进一步选取有效的心理健康识别特征并优化处理;最后,构建基于朴素贝叶斯算法构建心理健康分析模型。通过该模型实现对大学生心理状况快速地分析判断,做到对大学生心理健康状况的及时分析和判断,给出是否存在心理健康问题。
2. 本文研究框架
2.1. 困难与挑战
当前,大学生一方面已处于成人阶段,在思想与心理面对人生、生活和学习等方面已形成自己的见解,思想较为活跃;另一方面,心理处于不稳定的状态,容易受各外界因素的影响、接受新知识,造成了大学生心理障碍,影响了正常的学习、生活,给心理专家的判断带来了复杂性和多样性的挑战,增加了心理健康分析的难度和降低心理分析的及时性。
2.2. 本文框架
根据研究目标和内容,基于朴素贝叶斯算法的大学生心理健康分析模型的框架图,如图1所示。

Figure 1. The analysis framework of college students’ mental health
图1. 大学生心理健康分析模型的框架图
从图1可知,本文框架主要包括构建心理健康模型和心理健康测试两个过程。在构建模型阶段,分为三个步骤:1) 根据SCL-90量表并结合专家指导,制定大学生群体心理健康问卷调查表,通过微信、QQ、电子邮件E-Mail、纸质调查表、心理健康测试系统等不同方式邀请大学生进行填写,收集大学生心理健康调查问卷数据,同时邀请大学生心理健康专家对问卷数据进行人工分析和标记语料是否健康、分类、量化、去噪与清洗数据,构建得到高质量心理健康语料库,将语料库分为训练数据与测试数据两个部分;2) 根据大学生心理专家和心理学专业知识结合,获得的高质量心理健康语料库,选取大学生心理健康数据的有效特征并优化;3) 在已构建的训练语料库和选取有效特征的基础上,采用朴素贝叶斯算法进行构建大学生心理健康分析模型,得到基于朴素贝叶斯算法的大学生心理健康分析模型。在心理健康测试阶段,将测试语料输入到已构建的大学生心理健康分析模型中,得到心理健康预测结果。
3. 构建大学生心理健康分析模型
本文构建大学生心理健康分析模型,主要包括大学生心理健康语料库的构建、特征选取、模型构建三个基本过程,下面详细介绍。
3.1. 构建语料库
语料库质量的好坏对后续的分析与模型构建至关重要。本文根据SCL-90量表结合心理健康专家指导,制定大学生群体心理健康问卷调查表,通过网络(微信、QQ、电子邮件E-Mail和心理健康测试系统)或纸质(纸质调查表)等不同方式邀请大学生(湖北某高校)进行填写,邀请大学生心理专家对调查问卷数据进行分类、量化和人工标记语料判断是否健康,形成规模为5600条语料库;采用python相关工具包对语料库进行去噪声和清洗处理,对数据标准化处理,得到高质量心理健康语料库,并将该语料库进行划分为训练语料和测试语料,数据以Excel、utf-8编码格式进行存储。
3.2. 特征选取
特征选取的质量直接决定机器学习模型性能的好坏。本文根据SCL-90量表、心理健康分析专家指导、常用重要评判的特征以及结合高质量心理健康语料库选取有效特征,选取了大学生心理健康分析的9个特征维度,分别是躯体化(A)、强迫症状(B)、人际关系敏感(C)、抑郁(D)、焦虑(E)、敌对(F)、恐怖(G)、偏执(H)、精神病性(I),并且这些特征维度之间相互独立,在特征贡献度实验中,已经验证9个特征维度线性非相关。
根据心理健康专家经验与心理健康测试SCL-90量表,将每一个特征维度的取值分别进行等级量化处理,分别转化为严重、重度、中度、轻度和无等五个不同等级,如表1所示。

Table 1. Feature quantification of college students’ mental health
表1. 大学生心理健康特征的等级量化
备注:
SCL-90量表因子分(即特征维度),是指因子内的单项平均分,等于因子各单项分之和除以因子的项目数,详细量化的过程如下:
因子分X转换为五个等级
• 严重:任意一个因子分大于等于4分,即T ≥ 4,尤其抑郁与精神病性;
• 重度:任意一个因子得分在大于等于3.5小于4分,即3.5 ≤ T < 4;
• 中度:任意一个因子得分在大于等于3小于3.5分,即3 ≤ T < 3.5;
• 轻度:任意一个因子得分在大于等于2小于3分,即2 ≤ T < 3;
• 无:任意一个因子得分在小于2分,即T < 2。
接着,按照量化后的等级,可以得到大学生心理健康测评结果数据样例格式,如表2所示。

Table 2. Data style of evaluation results of college students’ mental health
表2. 大学生心理健康测评结果数据样式
3.3. 构建基于朴素贝叶斯的心理健康分析模型
3.3.1. 朴素贝叶斯算法理论
朴素贝叶斯分类算法是统计学的一种分类方法,采用概率统计知识进行分类的算法,已经很成熟;同时,在对待预测样本进行预测,过程简单速度快、分类准确率高;此外,对于多分类问题也同样很有效,复杂度也不会有大程度上升;在分布独立这个假设成立的情况下,朴素贝叶斯分类器效果很好,同时效果会略胜于逻辑回归,处理小规模语料时表现很好;最后,对于类别类的输入特征变量和数值型变量特征,符合正态分布、效果非常好。目前,朴素贝叶斯应用于分类(周国强,崔荣一,2011) (董立岩,2007)、评估(华玲等,2020) (霍利民等,2003)、预测(杨锡运等,2020a) (杨锡运等,2020b) (李博,张洪刚,2020)、异常检测(辛自强等,2012) (林媛,2020) (任杰,2009)等领域,取得很好效果。
本文大学生心理健康语料库数据各个特征之间相互独立,且该分类算法能够满足其数据规模要求,因此采用朴素贝叶斯算法进行构建模型。
假设每个数据样本用一个n维特征向量来描述n个属性的值,即
,假定有m个类,分别用
表示。给定一个未知的数据样本X (即没有类标号),若朴素贝叶斯分类法将未知的样本X分配给类Ci,则一定是
根据贝叶斯定理,由于
对于所有类为常数,最大化后验概率
可转化为最大化先验概率
。如果训练数据集有许多属性和元组,计算
的开销可能非常大,为此,通常假设各属性的取值互相独立,那么先验概率
可以从训练数据集求得。
根据此方法,对一个未知类别的样本X,可以先分别计算出X属于每一个类别Ci的概率
,然后选择其中概率最大的类别作为其类别。
3.3.2. 构建模型
本文根据朴素贝叶斯算法的基本思想,结合选取的有效特征,构建基于朴素贝叶斯算法的大学生心理健康分析模型的框架图,如图2所示。

Figure 2. The analysis framework of college students’ mental health based on the Naive Bayesian Algorithm
图2. 朴素贝叶斯算法心理健康分析模型图
构建模型的计算过程如下:(注:Health:健康;No Health:不健康)
1) 健康情况下的条件(全)概率计算
因为各个维度之间相互独立,则存在以下等式:
在健康情况下,各自的条件(全)概率,计算如下:
其中,ji表示各个特征维度。
2) 不健康情况下的条件(全)概率计算
因为各个维度之间相互独立,则在不健康情况下,各自的条件(全)概率,计算如下:
其中,ji表示各个特征维度。
3) 大学生心理健康结果判断
将大学生心理健康测试语料输入该模型,分别计算出健康情况下的条件(全)概率P1与不健康情况下的条件(全)概率P2,如下:
与
并进行大小比较,得出心理健康测试结果。
3.3.3. 评价指标
为了评估本文方法的预测分析结果,实验将采用正确率(正确分析预测个数与分析预测总数比值),作为本文评价标准,如公式(1)所示。
公式(1)
式中准确率数值在0和1之间,越接近1,表示该模型分析预测越好,模型性能越好,就表明本文的方法越有效。
4. 实验过程及分析
本文实验所用实验数据主要是大学生心理健康语料,分为训练语料和测试语料。目前,由于大学生心理健康结合机器学习方法研究资源匮乏,故本文需要构建语料库。心理健康语料库是经过本文人工处理得到,包含5600条心理健康数据;根据SCL-90量表制定大学生群体心理健康问卷调查表,通过网络或纸质等不同方式邀请大学生(湖北某高校)进行采集,邀请大学生心理专家对调查问卷数据进行分类、量化和人工标记语料判断是否健康,所有字段保存为“UTF-8”格式;实验采用python与机器学习库sklearn工具包。
为了综合方面衡量本文构建的分析模型,实验主要从三个方面进行评估模型性能:1) 特征贡献度实验;2) 五倍交叉验证实验;3) 开放与封闭测试实验。
4.1. 特征贡献度实验
为了考察本文选取的9个特征维度对本文构建模型的贡献度,分别将9种特征单独融入分析模型中,特征贡献度通过正确率进行比较。实验结果如表3所示。

Table 3. Experiment on feature contribution
表3. 特征贡献度实验
从表3中可看出,在第9组实验中单独使用“精神病性”特征和第4组中单独使用“抑郁”特征,本模型的预测正确率最高,达到100%,可认为由以上两种症状者,认为心理不健康。其他重要的特征维度分别是躯体化、敌对、恐怖、强迫症状、偏执、焦虑、人际关系敏感,特征之间相互独立,呈非线性关系。
4.2. 五倍交叉验证
为了能够更加准确评估构建的分析模型效果,将5600条数据平均分为5份,选取其中1份作为测试语料,其他4份作为训练语料,进行5倍交叉实验,求其5次结果的正确率的平均值作为本文构建的分析模型的测评结果。实验结果如表4所示。

Table 4. Experiment on 5-fold crossover
表4. 5倍交叉实验结果
从表4可知,序号5的实验正确率达到84.315%,达到了局部最优,序号3正确率最低达到83.941%。为客观准确评价模型性能,实验采用正确率的平均值为84.136%,作为所提出的条件随机场统计模型的效果。
4.3. 开放与封闭实验
为了评估本文构建模型的鲁棒性,本实验对已构建的基于朴素贝叶斯算法的大学生心理健康分析模型进行开放与封闭测试。实验结果如图3所示。

Figure 3. Experiment on open test and closed test
图3. 开放与封闭实验
从图3中可知,封闭测试实验正确率达到84.136%,开放测试实验的正确率为82.107%,开放测试比封闭测试仅低2.029%,因此本文构建的模型鲁棒性强。
5. 总结
当前,由于大学生心理健康引发的负面情绪造成的严重后果不断发生,给个人、家庭、学校等方面带来严重影响,心理健康教育工作已纳入各大高校学生日常管理重要核心位置。传统学生心理健康采用人工分析,该整套分析流程复杂、受心理专家主观意识影响、工作耗时耗力等问题,这无疑增加管理者等各层的工作负担。本文针对该问题提出基于朴素贝叶斯算法的大学生心理健康分析模型,根据调查问卷结果进行自动化判断学生心理健康是否存在问题,有利于对大学生心理健康状况的及时跟踪、干预和预警等,实验证明该方法有效可行。下一步,本文将进一步扩展语料库规模,针对高等院校不同专业学生进行细化构建分析模型。
基金项目
2019年国家自然科学基金面上项目(61972136);2018年第二批教育部产学合作协同育人项目(201802325001);2019年第一批教育部产学合作协同育人项目(201901023010);2020年度孝感市自然科学计划项目(XGKJ2020010038);2020年度孝感市自然科学计划项目(XGKJ2020010064)。
NOTES
*通讯作者。