1. 引言
随着中国经济的快速发展,大量农村劳动力涌入城市。然而,受经济、户籍等多重因素影响,许多农民工选择将未成年子女留守农村,由祖辈或其他亲属代为照料。这些被称为“农村留守儿童”(范兴华等,2018)的群体,其身心健康问题日益凸显。研究表明,相较于非留守儿童,贫困地区农村留守儿童的情感和行为问题发生率显著偏高(Zhou et al., 2021)。若不及时干预,问题行为将严重阻碍儿童和青少年的学业成就、社会适应和健康发展(Fosco et al., 2012)。因此,对留守儿童问题行为进行早期预测,具有重要的现实意义。
早在1987年,Achenbach等人就将儿童问题行为划分为内化问题(如焦虑、抑郁、孤僻、退缩等情绪问题)和外化问题(如攻击反抗、违法乱纪、过激活动等行为问题)两大类。国内学者进一步将其定义为个体在成长过程中表现出的与社会规则或道德规范相悖、不被社会认可的行为,这些行为会对社会、他人或自身造成不良影响甚至危害(张文新,1999),例如打架斗殴、抽烟酗酒、网络成瘾以及校园霸凌等。针对儿童问题行为影响因素的研究已积累了丰富的成果。传统研究多采用量表施测,通过相关分析(高雯,陈会昌,2021;李志红,2019)或回归分析(Knudsen et al., 2015; Hunt et al., 2018)来探讨各因素与儿童问题行为之间的关系。然而,考虑到儿童问题行为影响因素的复杂性和方向性的不确定性,研究者们逐渐转向中介效应研究(刘莉等,2020;吕催芳,周永红,2019;王学思等,2021),以期更深入地揭示各因素之间的内在联系。此外,研究者们还尝试采用潜剖面分析(Zhu et al., 2023)为深入理解儿童问题行为提供新的视角。虽然这些方法能够纵向追踪影响儿童问题行为的相关因素,但以往研究多侧重于维度间的宏观分析,缺乏对具体题项间关联的深入探讨。为了更直观地展示各因素之间的关系,学者们还尝试使用网络分析的方法(覃军,2023)来揭示其与问题行为的关系。然而,网络分析的主观性较大,因素间关系的设定往往依赖于研究者的主观判断,可能导致结果受到主观偏见的影响。此外,网络分析所使用的题目较多,绘制出的图形较为复杂,难以解释。
综上所述,儿童问题行为的影响因素错综复杂。然而,传统的研究方法在处理大量变量时,往往面临计算复杂、模型稳定性差等问题,难以充分探索众多因素与问题行为之间的关系。随着互联网时代的到来和人工智能技术的快速发展,处理数据的方式变得更加便捷和高效。机器学习(Machine Learning)作为一种通过从大量数据中学习潜在规律,并应用于新的、陌生数据,进行自动分析、判断或预测的技术(Cabitza & Banfi, 2018; Senders et al., 2018),为解决这一难题提供了新的思路。机器学习能够更快地处理大规模数据,自动化地进行模型构建、参数优化等过程,从而显著节省人力和时间成本。同时,机器学习模型具有更高的准确性和适应性,能够减少人为的主观干预,提高工作效率,降低错误和偏差。例如,金桃(2021)等学者分别使用机器学习的方法探究了睡眠模式与学龄前儿童行为问题之间的关联以及分析影响流动儿童问题行为的重要因素。也有学者使用机器学习的方法对问题行为进行预测,Sándor和Bakó (2022)使用机器学习技术来预测赌博行为。然而,现有研究大多仅采用单一的机器学习方法,对于哪种方法更适合、模型与数据的拟合程度更高等问题尚缺乏深入探讨。因此,不同模型之间的比较显得尤为重要。Alateyat等(2022)使用机器学习算法预测感觉处理障碍与自闭症谱系儿童行为问题之间的关系,并对线性回归、脊回归以及梯度增强机三种方法进行了比较。然而,针对留守儿童问题行为影响因素的复杂性,仅考虑单一变量关系可能会遗漏重要信息。
因此,本研究提出使用多种机器学习方法对农村留守儿童问题行为进行因子预测,其中因子包括抑郁、焦虑、同伴关系、父亲教养投入以及一些背景信息,并将随机森林、决策树、线性回归以及套索回归等多种机器学习方法进行对比分析。旨在通过本研究,探索更适合于儿童问题行为预测的算法,为未来的研究和实践提供有益的参考。
2. 方法
2.1. 被试
本研究采用方圆等人(2022)更新出版的农村儿童心理健康数据库(http://doi.org/10.57760/sciencedb.j00001.00464)。该数据集于2021年3月至5月对中国7个省16所农村小学的小学生生活状况进行了调查。共发放问卷3025份,剔除极值问卷、大遗漏问卷和不注意问卷后,最终保留有效问卷2498份,问卷有效率为82.28%。
2.2. 研究工具
2.2.1. 儿童抑郁量表(Child Depression Inventory, CDI)
采用Kovacs (1992)编制的儿童抑郁量表(Child Depression Inventory, CDI)评估儿童的抑郁水平。CDI共包含27个项目,在本研究中,该量表的克隆巴赫α系数为0.84,表明其具有良好的内部一致性。
2.2.2. 广泛性焦虑障碍量表(Generalized Anxiety Disorder 7-Item, GAD-7)
采用Spitzer等人(2006)编制的广泛性焦虑障碍量表(Generalized Anxiety Disorder 7-item, GAD-7)评估儿童的焦虑状态。GAD-7由7个项目组成,在本研究中,该量表的克隆巴赫α系数为0.81,表明其具有良好的内部一致性。
2.2.3. 儿童问题行为量表(Child Behavior Checklist, CBCL)
采用Achenbach等人(2001)改编的儿童问题行为量表(Child Behavior Checklist, CBCL)评估儿童的问题行为。本研究使用的改编版本包含20个项目。在本研究中,该量表的内部一致性系数为0.80,表明其具有良好的内部一致性。
2.2.4. 父亲教养问卷(Father Involvement Questionnaire)
采用伍新春等人(2015)编制的父亲教养投入问卷中的22道题目测量儿童的父亲教养投入水平。该量表的内部一致性系数为0.94,表明其具有良好的内部一致性。
2.2.5. 同伴关系简版量表(Peer Relationships Scale)
采用DeWalt等人(2013)编制的同伴关系简版量表的中文版测量个体自评的同伴关系状态与质量。在本研究中,该量表的内部一致性系数为0.86,表明其具有良好的内部一致性。
2.2.6. 背景信息
收集被试的性别、年龄、年级、与父母关系和睦程度、是否独生子女、家庭居住(留守)情况、父母受教育程度、未来期望工作以及工作地点等信息(见表1)。
2.3. 数据统计与分析
本研究旨在利用机器学习方法对中国农村留守儿童的问题行为进行因子预测,并比较不同方法的有效性。具体而言,本研究采用以下四种机器学习算法:
决策树(Decision Tree)、随机森林(Random Forest)、线性回归(Linear Regression)、套索回归(LASSO Regression)。在模型评估方面,本研究采用经典的K折交叉验证方法(K = 10)将数据集分成训练集和测试集,以评估机器学习模型的性能。最终,将K次测试结果的平均值作为模型的性能指标。
对于回归问题,本研究采用决定系数(R2)和均方误差(MSE)作为评估模型的指标。决定系数(R²)用于衡量模型对数据的解释程度,取值范围为0到1,R2越接近1,表示模型对数据的拟合程度越好。所有数据统计与分析过程均使用Python 3.12编程语言,并在Pycharm 2024.1.15版集成开发环境中完成。本研究主要使用Scikit-learn (0.24.2)库实现机器学习算法。
3. 结果
3.1. 描述性统计
本研究的样本包括2498名7~16岁的农村留守儿童(Mage = 10.74, SDage = 1.64)。其中,男生1153人(46.91%),女生1259人(51.22%),性别未报告46人(1.87%)。详细人口学变量分布见表1。
3.2. 机器学习因子预测回归结果
随机森林(Random Forest, RF)和决策树(Decision Tree, DT)模型的结果显示(见图1),抑郁、焦虑、父亲教养投入、同伴关系、未来期望职业(工人)、未来期望学历、朋友是否伤害自己(以及如何伤害)、自己是否伤害过自己、年级以及平时是否和父亲生活等因素是预测农村留守儿童问题行为的重要因子。其中,两种方法均显示,焦虑、抑郁、父亲教养投入、同伴关系以及未来期望职业(工人)这五个因子的重要性高于0.05。
Table 1. Distribution of demographic variables
表1. 人口学变量分布
特征 |
|
数量 |
百分率% |
特征 |
|
数量 |
百分比 |
性别 |
男 |
1153 |
46.91 |
父亲教育 程度 |
小学及以下 |
322 |
13.1 |
女 |
1259 |
51.22 |
初中 |
570 |
23.19 |
未报告 |
46 |
1.87 |
高中 |
307 |
12.49 |
年级 |
一年级 |
276 |
11.23 |
职校 |
131 |
5.33 |
二年级 |
356 |
14.48 |
大学及以上 |
175 |
7.12 |
三年级 |
384 |
15.62 |
不知道 |
864 |
35.15 |
四年级 |
577 |
23.47 |
未报告 |
89 |
3.62 |
五年级 |
413 |
16.8 |
母亲文化 程度 |
小学及以下 |
300 |
34.74 |
六年级 |
445 |
18.1 |
初中 |
581 |
12.21 |
未报告 |
7 |
0.28 |
高中 |
244 |
23.64 |
年龄 |
7 |
55 |
2.24 |
职校 |
178 |
9.93 |
8 |
182 |
7.4 |
大学及以上 |
212 |
7.24 |
9 |
257 |
10.46 |
不知道 |
854 |
34.74 |
10 |
415 |
16.88 |
未报告 |
89 |
3.62 |
11 |
462 |
18.8 |
是否独生 子/女 |
是 |
274 |
11.15 |
12 |
481 |
19.57 |
否 |
2091 |
85.07 |
13~16 |
305 |
12.41 |
未报告 |
93 |
3.78 |
未报告 |
301 |
12.25 |
|
|
|
|
然而,线性回归和套索回归模型的预测效果不佳。线性回归模型显示,前十个重要因子均与未来期望职业有关,其中期望从事工人、创业、拼搏以及小镇青年等职业与问题行为呈正相关,而期望从事二手车行业、英语教师、心理医生、开饭店、公司老板等职业与儿童问题行为呈负相关。这一结果与以往研究结果相符,即对未来充满信心的儿童问题行为较少(Ouyang et al., 2023)。套索回归模型显示,前十个预测因子分别为年龄、年级、家庭子女数、母亲文化程度、平时是否和父亲生活在一起、抑郁、同伴关系、父亲教养投入、焦虑以及对未来月收入的期待。除抑郁和父亲教养投入与儿童问题行为呈负相关外,其余因子均呈正相关,但整体重要性系数较低(见图2)。
Figure 1. Overview of predictor importance in random forest vs. decision tree models
图1. 随机森林与决策树预测因子重要性概况
Figure 2. Predictor importance profiles in linear regression vs. lasso regression
图2. 线性回归与套索回归预测因子重要性概况
模型预测值与真实值的对比结果也表明,决策树和随机森林模型的准确性更高(见图3),两种算法的预测值和真实值的走向基本一致。线性回归模型的预测值和真实值的对比差异较大,套索回归模型的真实值和预测值的比较差异更大,预测值几乎呈现为一条水平线,表明该数据集可能不适合使用此方法(见图4)。
Figure 3. Comparison of observed and predicted values: random forest vs. decision tree
图3. 随机森林和决策树真实值与预测值对比
Figure 4. Observed vs. predicted values: linear regression vs. lasso regression
图4. 线性回归和套索回归真实值与预测值对比
图5展示了套索回归的滤波过程,左图为特征系数随套索回归参数变化的过程;右图为通过十次交叉验证选择最优参数(lambda),以0.5个标准差定义的最小标准误差限值为最优值,最佳lambda值为8.449。
本研究中,随机森林模型的原始均方误差(MSE)为1.983,决定系数(R2)为0.775。为提高模型的有效性,采用Geisser (1975)提出的5折交叉验证方法。已有研究表明,当K的参数设置为5~10时,能够同时达到验证效果稳定性和提高模型计算的有效性(Friedman et al., 2001)。经过5折交叉验证后,随机森林模型的平均均方误差(MMSE)为1.056,平均决定系数(MR2)为0.871,表明随机森林的回归预测准确性较高。决策树模型的原始均方误差(MSE)为1.587,决定系数(R2)为0.820;经过5折交叉验证后,平均均方误差(MMSE)为0.012,平均决定系数(MR2)为0.998,表明模型训练后预测值和真实值的差异较小,模型的有效性较高。线性回归模型的原始均方误差(MSE)为6.363,决定系数(R2)为0.279;经过5折交叉验证后,平均均方误差(MMSE)为6.571,平均决定系数(MR2)为0.187,表明模型的预测效果不佳。套索回归模型的原始均方误差(MSE)为7.060,决定系数(R2)为−0.003;经过5折交叉验证后,平均均方误差(MMSE)为6.681,平均决定系数(MR2)为0.171。套索回归模型的MSE值与R2值均不理想,表明该模型的预测效果不佳(见表2)。
Figure 5. Filtering process in lasso regression
图5. 套索回归的滤波过程
Table 2. MSE values and R2 values for each machine learning algorithm
表2. 各机器学习算法的MSE值与R2值
机器学习算法 |
原始MSE |
交叉验证MMSE |
原始R2 |
交叉验证后MR2 |
随机森林 |
1.983 |
1.056 |
0.775 |
0.871 |
决策树 |
1.587 |
0.012 |
0.820 |
0.998 |
线性回归 |
6.363 |
6.571 |
0.279 |
0.187 |
套索回归 |
7.060 |
6.681 |
-0.003 |
0.171 |
3.3. 机器学习因子预测部份依赖图以及线性回归与套索回归VIF值分析
根据图1结果,已知抑郁、焦虑、父亲教养投入、同伴关系、未来期望职业(工人)等五个特征是比较重要的因子,其中焦虑、抑郁、希望未来从事的职业是工人几种因子的部分依赖图(图6)所示,可以看出随着焦虑程度的增加,部分依赖值最初迅速上升,在焦虑程度达到约10后趋于平稳,随后略有波动;部分依赖值随着抑郁程度的增加而逐渐上升,在抑郁程度接近50时出现急剧上升;部分依赖值在父亲教养投入的整个范围内相对平稳,但在投入较高时出现一些波动;随着同伴关系质量的增加,部分依赖值最初略有上升,然后趋于平稳,随后略有下降;部分依赖值随着选择“工人”职业的意愿增加而线性上升。
由图7可以看到VIF值在1~3之间,说明这些特征存在一定的共线性,虽然在可接受的范围内,但是对于模型的预测效果仍然存在影响。
Figure 6. Partial dependence plots for the top five important features
图6. 前五个重要特征部分依赖图
Figure 7. VIF (variance inflation factor) analysis for linear regression and lasso regression
图7. 线性回归与套索回归VIF值分析
4. 讨论
本研究旨在利用机器学习方法对中国农村留守儿童的问题行为进行因子预测,并对比不同模型的预测效果,以期找到最佳的预测模型。研究结果表明,随机森林和决策树模型表现出较好的预测性能,而线性回归和套索回归模型则表现欠佳。
4.1. 模型预测性能分析
随机森林模型表现出良好的拟合效果,其原始R2为0.775,交叉验证后平均R2提升至0.871,表明该模型能够较好地解释数据变异。同时,随机森林模型的原始MSE为1.983,交叉验证后平均MSE降至1.056,说明该模型具有较小的预测误差。决策树模型也表现出优异的性能,其原始R2为0.820,交叉验证后平均R2高达0.998,表明该模型对数据的拟合程度极高。此外,决策树模型的原始MSE为1.587,交叉验证后平均MSE仅为0.012,说明该模型的预测值与真实值非常接近。
相比之下,线性回归和套索回归模型的预测效果不尽如人意。线性回归和套索回归模型的R2均小于0.3,甚至套索回归模型的R2为负值,表明这两个模型对数据的拟合程度较差。同时,线性回归和套索回归模型的MSE均大于6,说明这两个模型的预测值与真实值之间的误差较大。因此,对于本研究的数据集,随机森林和决策树模型是更合适的预测模型,而线性回归和套索回归模型则不太适用。
4.2. 重要预测因子分析
结合随机森林和决策树模型的预测结果,本研究识别出五个重要性大于0.05的预测因子,分别为抑郁、焦虑、同伴关系、父亲教养投入以及未来期望从事的职业是工人。这些因子在预测农村留守儿童问题行为方面具有重要作用。
抑郁和焦虑:抑郁和焦虑是儿童青少年常见的心理问题,与多种问题行为密切相关。以往研究表明,抑郁和焦虑情绪会增加儿童青少年发生攻击、违纪、自伤等问题行为的风险。本研究的结果与以往研究结果一致,进一步证实了抑郁和焦虑在预测农村留守儿童问题行为方面的重要性。
同伴关系:良好的同伴关系是儿童青少年心理健康的重要保护因素。积极的同伴互动可以增强儿童青少年的社会支持、归属感和自尊心,从而降低问题行为的发生率。相反,不良的同伴关系,如同伴排斥、欺凌等,会增加儿童青少年发生问题行为的风险。本研究的结果表明,同伴关系是预测农村留守儿童问题行为的重要因子,提示我们应关注留守儿童的同伴交往情况,积极促进其良好同伴关系的建立。
父亲教养投入:父亲在儿童青少年成长过程中扮演着重要角色。父亲的教养方式、情感支持和参与程度对儿童青少年的心理健康和行为发展具有重要影响。以往研究表明,父亲教养投入不足会增加儿童青少年发生问题行为的风险。本研究的结果再次强调了父亲教养投入在预测农村留守儿童问题行为方面的重要性,提示我们应重视父亲在留守儿童教育中的作用,积极鼓励父亲参与到孩子的成长过程中。
期望未来从事的职业是工人:这一发现是本研究中的亮点。从现有分析来看,农村留守儿童呈现出这种职业期望倾向有着多方面的现实原因。农村留守儿童的父母大多文化程度不高,家庭经济状况欠佳,且缺乏能获取高收入的技能,这使得他们中的多数人只能选择外出务工,从事工人这一职业。在成长过程中,留守儿童深受父母观念与行为的影响(吕勤,陈会昌,王莉,2003),同时,周边已长大留守儿童的就业选择也产生了示范效应,诸多因素交织,促使这些留守儿童更倾向于将“工人”作为自己未来的职业追求。这种职业期望可能反映了他们对自身发展机会的认知局限,以及对社会流动性的较低预期,在这背后,极有可能涉及更为复杂的社会认同、自我效能感、阶层再生产等心理社会机制。例如,社会认同理论(Henri & John, 1970)认为,个体通过将自己归属于某一群体来获得自尊和归属感,留守儿童可能因长期处于特定社会环境,在职业选择上受到群体认同的强烈影响;自我效能感则关乎个体对自己能否成功完成某一行为的主观判断,留守儿童在成长过程中所经历的事情,或许会削弱他们在职业选择方面的自我效能感;而阶层再生产理论强调社会阶层结构在一定程度上具有自我复制的特性,留守儿童的职业期望或许正是这种阶层再生产过程的一种体现。高敏(2015)的研究表明,未来职业规划对问题行为具有预测作用。鉴于此,本研究为我们敲响了警钟:我们不仅要关注到农村留守儿童期望从事工人这一职业的现象,更要深入挖掘其背后复杂的心理社会成因。在此基础上,采取针对性措施,帮助农村留守儿童拓展视野,树立更为积极、多元且符合自身发展潜力的职业目标,进而降低问题行为的发生几率,促进他们的健康成长与全面发展。
以往研究多侧重于单一因素对儿童问题行为的影响,而本研究将多个变量纳入同一模型进行预测,更全面地考察了各因素对农村留守儿童问题行为的综合影响。这一研究方法有助于我们更深入地理解问题行为的复杂成因,为制定更有效的干预策略提供依据。
4.3. 线性回归和套索回归模型预测效果不佳的原因分析
线性回归模型的预测效果不佳,可能与以下因素有关:首先,本研究使用的数据量相对较少,可能影响了模型的稳定性和泛化能力。其次,该数据集的多个变量之间可能不存在线性关系,导致线性回归模型无法准确捕捉数据中的复杂关系。此外,数据中原始变量之间的相关性较高,可能存在多重共线性问题(见图7)。例如,焦虑与抑郁之间存在较高的相关性(陈国平等,2024;刘瑞杰,彭玮婧,郑美欣等,2023),抑郁、焦虑与同伴关系之间也存在较大的相关性(Blain-Arcaro & Vaillancourt, 2017; 王玉洁,窦凯,2019)。父亲教养投入较少可能会导致孩子形成父子不安全型依恋,从而导致儿童抑郁(Agerup et al., 2015)。父亲在儿童期塑造的形象也会影响儿童对未来职业的选择以及对未来的信心等。
套索回归模型的预测效果不佳,可能与以下因素有关:首先,套索回归对异常值较为敏感,而本研究在数据预处理过程中未剔除异常值,这可能影响了模型的预测精度。其次,本研究中使用的多个变量之间存在较高的相关性,导致套索回归模型出现多重共线性问题。此外,由于L1正则化的存在,套索回归倾向于将某些系数收缩为零,从而降低模型的复杂度。这可能导致模型欠拟合,无法捕捉到数据中的复杂关系。
4.4. 研究局限与展望
本研究存在一定的局限性。首先,本研究使用公开数据集,可用样本量相对较少,且未对极端数值进行处理,这可能影响了模型的拟合程度。其次,本研究未充分考虑到模型与数据的适配性,导致线性回归和套索回归的结果欠佳。
尽管存在上述局限性,本研究仍具有重要的理论和实践意义。本研究验证了使用随机森林和决策树模型对留守儿童问题行为进行因子预测的可行性,并识别出五个重要的预测因子(抑郁、焦虑、同伴关系、父亲教养投入以及未来期望从事的职业是工人)。这些预测结果与以往相关研究相符,进一步证实了这些因素在预测留守儿童问题行为方面的重要性。未来,我们可以直接通过这五个预测因子综合过滤筛选出高风险的留守儿童,并及时有效地给予他们关心和支持,避免其问题行为进一步发展,从而促进家庭和社会的和谐稳定。此外,未来的研究可以尝试使用更大的数据集,并采用更精细的数据预处理方法,以提高模型的预测精度。同时,未来的研究可以探索更多适用于复杂数据集的机器学习算法,以期找到更有效的留守儿童问题行为预测模型。
5. 结论
本研究采用随机森林、决策树、线性回归和套索回归四种机器学习算法,对中国农村留守儿童问题行为的预测因子进行了建模分析。结果表明,抑郁、焦虑、同伴关系、父亲教养投入以及未来期望从事的职业是工人是综合预测留守儿童问题行为的关键因子。其中,随机森林和决策树模型表现出较好的预测性能,而线性回归和套索回归模型则表现欠佳。本研究结果为早期识别和干预农村留守儿童问题行为提供了有价值的参考依据。