随机森林模型在预测大一新生智能手机成瘾中的应用
Application of the Random Forest Model in Predicting Smartphone Addiction among First-Year College Students
摘要: 目的:应用随机森林算法预测大一新生智能手机成瘾类别的效果,并分析影响大一新生智能手机成瘾的重要因素。方法:收集某高校2530名大一新生的心理学和人口学信息,采用随机森林构建判断大一新生智能手机成瘾程度的三分类模型,选择AUC值、F1值、召回率和精准率作为模型评价指标。结果:随机森林的分类效果良好,同时通过影响因素的重要性分析发现,预测智能手机成瘾的最重要的五个因素分别是学业倦怠、错失焦虑、自我控制、拖延行为和社交焦虑。结论:随机森林模型能够有效预测大一新生的智能手机成瘾。
Abstract: Objective: This paper aims to evaluate the effectiveness of applying the Random Forest algorithm in predicting the categories of smartphone addiction among first-year college students, and to analyze the key factors influencing smartphone addiction in this population. Methods: Psychological and demographic data were collected from 2,530 first-year students at a university. A three-class classification model was constructed using the Random Forest algorithm to determine the level of smartphone addiction among these students. The model’s performance was evaluated using AUC, F1-score, recall, and precision as metrics. Results: The Random Forest model demonstrated good classification performance. Furthermore, an analysis of the importance of influencing factors revealed that the five most significant predictors of smartphone addiction were academic burnout, fear of missing out, self-control, procrastination behavior, and social anxiety. Conclusion: The Random Forest model is effective in predicting smartphone addiction among first-year college students.
文章引用:毛心格 (2024). 随机森林模型在预测大一新生智能手机成瘾中的应用. 心理学进展, 14(10), 30-37. https://doi.org/10.12677/ap.2024.1410694

1. 引言

智能手机成瘾定义为由于对智能手机的滥用而导致手机使用者出现问题心理或行为(苏双等,2014Salehan & Negahban, 2013)。根据中国互联网络信息中心发布的第51次《中国移动互联网发展报告》,截止2022年12月底,中国网民规模达10.67亿人,其中手机网民占据10.65亿(中国互联网信息中心,2022)。大学新生由于自由支配的时间增多,手机使用的频率和时间会增加,容易滋生使用智能手机的心理与行为问题(居豪,吕军城,2022Smetaniuk, 2014)。因此如何预测和防止大一新生的智能手机成瘾问题成为十分重要的研究课题。

相比于传统的心理学研究,机器学习的优势在于同时综合多种特征,并对数据中潜在的规律进行挖掘,从而达到预测目标变量的目的,目前已被广泛应用于心理学领域中(董健宇,韦文棋,2020)。但是将机器学习方法应用于对成瘾行为进行分类预测的研究刚起步(Gross et al., 2020; Hsieh et al., 2019; Kamaruddin et al., 2019)。在Giraldo-Jimenez等人(2022)采用了五种不同的机器学习算法对哥伦比亚大学学生的心理危险因素和健康状况进行调查,执行智能手机依赖的二分类任务,研究结果表明,支持向量机和随机森林表现出色。Lee和Kim (2021)采用智能手机使用的行为学数据作为二分类特征,同样发现随机森林算法表现良好。值得注意的是,基于树形算法结构的模型能够有效评估每个因素对智能手机成瘾的预测贡献(Aboujaoude et al., 2022)。通过这种特征重要性分析,我们可以识别哪些特征在预测目标变量方面具有最大的影响。此外,现有的文献通常将手机成瘾被试进行二分类任务,并将结果变量定义为成瘾和非成瘾两种类型。尽管二分类任务在数据处理中具有简单高效、易于区分的优势,然而其分类结果的精度较低,难以区分不同程度的手机成瘾以及相应的表现。相比之下,采用三分类任务时,将数据分为无成瘾、有成瘾倾向和成瘾三个类别,可以更全面、精细地了解不同被试的成瘾状态,为个体化干预提供更加针对性的方案。通过寻找具有成瘾倾向的被试,有助于预防潜在成瘾风险,并提供相应的干预措施,帮助被试更好地管理智能手机使用行为,进而降低智能手机成瘾的可能性。

综上所述,本文采用随机森林算法,对收集到的大一新生的智能手机得分划分为健康对照组、成瘾倾向组和智能手机成瘾组三类,将八种心理学特征和人口学特征作为特征集,建立三分类模型,分析和确定对智能手机成瘾具有重要影响的心理学和人口学特征,为预防智能手机成瘾提供更加高效和科学的方法。

2. 方法

2.1. 被试

本研究通过线上问卷招募的方式收集到某高校大一新生2530人,排除不认真作答的被试剩余2482人,平均年龄17.94岁,标准差0.657。其中无智能手机成瘾的被试有2053,有智能手机成瘾倾向的被试有366,智能手机成瘾的被试有63人。本研究已经征得被试同意,并对被试的个人资料进行严格保密。

2.2. 测量工具

(1) 大学生智能手机成瘾量表

采用苏双等人(2014)编制的大学生智能手机成瘾量表(Smartphone Addiction Scale for College Students, SAS-C)。该量表共有22个条目,采用Likert 5点计分,从1 (完全不符合)到5 (完全符合)进行评估。包含戒断行为、凸显行为、社交安抚、消极影响、App使用和App更新6个因子。得分低于65的是正常组,处于66~77分是成瘾倾向组,高于77的是智能手机成瘾组。在本研究样本中,量表的Cronbachs’ α为0.918。

(2) 拖延行为问卷

采用Aitken编制的拖延行为问卷(Aitken Procrastination Inventory, API),中文版已经由陈小莉等人(2008)验证。该量表共有19个条目,采用Likert 5点计分。总分越高,拖延行为越严重。在本研究量表的Cronbach’s α系数为0.843。

(3) 大学生学习倦怠量表

采用连榕等人(2005)编制的学习倦怠量表。该量表共20个条目,包括情绪低落、行为不当、成就感低三个维度。采用Likert 5点计分,从1 (完全不符合)到5 (完全符合)进行评估。得分越高表明学习倦怠程度越高,在本研究量表的Cronbach’s α系数为0.884。

(4) 自我控制量表

采用谭树华和郭永玉(2008)编制的自我控制量表,共19个条目,分为冲动控制、健康习惯、抵制诱惑、专注工作四个维度。采用Likert 5点计分,得分越高表明自我控制能力越强。在本研究量表的Cronbach’s α系数为0.817。

(5) 错失焦虑量表

采用李琦等人(2019)编制错失焦虑量表,包括8个项目和2个维度:错过信息的恐惧和错过情境的恐惧。分数越高,表示越害怕错过。项目评分采用Likert 5点计分。在本研究中,量表的Cronbach’s α系数为0.823。

(6) 社交焦虑量表

采用Watson和Friend (1969)编制的社交焦虑量表,经彭纯子等人(2003)验证在中国大学生和高中生中信效度表现良好。量表包含15个问题,采用Likert 5点计分。得分越高越容易出现交往焦虑。本研究中Cronbach’s α系数为0.852。

(7) 领悟社会支持量表

采用Zimet等人(1990)编制的领悟社会支持量表。量表包含12个项目和3个维度:家庭支持、朋友支持和其他人支持。项目采用Likert 7点计分,从1 (完全不同意)到7 (完全同意)。本研究中Cronbach’s α系数为0.944。

(8) 生活满意度量表

采用Diener等人(1985)编制的生活满意度量表,该量表有5个项目,使用Likert 7点评分。本研究中的Cronbach’s α系数为0.880。

(9) 自尊量表

采用Rosenberg (2015)编制的自尊量表。该量表有10个项目,采用Likert 4点计分,共包括自我肯定和自我否定两个维度。本研究中Cronbach’s α系数为0.858。

2.3. 数据处理

(1) 特征筛选:根据前人文献,我们共纳入8个与智能手机成瘾相关的心理学特征。同时我们也考虑到了被试的人口学特征,纳入了性别、生源地、和是否为独生子女3个特征。之后使用SPSS 23.0对不同变量进行组间比较,计数资料采用卡方检验,非正态数据采用Kruskal-Walli方差分析。

(2) 数据归一化处理:为了避免不同变量间数值差异过大导致预测误差,对数据进行归一化处理,即所有数据的均值为0,标准差为1。

(3) 独热编码:one hot编码有利于解决三分类问题(Low et al., 2020),即健康对照组定义为100,成瘾倾向组定义为010,智能手机成瘾组定义为001。

(4) 过采样:健康对照组、成瘾倾向组和智能手机成瘾组之间人数相差过大,预测模型容易出现偏差。因此采用SMOTE进行过采样(Narkbunnum & Wisaeng, 2022),平衡不同组之间的差异。

(5) 数据集划分:将所有数据以7:3的比例划分为训练集和测试集,使用网格搜索法调整参数,并对训练集进行5折交叉验证,提升模型的泛化能力。

(6) 建模分析:采用Python3.9建立随机森林模型,经过参数调整后最优模型的学习器数量设置为500,单个学习器选择的最大特征数目为8,结点最小分裂样本数为80,叶子结点最小样本数为20,最大深度设置为25。

3. 结果

3.1. 大学生智能手机成瘾描述性分析

相关分析结果如图1所示,智能手机成瘾得分与领悟社会支持、生活满意度、自尊呈显著负相关,与其他变量均呈显著正相关,这说明本研究所选择的心理学变量与手机成瘾均有关联,可以进行下一步分析。

Figure 1. Heat map of the correlation between smartphone addiction and each variable

1. 智能手机成瘾与各变量相关性热力图

方差分析结果显示,问卷测得的心理学变量在不同分组之间均有显著差异,见表1

Table 1. Differences in psychological characteristics scores between groups of college students

1. 大学生组间心理学特征得分差异

变量

健康对照组

成瘾倾向组

智能手机成瘾组

统计结果

拖延行为

43.34

51.71

54.13

H = 310.35, p < 0.001

学业倦怠

52.07

60.80

64.46

H = 302.11, p < 0.001

自我控制

63.35

55.78

51.49

H = 324.19, p < 0.001

错失焦虑

17.03

20.25

24.00

H = 165.96, p < 0.001

交往焦虑

42.77

47.88

52.08

F = 71.95, p < 0.001

领悟社会支持

60.45

56.52

55.11

H = 38.70, p < 0.001

生活满意度

21.63

19.60

19.37

H = 39.20, p < 0.001

自尊

28.40

26.01

24.17

F = 56.87, p < 0.001

对被试的人口学信息进行卡方检验后结果如表2所示,性别和是否是独生子女在智能手机成瘾分类中的差异有统计学意义,而生源地是农村还是城市对分类的影响差异不显著,因此在机器学习建模过程中舍去生源地这一预测因素。

Table 2. Distribution of demographic information of college students across different groups

2. 大学生人口学信息在智能手机成瘾各组分布情况

组别

健康对照组

成瘾倾向组

智能手机成瘾组

卡方值

p

性别

1018

153

31

7.55

0.02

1035

213

32

是否独生

552

81

22

6.04

0.05

1501

285

41

生源地

农村

1439

251

43

0.41

0.81

城市

614

115

20

3.2. 机器学习算法预测重要性分析

使用随机森林算法自带的feature importance对预测因素进行排序,所有特征的排序见表3。在随机森林中,得分最高的前五个因素是学业倦怠、错失焦虑、自我控制、拖延行为和社交焦虑。

Table 3. Ranking of predictor variable importance using random forests

3. 随机森林预测因素权重排序

学业倦怠

错失焦虑

自我控制

拖延行为

社交焦虑

自尊

生活满意度

领悟社会支持

性别

独生子女

0.2292

0.2273

0.2155

0.2105

0.1305

0.1086

0.0967

0.0717

0.0613

0.0167

3.3. 随机森林算法模型预测效果

采用网格搜索法获得最佳参数,并在测试集上评估模型。结果如表4所示,随机森林算法的各项评价指标均高于80%。同时为了更清楚地看出不同模型在不同组上分类的准确性,采用绘制ROC曲线的方式进行对比评价,见图2。结果发现,健康对照组和智能手机成瘾组的AUC值均超过0.9。

Table 4. Effectiveness of random forest in predicting smartphone addiction among first-year college students

4. 随机森林算法预测大一新生手机成瘾分类的效果

精准值/%

召回率/%

F1/%

AUC/%

86.45

82.47

86.09

93.15

Figure 2. ROC curves for random forests under different categories

2. 不同类别下随机森林的ROC曲线

4. 讨论

4.1. 预测智能手机成瘾的重要特征

本研究通过特征重要性排序筛选出了5个高风险因素,对智能手机成瘾具有重要的影响作用。在所筛选的因素中,学业倦怠被发现是影响智能手机成瘾最为重要的因素,这一点支持网络使用的补偿理论,即在消极的生活下,个体利用互联网来缓解负面情绪,补偿在现实生活中遇到的问题(高文斌,陈祉妍,2006)。错失焦虑在重要性排序中排名第二,Elhai等人(2020)使用机器学习中的回归算法对问题性手机使用进行建模,探索影响问题性手机使用的重要影响因素,结果与本研究一致。而在另一项结构方程的研究中,作者使用错失焦虑和反刍作为问题性社交网站使用的预测因素,同样也发现错失焦虑是其中最为稳健的预测因素(Dempsey et al., 2019)。自我控制在随机森林中排第三,说明是预测智能手机成瘾的关键因素,这一观点在前人的研究中同样得到证明(Khang et al., 2013)。与此同时,我们发现拖延行为是预测智能手机成瘾的重要影响因子。然而大部分研究集中于手机成瘾如何导致拖延行为,这可能说明拖延行为与智能手机成瘾二者间存在相互强化的作用(连帅磊等,2018吴洁,2020Przepiorka et al., 2021)。我们曾试图删除社交焦虑后重新进行分类,结果发现各算法的AUC值均有明显降低的趋势,然而,当在分析中保留社交焦虑因素时,AUC值并未有显著降低,这表明社交焦虑同样是智能手机成瘾预测中的重要影响因素。使用手机社交可以帮助一些社交焦虑个体减轻被评价的恐惧,这使得他们更倾向于使用手机等网络工具弥补线下人际交往的缺失。虽然这种行为为社交焦虑个体提供了一种社交交往的途径,但是过度依赖手机也会导致更高的手机成瘾风险(Enez Darcin et al., 2016; You et al., 2019)。

4.2. 智能手机成瘾的分类模型

目前机器学习多分类的研究主要应用于人格测量和情绪识别(盛丹怡等,2022张磊等,2014赵宏等,2019),而本研究则针对智能手机成瘾的识别问题进行了创新性的探索,成功地将随机森林的三分类算法应用于该领域,实现了对成瘾倾向组的有效识别。这不仅为智能手机成瘾问题的解决提供了新思路,也为机器学习算法在三分类问题上的应用拓展了新的研究方向。此外,我们还对不同组的分类准确性进行分析,结果发现健康对照组和智能手机成瘾组的分类效果在各个算法上表现都很好,但是成瘾倾向组的分类效果存在一定的差距。这可能是由于成瘾倾向是一个渐进式的过程(Brand et al., 2019; Neverkovich et al., 2018),而分类器通常更适合识别明确的分类。即使一个人的成瘾倾向比另一个人高出很多,但是他们之间可能仍然存在很大的重叠,这可能会导致成瘾倾向组的分类效果下降。

4.3. 研究不足

本研究也存在以下缺点。首先,机器学习算法在分析大数据集时往往表现得更好,而本研究中的受试者数量可能有点不足。其次,本研究主要基于自我报告,而当前的智能手机设备已经提供了完备的行为记录功能,后续研究可以采用客观行为指标和主观心理指标相结合的方式,以提高模型的可推广性和准确性。此外,本研究仅针对大一新生进行探究,对于不同年龄段和人群的适用性尚未得到充分考察,未来的研究应拓宽被试年龄范围以获得更全面的结论。

参考文献

[1] 陈小莉, 戴晓阳, 董琴(2008). Aitken拖延问卷在大学生中的应用研究. 中国临床心理学杂志, (1), 22-23+76.
[2] 董健宇, 韦文棋(2020). 机器学习在抑郁症领域的应用. 心理科学进展, 28(2), 266.
[3] 高文斌, 陈祉妍(2006). 网络成瘾病理心理机制及综合心理干预研究. 心理科学进展, (4), 596-603.
[4] 居豪, 吕军城(2022). 大学生焦虑与手机成瘾现状及影响因素研究. 中国卫生统计, 39(4), 550-552+557.
[5] 李琦, 王佳宁, 赵思琦, 贾彦茹(2019). 错失焦虑量表测评大学生的效度和信度. 中国心理卫生杂志, 33(4), 312-317.
[6] 连榕, 杨丽娴, 吴兰花(2005). 大学生的专业承诺、学习倦怠的关系与量表编制. 心理学报, 37(5), 632-636.
[7] 连帅磊, 刘庆奇, 孙晓军, 周宗奎(2018). 手机成瘾与大学生拖延行为的关系: 有调节的中介效应分析. 心理发展与教育, 34(5), 595-604.
[8] 彭纯子, 范晓玲, 李罗初(2003). 社交回避与苦恼量表在学生群体中的信效度研究. 中国临床心理学杂志, 11(4), 279-281.
[9] 盛丹怡, 卢奇, 程时伟(2022). 基于眼动跟踪的情绪识别方法研究. 人类工效学, 28(6), 57-62.
[10] 苏双, 潘婷婷, 刘勤学, 陈潇雯, 王宇静, 李明月(2014). 大学生智能手机成瘾量表的初步编制. 中国心理卫生杂志, 28(5), 392-397.
[11] 谭树华, 郭永玉(2008). 大学生自我控制量表的修订. 中国临床心理学杂志, 16(5), 468-470.
[12] 吴洁(2020). 大学生学业拖延与网络依赖关系的调查分析. 国际公关, (7), 20-21.
[13] 张磊, 陈贞翔, 杨波(2014). 社交网络用户的人格分析与预测. 计算机学报, 37(8), 1877-1894.
[14] 赵宏, 刘颖, 李爽, 徐鹏飞, 郑勤华(2019). 基于在线学习行为数据的人格特质识别研究. 开放教育研究, 25(5), 110-120.
[15] Aboujaoude, E., Vera Cruz, G., Rochat, L., Courtois, R., Ben Brahim, F., Khan, R. et al. (2022). Assessment of the Popularity and Perceived Effectiveness of Smartphone Tools That Track and Limit Smartphone Use: Survey Study and Machine Learning Analysis. Journal of Medical Internet Research, 24, e38963.
https://doi.org/10.2196/38963
[16] Brand, M., Wegmann, E., Stark, R., Müller, A., Wölfling, K., Robbins, T. W. et al. (2019). The Interaction of Person-Affect-Cognition-Execution (I-PACE) Model for Addictive Behaviors: Update, Generalization to Addictive Behaviors beyond Internet-Use Disorders, and Specification of the Process Character of Addictive Behaviors. Neuroscience & Biobehavioral Reviews, 104, 1-10.
https://doi.org/10.1016/j.neubiorev.2019.06.032
[17] Dempsey, A. E., O’Brien, K. D., Tiamiyu, M. F., & Elhai, J. D. (2019). Fear of Missing out (FoMO) and Rumination Mediate Relations between Social Anxiety and Problematic Facebook Use. Addictive Behaviors Reports, 9, Article ID: 100150.
https://doi.org/10.1016/j.abrep.2018.100150
[18] Diener, E., Emmons, R. A., Larsen, R. J., & Griffin, S. (1985). The Satisfaction with Life Scale. Journal of Personality Assessment, 49, 71-75.
https://doi.org/10.1207/s15327752jpa4901_13
[19] Elhai, J. D., Yang, H., Rozgonjuk, D., & Montag, C. (2020). Using Machine Learning to Model Problematic Smartphone Use Severity: The Significant Role of Fear of Missing Out. Addictive Behaviors, 103, Article ID: 106261.
https://doi.org/10.1016/j.addbeh.2019.106261
[20] Enez Darcin, A., Kose, S., Noyan, C. O., Nurmedov, S., Yılmaz, O., & Dilbaz, N. (2016). Smartphone Addiction and Its Relationship with Social Anxiety and Loneliness. Behaviour & Information Technology, 35, 520-525.
https://doi.org/10.1080/0144929x.2016.1158319
[21] Giraldo-Jiménez, C. F., Gaviria-Chavarro, J., Sarria-Paja, M., Bermeo Varón, L. A., Villarejo-Mayor, J. J., & Rodacki, A. L. F. (2022). Smartphones Dependency Risk Analysis Using Machine-Learning Predictive Models. Scientific Reports, 12, Article No. 22649.
https://doi.org/10.1038/s41598-022-26336-2
[22] Gross, J., Baumgartl, H., & Buettner, R. (2020). A Novel Machine Learning Approach for High-Performance Diagnosis of Premature Internet Addiction Using the Unfolded EEG Spectra. In AMCIS 2020 Proceedings (p. 26). Association for Information Systems.
[23] Hsieh, W., Shih, D., Shih, P., & Lin, S. (2019). An Ensemble Classifier with Case-Based Reasoning System for Identifying Internet Addiction. International Journal of Environmental Research and Public Health, 16, Article No. 1233.
https://doi.org/10.3390/ijerph16071233
[24] Kamaruddin, N., Wahab, A., & Rozaidi, Y. (2019). Neuro-Physiological Porn Addiction Detection Using Machine Learning Approach. Indonesian Journal of Electrical Engineering and Computer Science, 16, 964-971.
https://doi.org/10.11591/ijeecs.v16.i2.pp964-971
[25] Khang, H., Kim, J. K., & Kim, Y. (2013). Self-Traits and Motivations as Antecedents of Digital Media Flow and Addiction: The Internet, Mobile Phones, and Video Games. Computers in Human Behavior, 29, 2416-2424.
https://doi.org/10.1016/j.chb.2013.05.027
[26] Lee, J., & Kim, W. (2021). Prediction of Problematic Smartphone Use: A Machine Learning Approach. International Journal of Environmental Research and Public Health, 18, Article No. 6458.
https://doi.org/10.3390/ijerph18126458
[27] Low, D. M., Rumker, L., Talkar, T., Torous, J., Cecchi, G., & Ghosh, S. S. (2020). Natural Language Processing Reveals Vulnerable Mental Health Support Groups and Heightened Health Anxiety on Reddit During COVID-19: Observational Study. Journal of Medical Internet Research, 22, e22635.
https://doi.org/10.2196/22635
[28] Narkbunnum, W., & Wisaeng, K. (2022). Prediction of Depression for Undergraduate Students Based on Imbalanced Data by Using Data Mining Techniques. Applied System Innovation, 5, Article No. 120.
https://doi.org/10.3390/asi5060120
[29] Neverkovich, S. D., Bubnova, I. S., Kosarenko, N. N., Sakhieva, R. G., Sizova, Z. M., Zakharova, V. L. et al. (2018). Students’ Internet Addiction: Study and Prevention. EURASIA Journal of Mathematics, Science and Technology Education, 14, 1483-1495.
https://doi.org/10.29333/ejmste/83723
[30] Przepiorka, A., Blachnio, A., & Cudo, A. (2021). Procrastination and Problematic New Media Use: The Mediating Role of Future Anxiety. Current Psychology, 42, 5169-5177.
https://doi.org/10.1007/s12144-021-01773-w
[31] Rosenberg, M. (2015). The Measurement of Self-Esteem, Society, and the Adolescent Self-Image. In Society and the Adolescent Self-Image Princeton (pp. 16-36). Princeton University Press.
[32] Salehan, M., & Negahban, A. (2013). Social Networking on Smartphones: When Mobile Phones Become Addictive. Computers in Human Behavior, 29, 2632-2639.
https://doi.org/10.1016/j.chb.2013.07.003
[33] Smetaniuk, P. (2014). A Preliminary Investigation into the Prevalence and Prediction of Problematic Cell Phone Use. Journal of Behavioral Addictions, 3, 41-53.
https://doi.org/10.1556/jba.3.2014.004
[34] Watson, D., & Friend, R. (1969). Measurement of Social-Evaluative Anxiety. Journal of Consulting and Clinical Psychology, 33, 448-457.
https://doi.org/10.1037/h0027806
[35] You, Z., Zhang, Y., Zhang, L., Xu, Y., & Chen, X. (2019). How Does Self-Esteem Affect Mobile Phone Addiction? The Mediating Role of Social Anxiety and Interpersonal Sensitivity. Psychiatry Research, 271, 526-531.
https://doi.org/10.1016/j.psychres.2018.12.040
[36] Zimet, G., Powell, S., Farley, G., Werkman, S., & Berkoff, K. (1990). Psychometric Characteristics of the Multidimensional Scale of Perceived Social Support. Journal of Personality Assessment, 55, 610-617.
https://doi.org/10.1207/s15327752jpa5503&4_17