1. 引言
随着时代和社会的不断发展,人类的平均寿命得到普遍延长,人口老龄化己成为必然趋势。与此同时,层出不穷的诈骗方式对公共财产、人民财产造成了严重的损害,而其中,因为老年人群体的种种因素,针对老年人的诈骗尤为严重。
通过查阅国家统计局发布的中国统计年鉴,我们可以得到近几年的中国平均寿命:2010年男性预期寿命为72.38岁,女性预期寿命为77.37岁;2015年男性预期寿命为73.64岁,女性预期寿命为79.43岁;2020年男性预期寿命为75.37岁,女性预期寿命为80.88岁。由此可见,我国老年人的平均寿命逐年递增,与1981年的数据对比更是大幅增长。不仅如此,2010~2019年我国65周岁以上人口也呈现逐年递增的趋势,比例从2010年的8.47%上涨至2019年的12.60%。因此,我国的人口老龄化增长速度非常快。
老年人群体随着年龄的增长,倾向于相信他人,容易成为诈骗者的目标。识别能力下降、缺乏社会支持和科学文化知识也是他们易被利用的特征。同时,老年人可能因为对健康、医疗、保障、情感依赖等心理需求被诈骗者利用。随着时代发展和信息爆炸,部分老年人对电子设备的操作和使用并不熟悉,往往难以分辨互联网上的信息是真是假,很难发现一些看似权威的新闻报道之中的漏洞和问题,这也自然而然地为诈骗者提供了可乘之机。
本研究选用CHARLS官网的数据,进行预处理以及过采用算法,选用XGBoost、GBDT、随机森林总计三种模型,对老年人被诈骗的数据进行建模研究,并进行比较,选出最优模型,进一步进行特征重要性分析,提出相关对策和建议。
周荣喜[1]利用随机森林算法抽取债券违约的重要特征,基于XGBoost算法建立了预测模型,利用主成分分析法,结合经济逻辑分析,提取违约风险因子,阐述作用机制。陆万万[2]采用随机森林模型算法对高维稀疏样本特征进行重要性排序,筛选得到最优特征子集,利用过采样算法平衡正负样本集;王小曼[3]等人进行单因素和多因素分析,使用XGBoost算法对复发预测模型进行构建;Wei S [4]等人都基于XGBoost算法对模型进行构建和预测,该知识追踪模型节省了更多的训练时间,并加入问题和知识技能的特征,有效地处理了知识追踪模型中地多技能问题;
高馨宇[5]运用环境犯罪学理论、个人被害因素理论等犯罪学理论,就城乡差距对老年人被诈骗的影响进行理论剖析和实证分析;崔美倩[6]等人以老年人为主体,分析电信网络诈骗的特征以及面临的问题和困境,提出相关对策建议,从而提升电信诈骗的预防和治理效果。Liu F [7]结合随机森林算法和现代金融理论,构建基于网络借款人社交网络数据和消费信息准确预测其欺诈行为的风险控制模型。
2. 数据介绍及预处理
2.1. 数据来源和介绍
本研究所使用的数据源自一项名为“中国健康与养老追踪调查”(China Health and Retirement Longitudinal Survey, CHARLS)的大规模跨学科研究项目。CHARLS的主要目标是收集并整理中国45岁及以上老年人的高质量微观调查数据,以深入探讨中国社会经济发展状况,为国家养老保险制度的制定与改进提供更为科学的依据。
CHARLS问卷的设计涵盖了多个关键领域,以全面捕捉受访者的生活状况和社会经济背景。问卷内容详尽地询问了个人基本信息,包括年龄、性别、教育程度等,以了解受访者的基本特征。此外,问卷还深入探讨了家庭结构和经济支持情况。在健康方面,CHARLS问卷详细询问了受访者的健康状况,包括慢性疾病、心理健康和生活自理能力等。此外,问卷还关注了医疗服务利用和医疗保险情况。问卷还涵盖了工作、退休和养老金方面的信息。
CHARLS全国基线调查始于2011年,其覆盖范围广泛,涉及150个县级单位和450个村级单位,共约1万户家庭中的1.7万人。这一庞大的样本规模使得CHARLS能够提供具有代表性和可靠性的数据,为学术研究和政策制定提供有力支持。
这些样本数据每两到三年追踪一次,以确保数据的时效性和连续性,调查结束一年后,数据将向学术界公开。本研究所选取的数据来源于CHARLS在2023年11月16日公布的第五期(2020)全国追访数据。根据相关文献内容,以及现实情况因素影响,本研究共选择并整合了12个变量(是否被诈骗过、性别、学历、年龄、个人经济情况、满意度、健康状况、认知能力、抑郁程度、记忆能力、孤独感、保险保障)。
2.2. 数据预处理
本研究采用EXCEL进行数据预处理,选取个人基本信息、是否被诈骗、性别、学历、年龄、个人经济情况、满意度、健康状况、健康自评、认知能力、抑郁程度、记忆能力、孤独感、保险保障作为研究数据。在数据处理过程中,本文采用VLOOKUP函数,将分散在多个问卷数据表中的信息根据ID进行了精确匹配和合并,从而构建完整的数据集。其次,筛选出年龄在55岁及以上的老年人作为样本数据,即1969年之前(含1969年)出生的样本。因为样本量非常大,有部分缺失的数据直接删除,包括填写“不知道”或明显出错和空白样本,最终得到总计15694个样本。
2.3. 变量解释
本研究共筛选12个变量作为研究变量,下面对研究变量的处理进行详细说明。
2.3.1. 是否被诈骗过
本研究合并调查问卷结果中的“一年内是否被诈骗过”和“不包括去年一年,是否被诈骗过”两个结果,两个结果均代表“是否被诈骗”,将样本分别记为0和1,0代表未被诈骗过,1代表被诈骗过。
2.3.2. 性别、学历、出生年份
问卷结果中包含性别,文本将性别分别记为1和2,1代表男性,2代表女性。
问卷结果中包含学历,1代表No Formal Education (llliterate),2代表Did not finish Primary School,3代表Sishu/Home School,4代表Elementary School,5代表Middle School,6代表High School,7代表Vocational School,8代表Two-/Three-Year College/Associate Degree,9代表Four-Year College/Bachelor’s Degree,10代表Master’s Degree。
问卷结果中包含受访者的出生年月,本研究将其统一为出生年份。
2.3.3. 个人经济情况、幸福度or满意度
问卷结果中包含受访者的“不包括退休工资的收入”、“退休金or养老金”、“失业补助”、“养老卡”、“高龄老人养老补助”、“工伤保险金”、“独生子女老年补贴”、“医疗救助”、“政府补贴”、“社会捐助”、“现金”、“电子货币”、“存款”、“债券价值”、“股票价值”、“基金价值”、“理财产品价值”。通过函数计算,将上述所有项叠加得到个人经济情况,但样本量相当大,因此将个人经济情况分区间分类,0~5000记为1、5000~10000记为2、10000~25000记为3、25000~30000记为4。
问卷结果中包含受访者的生活满意度、健康满意度、婚姻满意度、子女满意度。本文将调查结果赋值处理,1代表Completely Satisfied,2代表Very Satisfied,3代表Somewhat Satisfied,4代表Not Very Satisfied,5代表Not at All Satisfied,无配偶、子女记为0。满意度为生活满意度、健康满意度、婚姻满意度、子女满意度得分之和,得分越小,满意度越高。
2.3.4. 健康状况、认知能力
问卷结果中包含受访者“被诊断为中风”、“被诊断为帕金森”、“被诊断为阿尔兹海默症”、“被诊断为有记忆问题”。本文将调查结果赋值处理,没有确诊或不清楚记为0,确诊记为1,得分越低,健康状况越好。
问卷结果中显示受访者的认知能力调查结果,问题为受访者针对11个问题的答案。回答正确记为1,回答错误记为0,满分为11分,得分越高,认知能力越强。
2.3.5. 抑郁程度、记忆能力
问卷结果包含受访者对“被事物所束缚”、“记忆力有问题”、“感觉抑郁”、“感觉恐惧”、“失眠”、“我没办法起床”的答案。其中,答案“Don’t know”和“Refused”记为0,“Rarely or None”记为1,“Some or A Little (1~2 Days)”记为2,“Occasionally or Moderate Amount of Time (3~4 Days)”记为3,“Most of the Time”记为4。抑郁程度得分即为上述六项的总和,得分越高,抑郁程度越高。
问卷结果包含受访者对“认出家人和朋友的脸”、“记得家人和朋友的名字”、“记住职业”、“记得近期发生的事”、“记得地址和号码”、“记得月份和日期”、“记得东西放在哪里”、“可以接受生活中的变化”、“能够用常规电器”、“记得年轻时候的事情”、“能写信”、“记得历史重大事件”。“Much Better”记为1,“Improved A Little”记为2,“Not Much Changed”记为3,“A Little Worse”记为4,“Much Worse”记为5,“Not Applicable”记为6,“Don’t Know”记为8。记忆能力得分为上述各项得分的总和,得分越高,记忆力越差。
2.3.6. 孤独感、保险保障
问卷结果显示受访者对“你是否经常感到孤独”的回答,答案“Rarely or None (<1 Day)”记为0,“Some or A Little (1~2 Days)”记为1,“Occasionally of Moderate Amount of Time (3~4 Days)”记为2,“Most of the Time”记为3,“Don’t Know”和“Refused”记为4。得分越高,孤独感越强。
问卷结果包含受访者是否拥有“城镇职工医疗保险”、“城乡居民医疗保险”、“城市居民医疗保险”、“新型农村合作医疗保险”、“政府医疗保险”、“医疗补助”、“私人保险”、“城市非就业医疗保险”、“长期护理保险”、“其他医疗保险”、“补充保险”。本文进行赋值处理,“No”记为0,“Yes”记为1,保险保障得分为上述所有保险总得分,得分越高,保险越齐全。
3. 数据可视化(只考虑“有被诈骗过”的样本)
3.1. 性别、出生年份
被诈骗过的样本中男性占比51.1%,女性占比48.9%。
被诈骗过的样本中,超过100的出生年份如下:出生年份为1963的有149个,为1955的有117个,为1962的有115个,为1952的有115个,为1968的有113个,为1966的有111个,为1956的有110个,为1950的有104个,为1949的有103个,为1954的有101个,为1958的有101个。被诈骗过的样本出生年份集中在1949~1968年,对应的年龄是56~75岁。
3.2. 健康状况、认知能力、抑郁程度
由被诈骗过的样本中,健康状况基本都为0,健康状况较好。
由图1可知,被诈骗过的样本中,认知能力集中在10,认知能力较强。
Figure 1. Schematic diagram of cognitive ability in fraud cases
图1. 被诈骗样本中认知能力示意图
由图2可知,被诈骗过的样本中,抑郁程度集中在8,抑郁程度较高。
Figure 2. Schematic diagram of depression levels in fraud samples
图2. 被诈骗样本中抑郁程度示意图
4. 模型介绍
4.1. GBDT模型
GBDT模型可以处理分类和回归问题,并且能够处理多种类型的数据特征,包括连续特征和离散特征。GBDT模型主要由两部分组成:训练阶段和预测阶段。
在训练阶段,GBDT通过梯度提升算法构建一个复杂的模型,并在每一轮迭代中,利用残差(预测值与真实值之间的差异)来训练下一棵决策树。这样,随着更多树的加入,模型的预测能力会不断提高。
在预测阶段,GBDT会将所有决策树的预测结果结合起来,形成最终的预测结果。通过这种方式,GBDT可以在不牺牲准确性的前提下,调整模型的复杂度,以达到更好的预测效果。此外,GBDT还能自动处理缺失值和非线性关系,以及在高维空间中找到重要的特征。
回归任务下,GBDT在每一轮的迭代时对每个样本都会有一个预测值,此时的损失函数为均方差损失函数:
(1)
损失函数的负梯度计算如下:
(2)
实际问题最优,等价于损失函数最小,在后续需要关注的也就是梯度的改变,也就是残差的改变。因此,残差逐渐变为整体的差距,也就是损失函数的差距。当损失函数选用均方误差损失时,每一次拟合的值就是(真实值–预测值),即残差。
4.2. XGBoost模型
XGBoost是一种基于boosting增强策略的加法模型,是由基函数与权重进行组合形成对数据拟合效果更佳的合成算法。XGBoost基于梯度提升树的算法,其原理是通过逐步迭代地训练一系列弱学习器,每一次迭代都尝试纠正前一次迭代的误差,最终将这些弱学习器组合成一个强学习器。
对于包含n条m维的数据集,XGBoost模型可以表示为:
(3)
其中,
(4)
是CART决策树结构集合,q为样本映射到叶子节点的树结构,T为叶子节点数,w为叶节点的实数分数。构建模型时,需要根据目标函数最小化的原则寻找最优参数。
此时的目标函数可以写为:
(5)
(6)
(7)
在使用训练数据对模型进行优化训练时,需要保留原有模型不变,加入一个新的函数f到模型中,使得目标函数尽可能大的减少:
(8)
此时目标函数表示为:
(9)
为快速找到使目标函数最小化的参数,对目标函数进行了二阶泰勒展开,得到近似目标函数:
(10)
Obj可作为模型评价的打分函数,Obj值越小则模型效果越好。通过递归调用上述树的建立方法,可以得到大量回归树结构,并使用Obj搜索最优结构,从而建立最优的XGBoost模型。
4.3. 随机森林模型
随机森林(random forest)是一种经典的bagging模型,其弱学习器为决策树模型。决策树模型只构建一棵分类树,但是随机森林模型构建了非常多棵决策树,相当于在重复决策树模型。随机森林模型基于Bootstrap取样法从训练样本中随机选取子集进行训练,在每个树节点考虑到分裂随机特征性,从而构建多个独立的决策树。这些决策树各自独立地对输入的数据进行分类或回归预测,最终通过整合这些决策树的预测结果来得到。
随机森林模型会在原始数据集中随机抽样,构成n个不同的样本数据集,构建不同的决策树模型,最后根据这些模型的平均值(针对回归模型)或者投票(针对分类模型)来获取最终结果。因此,在建立每棵树时,遵循“数据随机”和“特征随机”两个基本原则。
5. 模型建立与结果分析
5.1. 多角度对模型分类效果进行对比
首先,从sklearn库中导入所需函数,用以拆分训练集和测试集、重新采样数据集、将分类特征转化为一种格式、并行地执行转换操作。
对数据进行分离特征和目标变量后,拆分训练集和测试集,测试集包含总数据集的30%,训练集为剩下的70%,每次运行代码都得到相同的训练集和测试集划分,以确保实验的可重复性。
为了解决数据集中类别不平衡的问题,被诈骗的样本(正例)数量远远少于未被诈骗的样本(负例),因此通过使用过采样技术来增加正例的数量,从而使正负例达到平衡。在对特征和标签处理后,使用resample方法对被诈骗过的样本进行处理,采样时可以重复抽取样本,过采样后的样本数量与未被诈骗的样本数量相同,设置随机数生成器种子,以确保每次运行代码都可以得到相同的过采样结果。然后,将未被诈骗的样本和过采样后的被诈骗样本拼接起来,形成一个新的、类别平衡的训练数据集。
预处理过程中,对于数值型列,使用该列的均值来填充缺失值。对于分类数据,使用最常见的值填充缺失值。三种模型的随机数生成器种子均设置为42,以确保结果的可重复性。
为三种不同的模型创建包含预处理和模型的管道,调用时首先应用预处理步骤,然后将处理过的数据传递给模型进行训练。简化模型训练和预测的过程,同时也确保预处理步骤的一致性和正确性。
完成预处理过程后,对模型进行训练以及评估,得到分类报告。
Table 1. Operational results of the comparison among three models
表1. 三种模型对比的运行结果
模型 |
Accuracy |
Precision |
F-score |
GBDT |
0.93 |
0.94 |
0.93 |
随机森林 |
0.83 |
0.82 |
0.84 |
XGBoost |
0.87 |
0.86 |
0.89 |
由表1可得:从F1结果来看,三个模型的F1值都超过0.80,GBDT的F1高达0.93,可以认为这三个模型均达到比较好的预测结果。GBDT的准确度、精确度均位列第一,所以GBDT的预测效果最好。
5.2. 数据特征重要性分析
通过已建立的模型,分别对数据进行特征重要性分析,绘制柱状图如下。
5.2.1. XGBoost模型
Figure 3. Run result chart of feature importance analysis for XGBoost model
图3. XGBoost模型特征重要性分析运行结果图
如图3所示,结合代码运行结果可知:在XGBoost模型数据特征重要性分析中,个人经济情况(分区间)为42.42%,性别为14.04%,学历为7.66%,认知能力为6.41%,抑郁程度为5.54%。这表明,是否被诈骗与个人经济情况、性别、学历、认知能力、抑郁程度的相关程度较大,对XGBoost模型结果有较大的影响。
5.2.2. GBDT模型
Figure 4. Run result chart of feature importance analysis for GBDT model
图4. GBDT模型特征重要性分析运行结果图
如图4所示,结合代码运行结果可知:在GBDT模型数据特征重要性分析中,个人经济情况(分区间)为10.17%,出生年份为5.21%,学历为2.34%,性别为1.18%,认知能力为1.06%。这表明,是否被诈骗与个人经济情况、出生年份、学历、性别、认知能力的相关程度较大,对GBDT模型结果有较大的影响。
5.2.3. 随机森林模型
Figure 5. Random forest model feature importance analysis running result chart
图5. 随机森林模型特征重要性分析运行结果图
如图5所示,结合代码运行结果可知:在随机森林模型数据特征重要性分析中,出生年份为31.82%,学历为5.31%,记忆能力为3.61%,个人经济情况(分区间)为2.72%,性别为1.92%。这表明,是否被诈骗与出生年份即年龄、学历、记忆能力、个人经济情况、性别的相关程度较大,对随机森林模型结果有较大的影响。
6. 结论
本文利用CHARLS调查中2020年的截面调查数据,首先,对选取的数据通过EXCEL进行预处理,其次使用Python对数据展开进一步分析,通过变量分析和描述性统计分析展示变量之间的关系与影响程度。进而,通过GBDT模型、XGBoost模型和随机森林模型分别对数据展开分类探索研究,对三种模型的分类结果进行对比和讨论,发现GBDT模型效果更好。综合分析得到以下几点结论:
个人经济情况、性别、学历、认知能力、抑郁程度相对来说是影响老年人是否被诈骗的显著影响因素。保险保障对老年人是否被诈骗的影响程度并不高。记忆能力越差、个人经济情况越好、孤独感越高、学历越低、抑郁程度越高、幸福感越低老年人更容易被诈骗。
近些年来,老龄化问题在我国逐渐加剧,而老年人是诈骗分子的重点目标,因此,我们需要提升对老年人群体的各方面关注。
针对老年人的心理问题,社会应该更加关注老年人的健康、医疗、保障、情感依赖等心理需求,降低老年人对虚假信息的相信程度。
部分老年人对电子设备的操作和使用并不熟悉,我们理应帮助老年人学习电子设备的基本操作,同时提升老年人与社会的接轨程度。
老年人识别能力下降,很容易轻信虚假信息、虚假广告,我们应当从根本遏制虚假信息的传播,降低其不良影响,从根源铲除恶果。