1. 引言
电子邮件分类技术在当今的电子邮件广泛应用中具有重要的理论意义和研究价值。因电子邮件具有高效性和低成本的优势,在信息技术领域受到广泛欢迎,在信息时代一直是人们进行通信和交流的重要手段,包括在个人社交、企业营销、客户服务等领域都有广泛的应用[1],据统计,98.0%的工作任务需要电子邮件完成[2],然而,随着电子邮件数量的急剧增加以及电子邮件服务的滥用,用户可能要处理大量的电子邮件,亟需通过电子邮件分类技术来辅助邮件管理,以提高电子邮件的处理效率。
电子邮件作为分类问题的重要研究对象,一直备受关注。Ageng等人[3]提出了一种基于随机森林分类算法的垃圾邮件分类方法,通过Randomized Search CV优化参数,显著提高了分类性能。Zavrak等人[4]提出了一种结合卷积神经网络(CNN)、门控循环单元(GRU)和注意力机制的层次化深度学习方法,通过CNN提取抽象特征,并利用注意力机制聚焦关键信息,提升了分类效果。Roumeliotis等人[5]提出了一种基于精细调优的大语言模型(如GPT-4)和自然语言处理模型(如BERT和RoBERTa)的新方法,显著提升了垃圾邮件和网络钓鱼攻击的检测精度,并有效降低了误报率。
由于电子邮件大多以文本形式呈现,文本分类技术常被应用于电子邮件处理。Daud等人[6]提出了一种通过超参数优化提升支持向量机(SVM)模型性能的方案,实验表明,优化后的SVM模型在分类准确率上超越了其他机器学习分类器,提升了20.81%。Hasib等人[7]提出了结合卷积神经网络(CNN)和长短期记忆网络(LSTM)的多类文本分类模型(MCNN-LSTM),通过平衡数据集不平衡性,显著提升了处理不平cc衡数据集的性能。Jianan等人[8]提出了一种结合预训练语言模型(如RoBERTa、BERT)和多标签分类的文本知识分类方法,特别在长文本分类任务中表现突出,提升了文本处理效率。Shi等人[9]提出了基于ChatGPT提取知识图谱并转化为图结构的ChatGraph方法,显著提升了文本分类性能,并增强了模型决策的可解释性。
从研究趋势上看,无论是电子邮件分类算法,还是文本分类算法,都经历了从机器学习到深度学习,再到大语言模型的变迁。机器学习算法[10]与以往基于规则的方法相比,该方法在精度和稳定性方面具有明显的优势,深度学习算法解决了复杂特征工程自动提取的难题,并提高了分类准确率[11],大语言模型可以更有效地学习全局语义表示,并显著提升文本分类等NLP任务的性能[12]。
尽管现有的模型算法表现已经非常出色,但在分类任务中,仍然面临一些挑战:
1) 基于传统机器学习的分类算法在语义理解上存在局限性,难以准确捕捉词汇间的深层语义关系及关键的上下文信息,尤其是在面对复杂的自然语言处理任务时表现出明显的不足[10];
2) 基于深度学习的分类算法虽然能够更好地捕捉上下文语义特征,提升对文本的理解能力,但由于模型的高度复杂性和计算资源消耗大,常常导致训练成本高昂且训练效率低下。此外,由于这类模型通常无法进行增量学习,每次数据更新时,模型都需要重新训练和优化,从而进一步增加计算开销[11];
3) 基于大语言模型的算法虽然具备强大的文本生成和语义理解能力,但依赖通用语料库训练,难以针对特定任务提供精准知识。尽管加入外部知识可提升性能[13],但仍面临任务适应性、计算复杂性等挑战,且改进通常伴随高昂成本和较慢训练速度[12]。
因此,针对算法在电子邮件网络特征知识的不足,以及相关模型训练效率上的欠缺,本文研究了一种基于共现网络特征与知识增强语义的梯度提升电子邮件分类算法,做出了如下贡献:
1) 设计了一种基于共现度计算的电子邮件知识复杂网络构建算法,表征了电子邮件内容的知识网络关系和特征。
2) 基于构建的电子邮件知识复杂网络结构,设计方法提取电子邮件关键信息。
3) 融合ERNIE预训练模型,将电子邮件知识网络的关键信息和ERNIE表征的文本特征结合并设计模型进一步对文本分类任务学习和训练,并设计了对应的电子邮件分类方法。
2. 相关工作
Jiashuo等人[13]提出了一种将大语言模型与知识图谱相结合的方法,显著增强了模型在深度语义理解和外部知识整合方面的推理能力。由于现有模型缺乏知识库的网络结构化知识,受该研究启发,本文通过Vivaldi算法提取的电子邮件知识网络结构特征,融合ERNIE预训练模型生成的文本特征,之后利用梯度提升模型XGBoost研究如何提升电子邮件分类任务的性能。
ERNIE [14] (Enhanced Representation through Knowledge Integration)是Yu Sun等人提出的知识增强型预训练语言模型,通过整合外部知识,提升了模型在复杂语义任务中的理解能力。基于BERT架构,ERNIE引入外部知识和多任务学习,进一步增强了语义表示能力。ERNIE2.0 [15]通过多样化任务和数据的整合,显著提升了模型的语义理解与表示能力。因此,本文准备使用ERNIE模型生成基于电子邮件知识的文本语义特征,从而提高电子邮件分类的性能。
复杂网络中心性概念由Linton C. Freeman [16]提出,用于衡量网络中节点的重要性。Hong等人[17]提出了基于PageRank的关键节点识别方法,通过融合局部特征和节点影响力,优化了PageRank算法,提升了社交网络中关键节点的识别效果。Yang等人[18]提出了个性化PageRank (PPR)算法,精细化了节点排序,增强了算法灵活性和准确性,特别适用于大规模网络。因此,本文准备采用复杂网络中心性算法,从而准确识别电子邮件知识共现网络中的关键节点。
Vivaldi算法由Frank等人[19]提出,用于网络延迟估算,能够捕捉节点间的相对距离和网络结构信息。Harris等人[20]基于Vivaldi提出了推荐系统SCoR,提升了推荐性能和稳定性,尤其在冷启动问题上表现优异。Costas等人[21]提出的DTEC方法进一步提升了推荐系统的准确性。因此,本文准备采用Vivaldi算法,以捕捉电子邮件知识共现网络中节点的相对距离与网络结构信息之间的关系。
XGBoost [22]是Tianqi Chen等人提出的一种高效梯度提升决策树算法,广泛应用于分类任务,因其速度快、资源占用低、精度高而受欢迎。Liu等人[23]结合XGBoost和TF-IDF优化了中文文本特征选择,显著提高了文本分类准确性。Samih等人[24]通过改进词嵌入和XGBoost提升情感分析效果。Shereen等人[25]发现XGBoost在数据量有限时优于深度学习模型,训练更高效。因此,本文准备采用XGBoost模型来实现电子邮件分类学习和训练任务。
总之,ERNIE语言模型能够有效捕捉电子邮件的上下文信息和语义特征,共现网络基于中心性算法能够识别网络节点的重要性和影响力,Vivaldi算法通过将网络节点映射到虚拟空间,可以有效捕捉节点的相对距离和网络结构信息之间的关系,XGBoost则以其快速的训练速度和优异的分类性能著称。正因为上述模型和算法的特征,使得它们非常适合于解决本文研究的问题。
3. 方法
本文提出的基于电子邮件知识共现网络特征和知识增强语义的梯度提升分类算法(Gradient Boosting Email Classification Algorithm Based on Co-occurrence Network Features and Knowledge-Enhanced Semantics, GBECKS)能够将电子邮件分类为正常类、骚扰类、可疑类和欺诈类。本文算法的框架如图1所示,包含数据预处理模块、复杂网络构建模块、特征提取模块、模型训练和预测模块,然后每个模块的具体实现的功能和目标如下:
Figure 1. Algorithm structure diagram
图1. 算法结构图
1) 数据预处理模块:该模块主要是减少电子邮件分类过程的噪音,电子邮件数据进行预处理包括大小写转换、保留逗号和句号的标点符号清理以及停用词的去除。
2) 复杂网络构建模块:该模块主要将复杂的电子邮件文本转换为清晰的网络结构,从而识别节点之间的关系。利用整个训练集构建电子邮件知识共现网络,并通过Vivaldi算法将该网络映射至虚拟空间,从而生成Vivaldi特征向量。
3) 特征提取模块:该模块主要对电子邮件的文本特征与网络结构进行有效表征,便于模型的学习和训练。将电子邮件内容拆解为词元并构建复杂网络,通过PageRank算法计算每个词元的排名,提取出前K个重要词元。从Vivaldi特征向量中匹配这些词元的对应向量,并将其与PageRank得分结合,形成邮件的融合特征向量。
4) 模型训练和预测模块:该模块通过使用提取的特征进行训练和学习,将融合特征向量与ERNIE生成的语义特征向量共同作为输入,训练XGBoost模型,从而实现电子邮件分类。
3.1. 电子邮件预处理
数据预处理是电子邮件分类过程中至关重要的步骤,具体过程详见算法1:
1) 统一大小写:为了提高电子邮件分类的准确性,本文将数据集中所有文本统一转换为小写字符,从而消除由于大小写差异引起的特征冗余,确保在处理分类任务时的一致性。
2) 去除标点符号:为了精简文本并保留重要的语法结构,本文统一删除除逗号和句号以外的所有标点符号,保留句子的整体结构,从而方便文本共现度计算。
3) 去除停用词:停用词频繁出现,往往会增加分类模型的计算负担并引入噪音,本文统一去除电子邮件文本停用词,从而提取更具信息量的特征用于分类模型的训练。
Algorithm 1. Data preprocessing
算法1. 数据预处理
输入:原始电子邮件数据Original Data 输出:处理后的电子邮件数据Processed Data 1: FOR EACH
data DO // 遍历数据集的每条数据 2:
// 大小写转换 3: Remove punctuation from
// 去除标点符号 4: Remove stop words from
// 去除停用词 5: END FOR |
3.2. 电子邮件知识共现网络构建
为了构建电子邮件领域的知识网络,本文设计了一种共现度计算方法(算法2),用于衡量词元在电子邮件中的分布情况。现给出如下定义:
假设函数
表示词元对的共现次数,那么有公式(1):
(1)
其中,
为指示函数,当
为真时,
,否则
。
具体而言,对于任意一封电子邮件
,其词元集合为
,其中
表示第
个词元,字典
用于存储词对的共现次数。首先,将电子邮件
按照指定的分隔符分割成词元序列
。然后,针对词元序列中的每一对相邻词元
中的每一对相邻词元
,更新其在字典
中的共现次数,更新规则如公式(2)所示:
(2)
在统计出所有词元对的共现度后构建知识网络,首先,从共现度最高的词元对
开始,逐步合并相应的节点。在每一步合并中,都需要对网络的连通性进行检查。假设
为当前的知识网络,其中
是节点集合,
是边集合,则合并节点
和
的操作如公式(3)所示:
(3)
其中
表示合并后的新节点,
表示新节点与其他节点
的边。
Algorithm 2. Constructing complex network
算法2. 复杂网络构建
输入:处理后的电子邮件数据Processed Data 输出:电子邮件共现网络G 1: FOR EACH
training set DO // 遍历训练集的每条数据 2:
// 以逗号为分割符 3: FOR EACH
DO // 遍历邮件的句子 4:
// 分词 5: FOR EACH
DO // 遍历共现词对 6:
// 更新字典 7: END FOR 8: END FOR 9: END FOR 10:
// 合并词元 11:
// 构建复杂网络 12:
// 初始化边 13: FOR EACH
DO // 遍历词元 14: FOR EACH
// 遍历字典 15: IF
THEN // 判断权重 16:
// 合并边 17: END IF 18: END FOR 19: END FOR 20:
// 降序排序 21: FOR EACH
// 遍历边 22:
// 更新边 23: IF
THEN 24: BREAK 25: END IF 26: END FOR 27: IF
THEN 28:
// 归一化 29: Return Output 30: END IF |
每次合并操作后,需要验证合并得到的网络是否包含了共现度词典中的所有词元。具体而言,设定合并后的网络节点集合为
,共现度词典中的词元集合为
,若满足公式(4):
(4)
则合并过程终止;否则,继续进行下一次合并。
在所有节点合并并形成连通网络后,对边的权重进行归一化处理。归一化的目的是为了平衡网络中不同边的影响力,避免某些边对网络整体结构产生过大的影响。
设
为边
的权重,
为网络中最大节点度,则归一化权重
计算公式如公式(5)所示:
(5)
归一化后的边权重
保证了网络中边的权重介于0和1之间,从而有效地反映了不同词元对在网络中的相对重要性。
伪代码(见算法2)展示了该方法的训练过程。
3.3. Vivaldi坐标映射
对于复杂网络中的每个词元节点,本文使用Vivaldi算法将其映射到一个高维虚拟空间中,以生成对应的词元向量坐标
。向量的维度为
,其中
表示电子邮件的总数,
表示单条电子邮件的向量维度。
给定一个复杂网络
,其中
表示词元节点集合,
表示词元节点之间的共现边。对于任意词元节点
,使用Vivaldi算法将其映射到高维空间中的坐标向量
。该过程如公式(6)所示:
(6)
其中,vivaldi表示维瓦尔第算法的映射函数,它基于词元节点在复杂网络中的相对位置来确定其高维空间坐标,映射得到的向量
的维度为
,即
,其中
是电子邮件的总数,即整个训练集中包含的电子邮件数。
是每条电子邮件在向量空间中的表示维度,具体算法流程如算法3所示。
Algorithm 3. Vivaldi algorithm mapping
算法3. 维瓦尔第算法映射
输入:复杂网络
,输入维度
,迭代轮数
,学习率
,初始误差
: 输出:Vivaldi 映射坐标
1:
// 初始化坐标 2:
// 初始化误差 3:
// 提取边集合 4: FOR
TO
DO // 迭代轮数 5:FOR EACH
DO // 遍历边 6:
// 计算当前距离 7:
// 计算误差 8:
// 计算
9:
// 计算
10:
// 计算距离向量 11: IF
// 判断距离向量 12:
// 归一化距离向量 13:
// 更新坐标 14:
// 更新坐标 15: END IF 16:
// 更新误差 17: END FOR 18: END FOR |
3.4. 电子邮件特征提取
对于训练集或测试集中的任意一封电子邮件,本文首先使用分割符(如逗号、句号和空格)对文本进行分词,生成相应的词元序列。在此基础上,构建针对该电子邮件的复杂网络,其中:
(1) 网络节点:基于每封电子邮件中的词元生成,每个词元对应一个节点;
(2) 节点权重:基于训练集中该词元的整体频度,反映其在整个数据集中的重要性;
(3) 边权重:边的权重取自之前在2.3节中构建的电子邮件知识共现网络,确保局部网络能够继承全局网络中的语义信息和结构关系。
复杂网络构建完成后,应用PageRank算法对网络中的节点(词元)进行排序,旨在识别该电子邮件中最具代表性的Top K词元,这些词元根据其在网络中的PageRank值选取,代表了该电子邮件中的核心语义单元。接下来,从3.3节中构建的Vivaldi空间坐标中提取前K个词元(Top K)对应的坐标。每个词元的Vivaldi坐标向量反映了它在整个电子邮件领域知识网络中的位置和关系。随后,将Top K词元的Vivaldi坐标与其对应的PageRank值进行拼接,形成最终的针对该电子邮件的Vivaldi特征向量。紧接着,使用ERNIE预训练模型提取该电子邮件的ERNIE特征向量。最后,将Vivaldi特征向量与ERNIE特征向量拼接在一起,形成该电子邮件的最终特征向量。
3.5. 基于XGBoost的分类方法
在模型训练阶段,首先利用训练数据集提取的特征向量,然后将这些特征向量输入至XGBoost模型中进行迭代训练。XGBoost模型通过逐步优化目标函数,不断更新模型参数,直至收敛,最终构建一个具备高泛化能力的分类模型。在模型预测阶段,使用测试数据集提取的特征向量作为输入,将其传递给经过训练的XGBoost模型,进行预测。XGBoost在此阶段同样执行迭代过程,根据输入的特征向量生成预测结果,评估模型在测试数据上的表现。
Algorithm 4. The training process of gradient boosting email classification algorithm based on co-occurrence network features and knowledge-enhanced semantics
算法4. 基于电子邮件知识共现网络特征和知识增强语义的梯度提升分类算法的训练过程
输入:复杂网络
,处理后的电子邮件数据Processed Data 输出:电子邮件类别Normal, Harassment, Suspicious, Fraudulent 1: FOR EACH data
Processed Data DO // 遍历数据集的每条数据 2:
// 构建网络 3:
// 计算网络的pagerank 4:
// 提取前k个pagrank 5:
// 拼接维瓦尔第特征和pagerank 6: END FOR 7: FOR EACH data
Processed Data DO // 遍历数据集的每条数据 8:
// 提取ERNIE文本特征 9: END FOR 10:
// 拼接特征向量 11: FOR
TO
DO // 训练轮数 12:
// 计算并更新梯度 13: Evaluate Loss, Validation Loss // 计算损失 14: Evaluate Accuracy, Precision, Recall, F-score // 评估指标 15: END FOR 16: Return Output |
算法4基于电子邮件知识共现网络特征和知识增强语义的梯度提升分类算法的训练过程
4. 实验
4.1. 数据集选取
本文数据集通过从三种不同的数据源中均衡抽样并合并而成,包括:Enron数据集中的正常邮件和钓鱼邮件[26],包含误导性信息的欺诈性电子邮件[27],以及从仇恨言论和攻击性数据集中选择的骚扰消息和TREC-8数据集中部分可疑电子邮件[28],数据集整体分布如表1所示:
Table 1. Category distribution of email dataset
表1. 电子邮件数据集类别分布
Category |
Normal |
Fraudulent |
Harassment |
Suspicious |
Number |
5142 |
5142 |
5142 |
5142 |
Percentage |
25% |
25% |
25% |
25% |
4.2. 实验设计
这些数据集涵盖了Normal、Fraudulent、Harassment和Suspicious四个类别,且每个类别的数据均匀分布,适用于基于共现网络特征和知识增强语义的梯度提升电子邮件分类算法。在实验中,利用数据集中的邮件正文内容进行电子邮件分类预测。实验采用Hold Out方法,将数据集分为训练集和测试集,算法仅使用训练集数据进行模型训练,并通过测试集数据进行验证。最终结果取10次实验的平均值。
电子邮件分类的评估标准包括准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1值(F1-Score),这些指标越高,表明模型的分类性能越优。实验中,主要对比算法包括传统的神经网络模型BiLSTM、基于注意力机制的HAN网络、双向编码器表示模型BERT以及知识增强语义模型ERNIE。
实验所用处理器为14th Gen Intel(R)Core(TM)i9-14900H 5.40GHz,所用的显卡为NVIDIA GeForce RTX 4060 Laptop GPU,内存容量为32 GB,操作系统为64位Windows 11所有的实验都是在上述的实验环境中进行的,使本文能够在相同的条件下对实验结果进行公正的比较。
4.3. 基线算法
本文选取了4种流行的文本分类模型作为对比实验:
1) 双向长短期记忆网络[29] (Bidirectional Long Short-Term Memory):该算法通过BiLSTM对邮件的文本内容进行编码,捕捉到文本中单词的上下文信息。将得到的特征表示通过全连接层进行处理,最终通过softmax函数进行分类。
2) 层次化注意力网络[30] (Hierarchical Attention Network):该算法通过分层的方式处理文本内容。首先,HAN处理单个句子中的单词,生成每个句子的表示。接着,通过句子级别的BiLSTM捕捉句子间的上下文关系,并使用注意力机制选择出重要的句子和单词,形成邮件的整体表示。最终利用这些表示进行分类。
3) 双向编码器表示模型[31] (Bidirectional Encoder Representations from Transformers):该算法首先将邮件的文本输入到其双向Transformer编码器中,生成每个词汇的上下文表示。然后,通过一个特殊的分类标记[CLS]对整个邮件进行表示,并利用这个表示进行分类。
4) 知识增强语义模型[32] (Enhanced Representation through Knowledge Integration):该算法中邮件内容首先被编码成词汇表示,并与相关的知识图谱进行整合,生成更具语义信息的表示。随后,通过分类层对邮件进行分类。
4.4. 评价指标
本文提出的GBECKS算法评估从文本分类的准确率(Accuracy)、精确率(Precision)、召回率(Recall)和F1值(F1-Score)这4个指标来度量。这些指标的计算公式和含义如下:
准确率(Accuracy)是指在电子邮件分类正确占全部电子邮件的比例,它衡量了模型在电子邮件分类任务中,对所有类别(如正常类、骚扰类、可疑类、欺诈类)邮件的整体效果。准确率的计算方式如公式(7)所示:
(7)
精确率(Precision)是指分类为某一特定类别的所有电子邮件中,实际属于该类别的比例,它反映了模型在识别该类别时的精确度。精确率的计算公式如公式(8)所示:
(8)
召回率(Recall)是指实际属于某一特定类别的所有电子邮件中,成功被模型正确分类为该类别的比例。它反映了模型在识别该类别时的覆盖率。召回率的计算公式如公式(9)所示:
(9)
F1 值(F1-score)是精确率(Precision)和召回率(Recall)的调和平均值,它综合考虑了两者的影响,是一种平衡指标。F1值越高,说明分类性能越好。F1 值的计算公式如公式(10)所示:
(10)
5. 实验结果分析
5.1. 消融实验
本文通过消融实验来评估不同模块对电子邮件分类模型的影响,并对比了它们在电子邮件分类(正常类、骚扰类、可疑类、欺诈类)上的性能,实验结果如表2所示:
Table 2. Results of ablation experiments
表2. 消融实验结果
Model |
Precision |
Recall |
F1-score |
Accuracy |
GBECKS (Ours) |
0.9432 |
0.9421 |
0.9402 |
0.9701 |
Remove ERNIE |
0.8691 |
0.8668 |
0.8668 |
0.9334 |
Remove Vivaldi |
0.9835 |
0.9328 |
0.9377 |
0.9689 |
Remove PageRank |
0.9370 |
0.9325 |
0.9375 |
0.9686 |
消融实验结果表明,GBECKS算法在包含所有模块时达到了最优性能,特别是在准确率方面表现卓越。ERNIE模块在提升精确率、召回率和F1值方面起到了关键作用,其移除导致模型性能显著下降,表明ERNIE对整体性能的提升具有决定性影响。并且移除Vivaldi和PageRank模块后,模型的各项指标略有下降,表明这些模块在增强模型的精确性和稳定性方面同样至关重要。因此,ERNIE、Vivaldi和PageRank模块对于本算法是正向提升的。
5.2. 对比实验
从图2可以看出GBECKS在分类Fraudulent时,比ERNIE提升约0.23%,高于BERT约0.44%,高于HAN约0.54%,高于BiLSTM约0.23%;在分类Harassment时,比ERNIE提升了约0.11%,高于BERT约1.13%,高于HAN约0.84%,高于BiLSTM约1.85%;在分类Normal时,比ERNIE提升了约0.65%,高于BERT约1.12%,高于HAN约0.75%,高于BiLSTM约0.65%;在分类Suspicious时,比ERNIE提升了约0.67%,高于BERT约1.79%,高于HAN约1.03%,高于BiLSTM约2.28%。
Figure 2. Accuracy values of GBECKS, BiLSTM, HAN, BERT, ERNIE
图2. GBECKS、BiLSTM、HAN、BERT、ERNIE的Accuracy值
Figure 3. Precision values of GBECKS, BiLSTM, HAN, BERT, ERNIE
图3. GBECKS、BiLSTM、HAN、BERT、ERNIE的Precision值
从图3可以看出GBECKS在分类Fraudulent时,比ERNIE提升约0.35%,高于BERT约0.59%,高于HAN约1.35%,高于BiLSTM约0.71%;在分类Harassment时,比ERNIE提升了约0.31%,高于BERT约3.04%,高于HAN约0.61%,高于BiLSTM约0.33%;在分类Normal时,比ERNIE提升了约1.71%,高于BERT约3.25%,高于HAN约2.53%,高于BiLSTM约1.95%;在分类Suspicious时,比ERNIE提升了约3.07%,高于BERT约2.87%,高于HAN约5.20%,高于BiLSTM约7.42%。
从图4可以看出GBECKS在分类Fraudulent时,比ERNIE提升约0.33%,高于BERT约1.43%,高于HAN约0.78%,高于BiLSTM约0.02%;在分类Harassment时,比ERNIE提升了约2.60%,高于BERT约1.63%,高于HAN约6.49%,高于BiLSTM约10.38%;在分类Normal时,比ERNIE提升了约0.90%,高于BERT约1.16%,高于HAN约0.47%,高于BiLSTM约0.64%;在分类Suspicious时,比ERNIE提升了约0.31%,高于BERT约5.46%,高于HAN约0.29%,高于BiLSTM约0.49%。
Figure 4. Recall values of GBECKS, BiLSTM, HAN, BERT, ERNIE
图4. GBECKS、BiLSTM、HAN、BERT、ERNIE的Recall值
从图5可以看出GBECKS在分类Fraudulent时,比ERNIE提升约0.45%,高于BERT约0.88%,高于HAN约1.06%,高于BiLSTM约0.45%;在分类Harassment时,比ERNIE提升约0.42%,高于BERT约2.06%,高于HAN约2.09%,高于BiLSTM约4.44%;在分类Normal时,比ERNIE提升了约2.18%,高于BERT约1.48%,高于HAN约1.48%,高于BiLSTM约1.27%;在分类Suspicious时,比ERNIE提升了约1.21%,高于BERT约4.13%,高于HAN约1.77%,高于BiLSTM约3.90%。
从表3可以看出,GBECKS相较于ERNIE,运行时间减少约88.83秒,降幅达到80.11%;相比于BERT,时间减少约84.57秒,降幅为79.32%;相较于BiLSTM,时间缩短约157.54秒,降幅达87.72%;而与HAN相比,时间减少约1323.50秒,降幅高达98.36%。GBECKS相较于ERNIE,测试耗时减少约0.10秒,降幅达到55.56%;相比于BERT,时间减少约0.07幅为46.67%;相较于BiLSTM,时间缩短约0.16秒,降幅达66.67%;而与HAN相比,时间减少约1.39秒,降幅高达94.56%。
Figure 5. F1 values of GBECKS, BiLSTM, HAN, BERT, ERNIE
图5. GBECKS、BiLSTM、HAN、BERT、ERNIE的F1值
Table 3. Model training and testing time comparison
表3. 模型训练与测试时间对比
Time |
GBECKS (Ours) |
BERT |
ERNIE |
BiLSTM |
HAN |
Training |
22.05 s |
106.62 s |
110.88 s |
179.59 s |
1345.55 s |
Testing |
0.08 s |
0.15 s |
0.18 s |
0.24 s |
1.47 s |
总之,GBECKS是一种基于梯度提升树的高效算法,尤其在处理大规模数据集时表现出极高的训练效率。与深度学习模型相比,GBECKS的训练时间大幅缩短,其计算复杂度主要体现在树结构的生成和剪枝过程中。训练成本集中于决策树的构建与优化、特征分裂的计算,以及样本信息增益的评估等方面。因此,GBECKS相较于其他深度学习模型在训练复杂度上更低。
5.3. 分析与讨论
Table 4. Results of comparative experiments
表4. 对比实验结果
Model |
Precision |
Recall |
F1-score |
Accuracy |
GBECKS (Ours) |
0.9432 |
0.9421 |
0.9402 |
0.9701 |
BiLSTM |
0.9172 |
0.9172 |
0.9151 |
0.9576 |
HAN |
0.9190 |
0.9220 |
0.9242 |
0.9623 |
BERT |
0.9194 |
0.9194 |
0.9175 |
0.9590 |
ERNIE |
0.9290 |
0.9318 |
0.9318 |
0.9660 |
本文通过词汇共现度构建电子邮件知识网络,并提取Vivaldi空间特征和网络中心性特征,结合ERNIE模型的语义特征,在较少的训练成本和训练时间内实现了更加良好的电子邮件分类。实验结果表明,本文提出的GBECKS算法在分类性能上显著优于其他主流算法(表4),同时训练时间和成本也明显低于其他主流算法。
GBECKS算法和模型能够有效挖掘电子邮件中的知识网络结构特征,并在此基础上补充深度学习模型的文本语义特征。这一成果进一步验证了现有领域的一个重要成果:知识图谱等知识结构特征能够增强大语言模型等深度学习方法的相关性能[13]。同时,本文的实验结果表明,可以使用更加简单的方式构造研究对象的知识网络结构,这种简单、低成本的知识结构的构建方式可以显著提升现有模型的在文本分类任务下的性能。因此,本文提出的模型不仅在电子邮件分类任务中表现出色,还具有较低的时间复杂度,展现出优越的效率和实用性。
虽然GBECKS算法在分类Harassment和Suspicious邮件类别时相较于其他主流算法领先,但是性能稍逊于分类Fraudulent和Normal类别。可能的原因在于,Harassment和Suspicious类别的电子邮件知识网络结构特征不够清晰,语义特征也较为模糊,从而导致特征提取的难度增加,进而影响了分类性能的提升。
6. 结论
本文提出了一种基于电子邮件知识共现网络特征和知识增强语义的电子邮件分类算法GBECKS,一定程度上弥补了大语言模型ERNIE在电子邮件中的网络特征知识理解能力的不足。
通过统计电子邮件的共现度,构建了基于电子邮件知识的共现网络,并利用Vivaldi算法将这些特征映射到虚拟空间中进行表示。随后,算法将Vivaldi特征、电子邮件网络的中心性特征与ERNIE的语义特征结合,生成电子邮件特征向量,并通过梯度提升模型XGBoost进行分类。
实验结果表明,本文提出的算法在各项指标上均优于ERNIE、BERT、HAN和BiLSTM模型。此结果证明了本文设计的GBECKS算法不仅在准确性上具有显著优势,同时也具备较低的计算复杂度,是一种高效且精确的电子邮件分类方法。
本文算法仍存在进一步优化的空间。在未来的研究中可以从以下几个方面进行改进:
(1) 结合复杂网络理论,进一步挖掘电子邮件网络的社团特征,针对目前在特殊分类网络结构不清晰、分类性能较低的问题,提出更加有效的解决方案;
(2) 继续探索构建更加完善的电子邮件特征知识图谱,并融入外部知识图谱以改进大语言模型,通过更全面的知识集成,使模型能够更精准地捕捉电子邮件的语义和特征,从而进一步提高分类的准确性。
基金项目
国家自然科学基金项目(61803264)。
NOTES
*通讯作者。