1. 引言
入侵检测系统(Intrusion Detection System, IDS)作为网络安全的关键组件,通过监控网络或系统活动,识别潜在的攻击行为,从而及时采取措施防止或减轻安全威胁。然而,随着人工智能、大数据和云计算技术的快速发展,网络攻击手段日益复杂,传统的基于特定数据模式或行为规则的入侵检测方法已难以适应这种快速演变的攻击环境。
本文旨在探讨基于深度强化学习模型提升入侵检测系统(IDS)准确性与适应性的有效途径。为此,本文选用了深度确定性策略梯度(DDPG)网络,针对包含大量离散动作的离散–连续混合动作空间环境,并结合网络环境的时序特性,在DDPG智能体中融入长短期记忆网络(LSTM)以捕捉序列数据中的长期依赖关系。该方法融合了LSTM在时序数据处理中的优势与DDPG在策略优化中的卓越性能,从而显著提升了系统在网络入侵检测等时序数据驱动任务中的表现。
通过LSTM层,网络能够有效地捕捉数据的时间依赖性,而DDPG则能够基于这些信息学习到最优的入侵检测策略。与单独采用DDPG或LSTM,LSTM与DDPG的集成不仅充分发挥了二者各自的优势,还在动态网络环境中展现出更高效的入侵检测能力。该方法利用LSTM捕捉网络流量数据中的时序依赖关系,并借助DDPG在策略优化中的卓越性能,实现了对网络入侵行为的实时、精准识别,为网络安全防护提供了创新而有效的解决方案。
深度学习能够自动从原始网络数据中提取深层次特征,克服了传统方法中对手工特征设计的依赖,从而更准确地捕捉隐藏的异常模式。麻文刚[1]等人提出了一种基于LSTM和ResNet的入侵检测模型,该模型综合了STM和ResNet的优点,有效改善了深度网络中的过拟合问题,在NSL-KDD数据集上实现了约90%的准确率。Kober J [2]等人将检测问题转化为预测马尔可夫奖励过程的价值函数问题,采用了线性基函数的时间差异算法进行值预测,从而能够准确地预测主机过程的异常时间行为。Xu X, Xie T [3]等人提出了一种分布式传感器和决策代理的体系结构,旨在改善在网络传感器代理的分层架构中分布式强化学习方法的模型精准率较差的问题。Di C [4]等人研究了分布式强化学习对入侵响应的适用性,然而,他们发现系统无法仅通过考虑流量来区分合法流量和攻击流量。Servin A [5] [6]等人提出了一种基于神经网络的强化学习对抗性环境算法,首次将对抗强化学习应用于入侵检测,并将环境行为融入到改进的强化学习算法的学习过程中。他们将入侵检测中的术语与深度强化学习中的术语一一对应,该模型集成了强化和监督框架,产生的环境能够与通过网络特征和相关入侵标签形成的预先记录的样本数据集进行交互,并且选择具有优化策略的样本以实现最佳分类效果。Cao H [7]结合了GAN和变压器的优点,研究目标是建立智能检测系统。
2. 相关理论
2.1. 深度确定性策略梯度网络(DDPG)
DDPG (Deep Deterministic Policy Gradient)算法是将确定性策略与经验回放相结合的强化学习方法。其学习框架如图1所示。
Figure 1. DDPG algorithm learning framework
图1. DDPG算法学习框架
在该框架中,si表示状态i。ai是系统基于当前状态si作出的确定性决策动作,而非随机探索动作。done是一个布尔变量,指示当前状态是否为终端状态。ri表示状态i对应的奖励。在入侵检测的具体应用中,动作ai可能包括但不限于发出警报、特定的IP地址或调整防火墙规则等。
DDPG算法是为连续动作空间设计的,其架构可以通过调整输出层来适应离散动作空间。对于入侵检测系统而言,DDPG在处理复杂的决策过程时能够学习到一套策略,以应对网络入侵检测中涉及的大量动态变化因素。特别是,在需要实时适应新威胁和攻击手段的网络入侵检测系统中,DDPG提供了一种能够在与环境交互的过程中不断更新策略的在线学习算法,这使得其具有很高的应用价值。
2.2. 长短期记忆网络(LSTM)
长短期记忆网络(LSTM, Long Short-Term Memory)是一种能够处理和预测时间序列数据中长期依赖关系的递归神经网络。其算法框架如图2所示。
Figure 2. LSTM cell algorithm framework
图2. LSTM细胞算法框架
在LSTM中,xt表示输入,σ表示sigmod函数,tanh表示双曲正切函数,ft, it, Ĉt, ot分别表示遗忘门、输入门、当前储存单元的候选者和输出门的运算结果,ct表示更新后的单元状态,ht是隐藏层的状态,wf, wt, wc, wo分别表示对应部分的权重值。其逻辑表达式表示为:
(1)
其中,
(2)
LSTM的核心为记忆细胞,即图2中
到ct这一条贯穿顶部的水平线。LSTM可以往记忆细胞之中添加或者移除信息,LSTM把训练信息分成长期信息ct和短期信息ht,ct可以不受影响地继续传递下去。或者移除信息是由遗忘门、输入门、输出门这三种门结构控制。遗忘门通过sigmoid激活函数来决定对长期信息的保留和删除。输入门通过sigmoid和tanh双曲正切函数决定该往长期信息中添加什么样的信息。输出门则通过sigmoid层决定输出信息,然后通过tanh层激活长期信息及点乘前者输出来得到当前时刻的预测值ht。
3. LSTM-DDPG的算法设计
传统DDPG算法在策略更新过程中易遭遇不稳定性和收敛性问题,尤其在网络环境剧烈波动时,其在快速响应网络入侵检测任务中的效能受到明显制约。该算法通常依赖大量数据作为决策基础,而在复杂网络环境中这一条件往往难以满足;在平衡误报与漏报方面也存在不足,致使实际应用难以达到预期的安全标准。
为了克服这些挑战,本文将长短期记忆网络(LSTM)集成到Actor和Critic网络的智能体中。改进的算法网络结构如图3所示。LSTM被用于Actor和Critic网络中。Actor网络通过LSTM层提取时间序列特征,生成动作。Critic网络则结合状态和动作,通过LSTM层评估动作的价值。增强了网络对时间序列数据的处理能力,使得Actor和Critic网络能够更好地捕捉网络流量中的长期依赖关系,帮助识别复杂的攻击模式。这种改进在鲁棒性方面通过LSTM能够捕捉长时间依赖关系,使得模型在面对长时间的攻击行为时仍能保持稳定的性能。DDPG通过策略网络和价值网络的交替优化,能够在动态环境中保持较高的策略稳定性。通过经验回放机制,模型能够在不同的时间步中学习到更广泛的策略,提高对环境变化的适应能力。算法在网络入侵检测任务中更好地平衡误报和漏报。模型可行性在于模型通过分析LSTM的输出,可以识别哪些时间序列特征对决策有重要影响。通过DDPG的策略网络输出,可以观察到模型在不同状态下的决策变化。
Figure 3. LSTM-DDPG algorithm improvement
图3. LSTM-DDPG算法改进部分
攻击行为在动态网络中呈现多尺度时序特性,双层LSTM的设计有助于捕获网络流量特征中的长期依赖关系和复杂的时序模式,首层LSTM提取基础时间模式,第二层捕获高阶关联特征。因此在图3所示的网络结构中,LSTM由两层LSTM单元组成,旨在增强系统的实时性和提高网络的鲁棒性。Linear、Linear1和Linear2分别代表一层全连接网络。Actor和Critic网络的隐藏层如上图所示。隐藏层之间使用ReLU函数作为激活函数,以避免梯度消失问题。输出层使用tanh作为激活函数,将输出限制在一定范围内。
在学习阶段,Critic网络在评分时,首先将Actor网络的输出通过Linear1处理,然后与当前状态合并作为输入源输入到LSTM网络中。最终,LSTM网络的输出与Linear1处理结果合并传递给Linear2,输出单一的结果,表示动作价值函数。
为有效地引导模型学习正确识别不同类型的网络流量LSTM-DDPG算法的奖励机制通过差异敏感的奖励计算和类别权重的设置,基于Actor网络输出的动作是否被判定为攻击类别流量。具体而言,对于正确检测出的动作结果,给予相应的系数,然后通过计算Actor网络输出与真实标签之间的差值与系数的乘积,作为奖励r的给予方式。整个LSTM-DDPG的伪代码如下所示:
LSTM-DDPG的伪代码 |
θQ和θμ随机初始化Critic网络Q (s, a|θQ)和Actor网络μ (s, a|θμ) |
初始化目标网络权重参数Q′和μ′ |
初始化经验回放区R |
for episode = 1, M do: |
行动探索,随机噪声N初始化 |
获得初始观察状态s1 |
for t = 1, T do: |
|
根据动作at获取奖励rt和环境状态st + 1将数据(st, at, rt, st + 1)存入R |
从R中随机采样批量数目值N的多位数组(si, ai, ri, si + 1) |
|
最小化损失函数L来更新Critic网络: |
|
采样策略梯度更新Actor策略网络: |
|
更新目标网络: |
|
|
end for |
end for |
4. 实验与结果分析
实验的设计是使用Python语言实现的,具体实验环境如表1所示。
Table 1. Experimental environment configuration
表1. 实验环境配置
环境 |
参数 |
操作系统 |
Windows 11 专业版 |
CPU |
AMD Ryzen 9 7940H w/ Radeon 780M Graphics 4.00 GHz |
GPU |
NVIDIA GeForce RTX 4060 Laptop GPU |
内存 |
DDR5 32.0 GB |
Python |
3.9.7 |
Pytorch |
2.4.0 + cu121 |
4.1. 实验数据来源
本研究采用TON-IoT数据集作为实验基础,该数据集专为物联网(IoT)环境设计,旨在评估人工智能安全应用的性能。通过模拟真实IoT环境,它为研究人员提供了丰富的测试平台,推动了物联网安全研究。TON-IoT涵盖DDoS、DoS、侦察等常见网络攻击如表2所示,使研究人员能够深入分析IoT安全漏洞,并探索有效防御机制,在物联网安全领域具有重要应用价值。
Table 2. Category and quantity distribution of training set and test set
表2. 训练集与测试集的类别与数量分布
样本类型 |
训练集 |
训练集总数 |
测试集 |
测试集总数 |
backdoor |
5755 |
44,450 |
12,956 |
103,984 |
ddos |
5903 |
14,090 |
dos |
5690 |
13,302 |
injection |
5913 |
14,051 |
mitm |
328 |
713 |
password |
5972 |
13,889 |
ransomware |
4492 |
10,243 |
scanning |
5848 |
14,152 |
xss |
4549 |
|
10,588 |
normal |
12,692 |
12,692 |
29,348 |
29,348 |
样本总数 |
57,142 |
57,142 |
133,332 |
133,332 |
4.2. 数据预处理
数据集包含10种不同的攻击类别。本文将数据集随机打乱后按照7:3的比例划分为训练集和测试集并进行实验。针对数据集中存在的缺失值可能导致模型训练偏差的问题,本研究通过系统性数据清洗流程对不完整样本进行删除处理,为后续实验进行提供了有效性。基于详尽的攻击模式统计分布图谱,构建了标准化的分类编码框架。为确保研究方法的可溯源性并支持后续分析的复现性,最终形成的编码映射关系及各类别频次分布数据被完整记录于专用元数据存储库,该架构设计实现了分类体系的可视化追踪与样本分布特征的量化呈现。
为了处理这种数据分布不均匀的问题,本文采用Z-score标准化方法对数据进行预处理。Z-score标准化方法的数学表达式如下所示:
(3)
其中,x是原始数据点,μ是数据集的均值,σ是数据集的标准差。Z-score标准化方法通过将原始数据点减去均值后除以标准差,将数据转换为标准正态分布,从而使得不同特征之间的数值范围一致,有利于模型的训练和性能提升。
4.3. 评价指标
在本研究中,受样本类别不平衡的影响,准确率作为评价指标的可靠性受到质疑,模型可能在多数类别上表现优异,而在少数类别上效果欠佳。为全面评估模型性能,本文采用了多种评价指标,包括准确率(ACC)、精确率(Precision)、召回率(Recall)和F1分数,以提供更客观、公正的评估。这些指标的公式表达如下:
准确率(ACC):
(4)
精确率(Pre):
(5)
召回率(Recall):
(6)
F1分数(F1):
(7)
其中,TP表示真正例,TN表示真负例,FP表示假正例,FN表示假负例。准确率反映了模型正确分类的总体比例,精确率反映了模型正确预测为正例的比例,召回率反映了模型正确识别出所有正例的比例,F1分数是精确率和召回率的调和平均数。
4.4. 实验分析
对于提出的LSTM-DDPG模型,设定了奖励衰减系数为0.9,软更新系数为0.01。此外,动作和评论家的学习率分别被设置为0.001和0.002。经验池的容量被设定为3000,每次训练的样本数为64,当经验池的容量达到300时,训练开始。隐含神经元的数量被设为140。在优化算法的选择上,本文采用了Adam优化函数,它是一种基于梯度的一阶优化算法,相较于其他优化算法,具有更快的收敛速度和较低的计算复杂度。
为了验证改进后模型的有效性,本实验设计了2组消融实验,分别测试了基准模型DDPG和LSTM。实验均在100个Epoch下进行训练,其中,我们选取了50次训练中的最终结果进行比较。基准模型与本文模型在实验集中的性能比较结果如表3所示,而在验证集中的性能比较结果如表4所示。
Table 3. Performance comparison between the benchmark model and the model presented in this paper in the experimental set (%)
表3. 基准模型与本文模型在实验集中的性能比较(%)
模型 |
准确率 |
精确率 |
召回率 |
F1值 |
LSTM |
93.95 |
98.04 |
46.84 |
63.4 |
DDPG |
74.28 |
79.54 |
87.91 |
83.52 |
LSTM-DDPG |
94.93 |
98.55 |
93.53 |
95.97 |
Table 4. Performance comparison between the benchmark model and the model presented in this paper in the verification set (%)
表4. 基准模型与本文模型在验证集中的性能比较(%)
模型 |
准确率 |
精确率 |
召回率 |
F1值 |
LSTM |
76.68 |
90.25 |
42.60 |
60.90 |
DDPG |
82.45 |
73.37 |
65.54 |
69.23 |
LSTM-DDPG |
93.23 |
98.87 |
84.83 |
91.31 |
在表3和表4所示的实验环境下,最优模型的性能进行了比较。结果显示,尽管LSTM在验证集上保持了良好的效果,但在准确率方面并不高。然而,将LSTM融合进DDPG网络后,模型的性能得到了稳定的提升。与普通DDPG和LSTM相比,融合后的模型在准确率方面分别提升了13.07%和21.58%;精确率分别提升了34.75%和9.55%;召回值分别提升了29.43%和99.13%;F1值分别提升了31.89%和49.93%。其训练过程准确率对比图如图4所示,测试过程准确率对比图如图5所示。这些结果表明,LSTM与DDPG网络的融合在提高模型性能方面具有显著优势。
Figure 4. Comparison of accuracy of training process
图4. 训练过程准确率对比图
Figure 5. Comparison of accuracy of test process
图5. 测试过程准确率对比图
表5展示了普通DDPG和LSTM与结合后的LSTM-DDPG网络在不同攻击类别上的精确率、召回率和F1值的检测结果对比。实验结果表明,融合改进后的网络在不同攻击类别的检测能力上均有所提升,尤其在少样本网络攻击模式的识别方面,相较于传统DDPG网络,融合模型展现出更强的检测能力。这一结果进一步验证了LSTM与DDPG融合在提升模型性能方面的有效性与可行性。
Table 5. Test results of other categories (%)
表5. 其他类别检测结果(%)
模型 |
指标 |
类别 |
backdoor |
ddos |
dos |
injection |
mitm |
password |
ransomware |
scanning |
xss |
LSTM |
精确率 |
27.27 |
85.06 |
64.91 |
91.91 |
55.79 |
78.62 |
98.83 |
45.1 |
91.69 |
召回率 |
0.27 |
30.94 |
35.15 |
26.25 |
1.24 |
27.09 |
22.46 |
47.59 |
14.78 |
F1值 |
0.53 |
45.38 |
45.61 |
40.84 |
2.43 |
40.3 |
36.6 |
46.31 |
25.46 |
DDPG |
精确率 |
98.58 |
95.82 |
99.91 |
91.44 |
0 |
94.30 |
93.53 |
97.87 |
88.83 |
召回率 |
50.83 |
42.22 |
49.15 |
53.33 |
0 |
53.05 |
45.67 |
51.41 |
43.41 |
F1值 |
67.08 |
58.61 |
65.89 |
67.37 |
0 |
67.90 |
61.37 |
67.41 |
58.32 |
LSTM-DDPG |
精确率 |
99.64 |
95.90 |
99.90 |
94.01 |
32.98 |
96.36 |
96.36 |
97.49 |
82.40 |
召回率 |
65.07 |
66.57 |
63.72 |
68.20 |
3.29 |
60.40 |
60.40 |
66.67 |
66.82 |
F1值 |
78.72 |
78.59 |
77.81 |
79.05 |
5.99 |
74.26 |
74.26 |
79.19 |
73.80 |
5. 结论
随着网络环境的快速演进,异常行为与恶意攻击的检测愈发关键。面对日益增长且形式多样的网络攻击,亟需一种能够适应动态变化的高效检测工具。本文提出了一种融合DDPG网络与LSTM优势的新方法,以实现对网络环境的动态监测。实验结果表明,该融合模型在检测少数类别的MITM攻击方面表现优异,并显著提升了整体的精确率、召回率和F1值。
本文提出的方法为动态检测网络环境提供了有益的探索与参考。未来将进一步拓展融合模型至更多网络数据集,以验证其可靠性与泛化能力。重点关注在提升对少量小样本检测能力的同时,确保对大样本的识别性能不受影响,从而进一步优化模型的实用性与稳定性。