1. 引言
随着无线通信技术的飞速演进,自动调制识别作为非合作通信中的关键技术,在频谱监测、认知无线电以及军事侦听等领域扮演着日益重要的角色。传统方法依赖人工设计的特征与专家经验,在复杂多变的信道环境中泛化能力有限,难以适应实际应用的需求[1]。深度学习技术的引入改变了这一局面,其端到端的学习机制能够直接从原始信号中提取判别性特征,显著提升了识别系统的鲁棒性与准确率。
O’Shea等人于2016年开创性地将卷积神经网络应用于调制识别任务,直接将基带I/Q信号作为输入,对11类调制方式进行分类,在0 dB信噪比下识别准确率达到80%,为该领域的研究奠定了基础[2]。随着深度学习技术的深入应用,研究者逐渐将重心转向提升模型的识别性能,提出了多种结构复杂的深度网络。例如,Xu等人设计的多通道卷积长短时深度神经网络(MCLDNN)通过多路径输入分别处理I/Q两路信号,并融合CNN与LSTM以联合提取信号的时域与空域特征[3]。在RML2016.10a数据集上的实验表明,该模型在0 dB至18 dB信噪比范围内的平均识别率达到92%,在12 dB时最高识别精度达92.95%。然而,该模型的参数量高达40.5万,计算复杂度限制了其在资源受限场景中的应用。Liu等人进一步提出基于时间注意力机制与LSTM的编码器–解码器结构(LSTM-AL),通过注意力机制强化对关键时间步的建模能力,在AM-SSB、BPSK、CPFSK和16-QAM等多种调制类型上均取得了优于传统LSTM模型的识别效果,展现出复杂网络在特征提取方面的潜力[4]。
随着研究的深入,为了满足实际部署中对计算效率和资源消耗的要求,轻量级网络架构逐渐成为研究热点。Zhang等人提出的PET-CGDNN模型通过引入相位估计与补偿模块提升了对相位偏移的鲁棒性,并结合CNN与GRU实现轻量化设计。在RML2016.10a数据集上,该模型在未剪枝情况下的平均识别准确率为60.44%,最高识别精度达91.36%,而参数量仅为7.1万。通过剪枝技术,该模型能在保持90%以上识别精度的同时,将参数量进一步压缩至1.4万[5]。Zhu等人设计的MSGNet采用深度可分离卷积与门控循环单元(GRU)构建轻量级多特征融合网络,从幅度/相位、I/Q样本以及频域实部/虚部三个通道中提取空间、时间和频率特征。在RML2016.10a数据集上,MSGNet在0 dB至18 dB SNR范围内的平均识别准确率达到92.42%,最高识别精度在14 dB时为93.4%,而模型参数量仅为14.9万,在精度和效率间取得了良好平衡[6]。Zeng等人探索了基于脉冲神经网络(SNN)与Transformer的混合模型,利用SNN的稀疏激活和二值化特性,在RadioML2018.01a数据集上实现了与全精度模型相当的识别精度,同时将模型尺寸压缩至全精度模型的1/20,功耗降低超过95%,为在非地面网络(NTN)等资源受限环境中的部署提供了新的解决方案[7]。
尽管上述轻量级模型在降低复杂度方面取得了显著进展,但它们大多侧重于单一优化策略:PET-CGDNN依赖于剪枝技术,MSGNet采用多特征融合但未充分利用时序建模潜力,SNN-Transformer混合模型则面临训练复杂性和时序建模精度的挑战。鉴于此,本文提出一种轻量级多尺度特征融合网络。该网络采用多分支深度可分离卷积结构提取不同尺度下的信号特征,引入压缩激励模块增强判别性特征的权重,并利用LSTM单元建模长时依赖关系。与现有方法相比,所提模型在保持较高识别精度的同时,显著降低了计算复杂度与内存占用,为资源受限场景下的实时调制识别提供了可行的技术路径。
2. 信号模型与提出的网络模型
2.1. 信号模型
信号通过信道并被采样后,等效基带信号可以表示为:
(1)
其中
是发射机以某种调制方案调制的信号,
表示复加性高斯白噪声(AWGN),
代表信道增益,
是频偏,
是相偏,
表示接收机观察到的第l个值,
是一个信号样本中的符号数。为了便于数据处理和调制识别,接收到的信号可以以同相/正交(I/Q)形式存储为:
(2)
2.2. 多尺度深度可分离注意力网络
本文提出的多尺度深度可分离注意力网络(Multi-Scale Depthwise-Separable Attention Network,MDSA-Net)模型网络结构如图1所示。
Figure 1. The structure of the proposed MDSA-Net
图1. 提出的MDSA-Net结构
网络接受一个维度为(B, 128, 2)的输入张量,其中B为批处理大小。首先通过一个重塑层将其转换为(B, 128, 2, 1)的四维张量,以适应后续的二维卷积操作。前端特征提取部分采用一个卷积核为7 × 2的卷积层,配备75个滤波器,用于捕获信号在时间和I/Q维度上的局部相关性。后接批量归一化层和ReLU激活函数,以加速训练收敛并引入非线性。
随后,网络采用三个并行的深度卷积分支(DWConv1、DWConv2、DWConv3),卷积核尺寸分别为5 × 1、7 × 1和9 × 1。这种多尺度设计能够从不同感受野提取信号特征,在扩大特征覆盖范围的同时,通过深度卷积的操作显著减少参数量。多尺度特征通过残差连接与原始输入相加进行融合后,经由一个1 × 1的逐点卷积(PWConv)将通道数整合为64,自此完成多尺度深度可分离卷积。接着使用另一个1 × 1卷积进一步将通道数压缩至32,实现特征的降维和深化。在特征精炼阶段,网络引入压缩激励(SE)注意力模块,通过全局平均池化获取通道级统计信息,再经由两个全连接层生成通道权重,对特征图进行自适应重校准,增强判别性特征的响应。SE模块结构图如图2所示。
时序建模部分将空间特征重塑为序列格式,输入至包含64个隐藏单元的LSTM层中,捕捉调制信号中的长程时序依赖关系。最后通过全连接层和Softmax激活函数输出11类调制方式的概率分布。网络各层的参数配置均经过精心设计,在保证性能的同时最大限度地降低了计算复杂度。
Figure 2. Structural architecture of the SE module network
图2. SE模块网络结构
3. 数据集与实现细节
本实验在Windows 11操作系统环境下开展,选用Python作为主要开发语言,并基于TensorFlow 2.5.0框架构建深度学习模型。为提升训练效率,系统配置了CUDA 8.1以启用GPU加速。实验所用硬件平台搭载Intel(R) Core(TM) i7-14700HX处理器及NVIDIA GeForce RTX 4070 Laptop GPU,为模型训练提供充足算力支持。
本实验数据采用RadioML2016.10a公开调制信号数据集,该数据集涵盖多种常用调制类型的IQ信号,同时引入多径衰落、高斯白噪声及频率偏移等信道损伤因素,能够有效模拟真实通信环境。该数据集共包含220,000组样本,涵盖8种数字调制与3种模拟调制共11类信号。每个样本以2 × 128的向量形式输入网络,其中2表示同相与正交分量,128代表信号序列长度。数据集覆盖从−20 dB至18 dB的信噪比范围,以2dB为间隔共包含20个不同信噪比等级。
在数据划分方面,按6:2:2比例将数据集随机划分为训练集、验证集与测试集。模型训练采用分类交叉熵作为损失函数,使用Adam优化器进行参数更新,批次大小设置为128。训练过程中引入动态学习率调整策略:若验证集损失连续5个训练周期未下降,学习率衰减为原值的0.5;若连续50个周期未下降,则提前终止训练并保存验证损失最小的模型参数。
4. 仿真分析
为验证本文提出的MDSA-Net信号调制方式识别模型在不同信噪比条件下的调制信号的识别性能,选用MCLDNN、CNN [8]、LSTM [9]、PET-CGDNN和IC-AMCNet [10]作为对比模型。所有模型在相同设置下进行训练与测试,各模型在RadioML2016.10a数据集上的不同信噪比条件下的识别准确度对比结果如图3所示。
Figure 3. Comparison chart of accuracy rates of different networks
图3. 不同网络准确率对比图
从图3能够看出本文提出的MDSA-Net调制方式识别模型和另外5种调制方式识别模型对信号调制方式进行分类所得的准确率随着信噪比的上升而上升,其中,在低信噪比区间(低于−8 dB),所有模型的分类准确率都显著受到了噪声的影响,表现普遍偏低且增长趋势一致。在此区间,CNN与IC-AMCNET模型的分类准确率低于其他模型。在−8 dB至0 dB信噪区间,所有模型的分类准确率都保持较高的增长速度。信噪比超过4 dB后,各网络分类准确率趋于稳定且性能差异开始显著,本文提出的网络模型、MCLDNN、PET-CGDNN和LSTM保持的较高准确率,本文所提的网络模型与MCLDNN分类准确率相近,分类准确率在92%左右,LSTM的分类准确率在91%左右,PET-CGDNN的分类准确率在90%左右,而CNN与IC-AMCNET的分类准确率均低于90%,分别为80%左右和86%左右。
在表1比较了本文提出的轻量级神经网络MDSA-Net与另外五个网络的参数量、计算量、单条样本测试时间和迭代次数。参数量反映模型的存储开销和表示复杂度,计算量反映每次前向传播的运算负担,单条样本测试时间体现推理延迟,迭代次数反映训练过程中需要的更新轮次或收敛迭代水平。这四项指标合起来能够比较直观地评估模型的复杂度、训练开销和推理延迟。从表1所示的模型复杂度分析结果可以看出,本文提出的MDSA-Net在模型效率方面展现出多方面的优势。在模型复杂度方面,MDSA-Net的参数量仅为36,896,显著低于其他对比模型,比参数量次优的PET-CGDNN减少了约48.7%,体现了极致的参数效率。在计算复杂度方面,MDSA-Net的8.37 M计算量同样表现优异,远低于MCLDNN的97.35 M和CNN的157.73 M,显示出其在计算资源使用方面的高效性。在训练效率方面,MDSA-Net仅需93次迭代即可收敛,这一指标优于CNN的106次和IC-AMCNET的140次,体现了其良好的训练特性。虽然在测试时间方面,MDSA-Net的6.07毫秒每样本并非最优,但仍优于MCLDNN的8.02毫秒,且在可接受范围内。这些综合指标表明,MDSA-Net在模型复杂度、计算效率和训练速度等方面取得了良好的平衡,特别适合在资源受限的环境中部署应用。
Table 1. Comparison of complexity among different networks
表1. 不同网络的复杂度对比
网络模型 |
参数量 |
计算量 |
测试时间(ms/样本) |
迭代次数 |
MDSA-Net |
36,896 |
8.37 M |
6.07 |
93 |
MCLDNN |
405,175 |
97.35 M |
8.02 |
91 |
CNN |
858,123 |
157.73 M |
1.61 |
106 |
LSTM |
200,075 |
50.83 M |
5.64 |
84 |
PET-CGDNN |
71,871 |
16.39 M |
4.95 |
86 |
IC-AMCNET |
1,264,01 |
29.69 M |
1.55 |
140 |
综上所述,虽然MDSA-Net的准确率与最优的MCLDNN相当,但其更低的参数量、计算量和测试时间使其在实践中更具优势,尤其适合需要高效计算和快速响应的应用场景。作为一个轻量级的模型,MDSA-Net尤其适合部署在资源受限的设备或边缘计算设备上,能够在这些平台上提供高效的计算能力。MDSA-Net在准确率和计算效率之间达到了良好的平衡,是一种在实际应用中具有高性价比的轻量级深度学习模型。
为验证本文提出的多尺度深度可分离卷积分支设计的合理性,本小节通过系统地移除或修改网络中模块,定量分析各组件对最终性能的贡献。本文选择5 × 1、7 × 1、9 × 1三种卷积核尺寸构建三分支结构,其设计基于如下考虑:在调制识别任务中,不同尺寸的卷积核对应于不同的感受野,能够捕获信号在不同时间尺度上的特征。较小的5 × 1卷积核适于捕捉信号的局部细节和快速瞬变特征(如相位突变);中等的7 × 1卷积核能够覆盖更典型的符号周期,提取更具代表性的时域波形结构;而较大的9 × 1卷积核则有助于建模更长程的依赖关系,识别如连续相位调制中的渐变趋势。选择三个分支旨在模型复杂度和特征丰富度之间取得平衡:分支过少可能无法充分覆盖特征尺度,而分支过多则会引入不必要的参数冗余,导致精度提升的边际效益递减。为评估多尺度设计的合理性,设计以下消融变体:Model-A (Baseline):完整的三分支架构,包含所有三个不同核尺寸的DWConv分支。Model-B (双分支):移除9 × 1的DWConv分支,仅保留5 × 1和7 × 1两个分支,以验证大感受野分支的贡献。Model-C (单分支):仅保留中间尺寸的7 × 1 DWConv分支,移除其他两个分支,评估多尺度设计相对于单尺度的优势。
各模型在RadioML2016.10a数据集上的性能对比如图4所示,复杂度与准确率指标详见表2。从图4中可以观察到,缺乏多尺度深度可分离卷积分支的Model-C在高信噪比(SNR大于0 dB)范围内的表现明显逊色于具有双分支结构的Model-B以及完整的MDSA-Net模型。相比之下,完整的MDSA-Net相较于双分支架构略有提升,表明大感受野分支对提高网络准确率具有一定的积极作用。
表2进一步说明了不同分支结构对网络性能的影响。从表中可以看出,虽然三种模型在参数量和计算量上差异不大,但Model-A (MDSA-Net)在准确率表现上明显优于其他两个模型。Model-A的最高准确率为92.68%,略高于Model-B的92.36%和Model-C的91.68%。在0~18 dB范围内,Model-A的平均准确率为91.46%,也优于Model-B的91.33%和Model-C的90.40%,显示出它在高信噪比条件下的优势。整体而言,三种模型的参数量和计算复杂度差异较小,但Model-A凭借其在准确率上的优势,尤其在高信噪比环境下,显示出最佳的整体性能。这也说明了本文所提出的多尺度深度可分离卷积分支设计能够在保持低复杂度的同时,使模型获得较高的准确率性能。
Figure 4. Comparison chart of ablation experiments
图4. 消融实验对比图
Table 2. Comparison of complexity among different networks
表2. 不同网络的复杂度对比
网络模型 |
参数量 |
计算量(FLOPS) |
最高准确率 |
0~18 dB平均准确率 |
平均准确率 |
Model-A (MDSA-Net) |
36,896 |
8.37 M |
92.68% |
91.46% |
61.99% |
Model-B (双分支) |
35,921 |
8.21 M |
92.36% |
91.33% |
61.67% |
Model-C (单分支) |
35,246 |
8.11 M |
91.68% |
90.40% |
61.29% |
5. 总结
本文针对现有自动调制识别模型在资源受限场景下部署困难的问题,提出了一种轻量级多尺度特征融合网络(MDSA-Net)。该网络融合了多尺度深度可分离卷积、通道注意力机制与LSTM时序建模模块,在保证识别精度的同时,显著降低了模型的参数量与计算复杂度。通过在公开数据集RadioML2016.10a上的实验验证,所提模型在不同信噪比条件下均表现出优异的识别性能,尤其在模型效率方面具有明显优势:参数量仅为36,896,计算量为8.37 M,远低于传统复杂网络,同时具备较快的收敛速度与可接受的推理延迟。MDSA-Net在准确率与计算效率之间取得了良好平衡,尤其适用于边缘计算设备与物联网终端等资源受限环境中的实时调制识别任务。未来的研究工作将进一步探索模型的量化与剪枝优化,以进一步提升其在实际系统中的部署能力。