1. 引言
在光通信、光学成像和智能传感等前沿领域,光模式识别作为一种关键技术,承担着信息提取与解码的重要角色。特别是在多模态光通信系统中,不同空间模式通过模式分复用可显著扩展带宽容量,偏振分复用(PDM)可实现100%增益,模式分复用(MDM)进一步提升,特别在5G网络中满足高带宽需求[1] [2]。而在高精度传感和光场重构任务中,准确识别和追踪光模式更是决定系统感知精度与鲁棒性的核心因素[3] [4]。
然而,尽管光模式识别技术在某些场景下已实现工程化应用,但现有的主流方法仍存在诸多局限。传统上,数字信号处理(DSP)技术被广泛采用,虽然其具备一定的灵活性,但依赖电–光转换来获取光场数据,进而进行复杂运算。这种方式在处理大规模输入时,往往因计算负担过重和能耗过高而难以满足实时性需求[5]-[8]。在光通信场景中,DSP方法通常引入纳秒到微秒级别的处理延迟,可能影响高实时性要求的系统效率[9]。另一方面,基于光学元件的方法如光栅或光学滤波器,在特定模式选择上高效,但因其静态设计,缺乏对动态多模光场环境的适应性,难以满足复杂通信场景的需求[10]。近年来,全光计算范式的兴起为解决上述问题带来了新的希望。基于衍射结构的光学神经网络(Diffractive Neural Networks, DNNs)以其独特优势逐渐受到关注[11]-[13]。这种技术直接在光域内完成信息调控,展现出天然的并行性和低功耗特性。已有研究表明,DNNs在图像识别和边缘检测等任务中取得了令人瞩目的成果,其核心在于对光场传播过程的精细调控能力,能够高效处理复杂的光学信息[14] [15]。然而,针对复杂光场的研究多集中于OAM模式的识别[16] [17],而对线性偏振(LP)模式的研究相对较少,这主要源于其强度分布特性复杂、模式耦合和串扰严重,导致高效全光学识别方法匮乏,限制了其在高维信息编码中的应用[18]。尽管如此,LP模式作为光纤通信中常见的传输状态,因其良好的正交性和模分复用能力,仍被认为是下一代光通信技术的重要调制方式[19]-[21]。在纯光学域内准确识别具备复杂空间干涉特性的叠加模式,对神经网络结构设计提出了更高要求。
基于此,本文提出了一种基于DNNs的全光学光模式识别系统,专注于LP模式的建模、仿真和分类识别任务。通过理论建模与数值仿真的结合,本文首次构建了一个融合拉盖尔–高斯模式叠加的复数光场数据集,并设计了包含四层衍射层的可训练网络结构,以实现对输入模式的精确判别。这项研究不仅验证了更灵活、低功耗全光计算系统的可行性,也为未来光学智能信息处理硬件的设计提供了重要的技术参考。
本文的主要贡献可以概括为以下几点:首先,我们系统性地构建了一套全光域的识别流程,利用多层衍射相位调控结构对输入光场进行调制与转换,成功实现了对常见LP模式的高效分类识别,避免了传统方法中繁琐的电光转换过程,展现出低功耗与高并行度的优势;其次,针对LP模式的空间特性,我们设计了一种结合广义拉盖尔多项式与随机相位叠加的复振幅建模方法,真实模拟了多模光场干涉效果。这项工作不仅在仿真层面验证了系统的潜力,也为未来硬件集成奠定了基础,例如与现有光纤通信系统的兼容性提供了可能。
2. 仿真方法与系统设计
为了验证基于DNNs的光模式识别系统的可行性,本文通过数值仿真构建并优化了一个专门针对LP模式识别的计算框架。本节将从理论基础、数据集构建以及模型架构与训练设计三个方面展开详细讨论。
2.1. 理论基础
光模式识别的核心在于精确描述和区分光场的空间分布特性。LP模式作为光纤中常见的传输模式,其复振幅分布在自由空间中可以通过拉盖尔–高斯(LG)模式进行近似表达。LP模式的电场分布可以用以下公式表示:
(1)
其中,l和p分别表示角向和径向量子数,r和
为极坐标系下的径向和角向坐标,
为光束腰斑半径,
为广义拉盖尔多项式。这一数学近似能够有效刻画自由空间中的光场分布特性。例如,当l = 0,p = 0时,LP01模式的电场呈现出典型的高斯光束形状,这为我们模拟基本传输状态提供了便利。
在DNNs框架中,光场的传播模拟采用了基于菲涅耳衍射理论的角谱法。这种方法适用于自由空间光场传播的精确计算,其基本原理是通过傅里叶变换实现光场从输入平面到输出平面的传播。对于输入光场
,其在距离z处的输出光场
可通过以下关系式计算:
(2)
其中,
和
分别表示傅里叶变换和逆傅里叶变换,
为角谱传播的传递函数,定义为:
(3)
其中,k为波数,
为波长,
和
为空间频率。角谱法通过快速傅里叶变换实现高效计算,在光学仿真领域应用广泛。在本文的研究中,波长设定为632 nm (氦氖激光的典型波长),传播距离z为4 mm。角谱法的计算效率优势在于其频域滤波机制,避免了空间域直接卷积的高计算成本,尤其在处理高分辨率光场数据时表现尤为突出。
2.2. 数据集构建
为了研究LP模式的识别问题,我们通过数值模拟构建了一个大规模数据集。本文选取了LP01、LP02、LP11和LP12四种模式,通过随机叠加2到4个模式生成复振幅光场作为输入信号,每个样本包含振幅和相位两部分信息。复光场的数学表达为:
(4)
其中,N为叠加模式数量,
为随机相位,均匀分布在(0, 2π)范围内。数据集总规模为2000个样本,其中1500个用于训练,500个用于测试。样本图像的分辨率为600 × 600像素,像素大小为1 μm,波长设定为632.8 nm。选择此波长是考虑到其在实验室中常见的氦氖激光器波长,确保仿真结果与实际光学系统的兼容性。通过随机叠加不同LP模式,我们模拟了实际应用中可能遇到的复杂光场分布,为模型训练提供了多样化的输入条件。
数据集的生成过程包括以下步骤:首先,基于上述公式(1)计算单个LP模式的复振幅分布,其中径向部分通过拉盖尔多项式近似,角向部分采用余弦函数表示;随后,为每个模式引入随机相位并进行叠加,确保模拟真实干涉效果;最后,对叠加后的光场进行功率归一化,提取振幅和相位分布,并保存为图像文件。为了进一步贴近实际场景,我们在生成输出光场时,考虑了不同模式的空间分布特性,例如LP01模式能量集中在中心区域,而LP11模式则呈现角向双瓣的对称分布。这种设计确保了训练数据覆盖了多种可能的模式组合特征,有效增强了模型的泛化能力。数据集通过多次迭代生成累计达到2000组样本,确保了数据的多样性和代表性。LP模式的选择涵盖了从低阶到高阶的多种特征,同时随机相位的引入模拟了真实环境中的噪声干扰,进一步提升了数据集的实用价值。
值得一提的是,尽管光纤中的LP模式通常可用贝塞尔函数更精确地描述,但考虑到本研究聚焦于自由空间传播场景,本文采用了拉盖尔多项式的近似方法。这一选择在计算复杂度上更具优势,尤其是在大规模数据集生成中,能够显著提高效率。此外,本文还对生成的样本进行了强度和相位分布的可视化验证,确保模式叠加后形成的复杂干涉图案与理论预期一致,例如高阶模式呈现出更多的空间振荡特征,而低阶模式则表现出更集中的能量分布。这种验证过程为数据质量提供了保障。
2.3. 模型设计与训练
在模型设计上,本文构建了一个包含四层衍射层的DNNs架构(如图1),每层衍射层都包含可训练的相位调制参数,参数范围设定为0到2π,通过优化调整实现对光场的精确调控。光场在层间的传播基于角谱法计算,传播距离统一设为4 mm,以确保衍射特征的充分展开。最终,在最后一层的输出层提取输出光场的振幅和相位信息,作为模式识别的依据。这样的分层结构设计,模拟了实际光学系统中光场通过多层衍射元件传播的过程,充分利用了光学的并行计算特性,能够高效处理复杂光场信息。
训练的目标是让DNNs准确识别输入LP模式的特征。为此,本文设计振幅损失采用均方误差(MSE)计算,并且乘以100的权重,以快速优化强度分布的匹配。训练过程中,我们选用了Adam优化器,初始学习率设为0.01,批量大小为10,总共迭代7个epochs。Adam优化器通过自适应地调整梯度均值和方差的估计,显著提高收敛速度,尤其适合光学数据这种具有复杂特征的场景。7个epochs的迭代次数则是通过试验确定的,既避免了过拟合,又确保了模型具备足够的泛化能力。训练过程中,每完成一个epoch即进行一次测试,以监控模型的收敛性和性能表现,同时记录损失变化趋势,便于后续分析模型的学习动态。
这种损失函数的设计在处理复杂叠加模式时,能够有效捕捉光场的空间特征。此外,我们还对模型参数的变化进行了监控,通过可视化手段分析各层相位调制参数的分布和变化趋势。此模型的训练周期的耗时约30 min (CPU: Intel(R) Xeon(R) Platinum 8474C; GPU: RTX 4090D),如果减少迭代周期至4个epochs以下,则可以在20 min左右完成。
Figure 1. Schematic diagram of multi-layer diffractive neural network for optical mode recognition tasks
图1. 用于光学模式识别任务的多层衍射神经网络示意图
3. 实验结果与讨论
我们评估了DNN系统在LP模式识别任务中的性能,分析了损失函数变化和识别准确率。训练和测试过程中的振幅损失函数变化显示,模型在前2个epochs内快速收敛,随后逐渐趋于稳定。具体而言,振幅损失从初始值0.63下降至0.018左右。这表明模型对LP模式强度分布的学习能力较强。图2展示了
Figure 2. The trend of MSE loss with the training epoch
图2. 均方差损失随训练周期的变化趋势
损失随epoch的变化趋势,直观呈现了模型的收敛过程。进一步分析损失变化的原因,进一步分析损失变化的原因,我们认为损失函数的快速下降得益于模型对低阶模式特征的快速学习,以及优化器的高效收敛性能,使得强度分布的匹配得以优先优化。值得注意的是,训练和测试损失在后期趋于一致,表明模型未出现明显过拟合,具备较好的泛化能力。
在光场模式识别性能的评估中,本文通过仿真实验对系统进行了详细分析。实验中,输入光场由四种不同的LP模式(LP01、LP02、LP11、LP12)随机叠加而成。如图3所示,实验结果表明,模型在500个测试样本上的识别精度非常高,约94.6%的样本振幅损失低于预设的0.03阈值,平均振幅损失为0.01568,表明大多数样本的识别误差较小,模型能够准确识别输入光场中的光学模式。
Figure 3. Distribution of mean square error loss of the test set
图3. 测试集中均方差损失分布
具体来说,低阶模式(如LP01)的识别效果尤其突出,其振幅分布与目标几乎完全一致,主要能量分布区域与目标高度吻合。尽管高阶模式(如LP11)存在轻微的偏差,整体性能依然令人满意。进一步分析不同模式的识别性能差异时,我们发现,低阶模式(如LP01)具有相对简单的空间分布(呈高斯形状),因此模型能够较为迅速地捕捉其特征。而高阶模式(如LP12)则包含更多复杂的空间振荡和干涉特征,这使得模型在相位匹配方面表现略逊,导致在边缘区域出现轻微的失真。图4展示了部分输入信号、输出结果和目标结果的强度分布对比。如图4(a)~(f)我们列举了对两种模式的复光场进行识别的结果可以明显看到,低阶模式的预测结果与目标几乎完全一致,而小部分高阶模式的预测在边缘区域存在轻微失真。图4(g)~(j)为对三种模式叠加的复光场识别的结果与目标结果的对比,图4(k)与(l)是不同引入随机相位的四种模式叠加的复光场的识别结果。此现象进一步验证了模型在处理不同模式时的性能差异,尤其是在高阶模式的处理上,仍有进一步优化相位匹配策略的空间。
与传统方法相比,DNNs系统展现出显著优势。其全光学计算框架完全避免了电–光转换,直接在光域内完成模式识别,不仅大幅降低了功耗和延迟,还展现出更高的灵活性。通过训练优化相位参数,DNNs能够自适应处理不同模式的输入光场,相比基于固定光学元件的方法,DNNs具有更广泛的适应性。模型的训练周期的耗时约30 min (CPU: Intel(R) Xeon(R) Platinum 8474C; GPU: RTX 4090D),这展现了DNNs在处理大规模光场数据时的效率潜力。相比之下,DSP方法因需要频繁的电–光转换和复杂后处理,而DNNs直接在光域操作的优势则显得尤为突出。1500个训练样本的大规模数据集进一步增强了模型的泛化能力,使其在测试集上保持了高识别精度。
Figure 4. Comparison of recognition results of modes in complex light fields using DNNs
图4. 使用DNNs对复杂光场中的模式进行识别结果对比
至于数据集生成方法的选择,我们采用拉盖尔多项式结合
来生成LP模式的复振幅分布,主要基于自由空间传播场景的考虑。拉盖尔多项式结合高斯衰减项能够有效描述自由空间中的光场分布,同时计算复杂度较低,非常适合快速生成大规模数据集。我们的设计充分考虑了实际光场干涉的随机性,例如通过随机选择模式数量和相位,为模型训练提供了多样化的输入条件。未来,我们计划结合贝塞尔函数生成更贴近光纤环境的模场数据,以进一步验证模型的适应性。
当然,当前研究也存在一些局限性。仿真中未考虑实际光学系统中的噪声影响,这可能会对系统的鲁棒性构成挑战。后续可以在输入信号中引入噪声,可以在数据集生成阶段添加随机噪声项,模拟实际光学系统中的散射或热噪声影响,从而增强模型在真实环境下的适应性和对噪声的鲁棒性。此外,我们还考虑对损失函数进行动态调整,例如根据训练阶段调整振幅和相位损失的权重,以更好地平衡两者的优化过程。这些改进方向将进一步推动DNNs在光模式识别领域的实用化进程。
4. 总结与展望
通过本研究,本文提出了一种基于衍射光学神经网络的光模式识别系统,并通过仿真实验验证了其在LP模式识别中的应用潜力。实验结果表明,基于1500个训练样本和500个测试样本的训练,系统在测试集上的有94.6%的数据振幅损失小于0.03 (100倍均方误差),充分展现了其高效,准确以及高适应性的特性。这项工作为全光学信息处理提供了一种全新的解决方案,尤其在光通信领域具有重要的潜在应用价值。
尽管当前研究主要基于仿真验证,但为后续的实验研究和实际应用奠定了基础。首先,我们计划接下来继续引入噪声模型以优化系统在复杂环境下的鲁棒性。此外,我们还希望将系统扩展到其他光模式(如Hermite-Gaussian模式)的识别任务中,进一步拓宽其应用范围。我们相信DNNs将在光模式识别领域实现更广泛的实用化,为下一代低功耗、高效率的光学计算系统开辟新的可能性。
致 谢
本论文的完成离不开导师与同门的帮助和支持,在此谨致以最诚挚的谢意。
基金项目
本研究由中国国家自然科学基金(12304400)、上海市教师专业发展项目——上海市青年教师培养资助项目、上海市科技重大专项、上海市前沿科学中心计划(2021~2025年第20号)、上海市科技创新行动计划(23JC1403100和24JD1402700)资助。
NOTES
*通讯作者。