1. 引言
现代通信系统受制于不断增长的吞吐量需求。为了满足该需求,基站(Base Station, BS)通常配备多天线,同时与多个用户通信,以提高频谱效率 [1] 。这种多用户多输入多输出(MIMO)系统的主要挑战之一是如何进行符号检测,即实现在BS端进行由上行通道传输的多个符号的恢复工作。然而,一些基于深度展开方法提出的接收机通常都假设有高斯噪声的线性信道,其中信道状态信息(Channel State Information, CSI)是提前假设已知的 [2] 或者是从导频信号 [3] 中估计出的。因此,尽管机器学习在这些接收机的设计中取得了较好性能的应用,但是这些方法并没有捕捉到机器学习独立于模型的潜力,并且只适用于特定的信道模型和相关的信道设置。
文献 [4] 设计了一种数据驱动的接收机,从标记数据集中实现已有的软迭代干扰消除符号检测算法 [5] 。然而该模型中DNN构建块的学习是独立的,当其数量很多时,所需的训练时间成本会大幅增加,系统收敛速度慢。这一特性在MIMO系统中则会显得尤为突出。近期的一项工作 [6] 针对含智能反射面(Reconfigurable Intelligent Surface, RIS)辅助的MIMO系统,提出了一种联合优化RIS和DNN接收机网络参数的贝叶斯机器学习框架,然而由于贝叶斯优化中迭代周期的存在和周期性的发送导频的特点会进一步增加网络的训练成本。
针对上述问题,本文提出了一种基于元学习 [7] [8] 的接收机学习算法。该算法结合现有的接收机结构采用元学习的学习方式,对系统进行基于任务的划分。在任务内和任务间的更新采用独立的数据集,使得网络在训练的过程中网络参数会逐步向初始更优的方向靠拢,在新任务的学习上将更快的适应,并提升系统的性能。
2. 系统模型
在由RIS辅助的上行的MIMO系统中,考虑为蜂窝网络的单小区,其中装配了N个天线的基站为K个用户终端服务,RIS含有P个单元。该系统由三个基本部分组成,包括基站,用户终端和RIS。对系统基于任务的划分后,用户终端与环境(RIS)相关的符号集合可视为独立的任务(Task),系统模型可简化为图1。这里假设基站端装配了DNN接收机 [4] ,通过训练DNN接收机实现符号检测。在每个时隙t中,用户终端发送已知的导频信号,记为
,其中
表示为离散的星座集,其大小记为M (符号的种类数)。对于线性高斯信道,基站端接收的符号可表示为 [9] :
(1)
其中
,
表示相移矩阵且下标p代表第p个RIS单元。
表示RIS单元与用户之间的无线信道增益矩阵(
,
,该向量表示第k个用户到RIS之间的信道)。
表示基站和RIS之间的信道。
表示基站和用户终端之间的直接链路信道(
表示第k个用户到基站的直接链路信道)。此外
表示方差为
的加性高斯白噪声(Additive White Gaussian Noise, AWGN)向量,通常被建模为均值为零且其协方差矩阵为
。
基站端装配DNN接收机结构如图2,该接收机实现了传统的迭代干扰消除方法,利用深度展开的方式,将原有的算法流程中的部分复杂计算利用DNN进行替代,利用深度学习进行建模并扩展为与信道模型无关的实现。
该接收机采用迭代方式来实现干扰消除,对于第k个用户来说,将其他用户传输的符号视干扰符号。符号检测器以迭代进行操作:在每次迭代
中,对于给定信道输出
,关于用户符号
的条件概率分布的估计用
表示,对每个用户
来说,使用前一次迭代中得到的干扰符号
的估计作为下一次迭代的输入。这里,用
表示为在每个时隙中由第k个用户传输的符号。符号间的干扰是通过连续的迭代进行消除,其中最后一次迭代的DNN输出用于硬判决的方式译码。具体的DNN结构如图3所示的全连接型神经网络,其输入包括信道的输出(复数需要进行实部和虚部的拼接处理)和上一次迭代的DNN输出,优化器采用Adam。
对于
对信道的输入和相应输出的数据集
,将
表示为对应的
关于输入
、第k个DNN在迭代次数q时的网络参数
以及上一次迭代过程中的输入
的表达式,则交叉熵损失可以表示为:
(2)
其中,
表示与
相关的前一次迭代的符号条件概率。
3. 学习过程与算法设计
3.1. 学习过程
系统基于任务的划分后,第k个Task用
表示其数据集。接收机的学习过程可分为三个阶段。分别是元训练、元适应、和测试阶段。下面首先介绍一些基础定义和数据集的具体划分,然后介绍学习的各个阶段。
1) 基础定义与数据划分
对于第k个Task数据集,需要为元训练阶段提供两个数据集,即支持数据集(Support Set)和查询数据集(Query Set),分别表示为:
和
。数据集满足
,以提升网络的泛化能力。对于元学习来说,最终目的是寻找到适用于各任务的初始元网络参数
。在元网络参数更新完毕后需进行元测试过程,为避免与机器学习中数据测试相混淆,用元适应来表示这一过程,其含义为:由元参数出发适应到各个任务的最优参数。元适应阶段最后将得到各任务训练完毕的网络参数,然后进行性能的评估验证,即进行测试过程。适应集(Adaption Set)和测试集(Test Set)分别表示为
和
,其具体划分与元训练阶段的数据集相同,且来自与同一分布(即数据集来自于各个用户的符号集合)。
2) 元训练过程
在元训练阶段,元学习算法的目标是学习一个能够有效适应新任务的网络初始化参数
。DNN的参数初始是由随机生成的,然后通过两个迭代过程进行更新,即任务内部更新和任务外部更新。在任务内部更新时,对于任务k来说,其独有的关于DNN的网络参数用
表示。内部更新目标是通过在数据集
上最小化损失函数(遵循式2),用
表示任务k的损失,通过内部迭代更新参数
。其中任务k的网络参数
初始化为元网络参数
,然后通过下式进行梯度下降以更新内部网络参数:
(3)
内部更新的学习率用
表示。在任务外部更新时,所依赖的数据集为
,进行的是元网络参数
的更新。统计各个任务基于查询集的总损失,可表示为:
。其中
表示任务集合(不同用户的符号集合)。由此得到外部更新的方式为:
(4)
外部更新的学习率设置为
。式4的更新涉及高阶导数的计算,为降低计算成本,进行梯度简化,现考虑内部网络进行了m次梯度下降(为简单起见,忽略损失对下标的依赖,且任务内部损失用
表示,外部损失用
表示),网络参数变化如下式:
(5)
然后对外部损失
运用链式法则展开,得到:
(6)
由此可见,元网络参数
的更新涉及二阶求导。采用一阶导数来简化二阶导数的计算,用来降低神经网络的计算成本。文献 [8] 中指出大多数二阶梯度的计算中,其结果近似于零,因此可忽略二阶项,用一阶导数代替,即外部更新中关于
的梯度可近似为:
。因此式4中的梯度可近似为
。梯度简化操作在性能上略微降低但同时提升了训练速度。
3) 元适应和测试过程
在元适应阶段,元学习算法旨在对适应集
上的网络进行微调,使网络能够尽可能准确的在测试集
取得良好的性能。对于第k个任务,将元训练阶段学习到的元网络参数
赋值给任务k独有的DNN网络参数,然后通过梯度下降在适应集上进行参数微调。该步骤的梯度更新由下式决定:
(7)
其中适应阶段的学习率用
表示。当适应阶段完成后,便获得任务k的最优参数
。最后使用测试集
评估DNN网络性能,即通过误比特率(Bit Error Rate, BER)的大小判断该DNN进行符号检测的能力。
3.2. 算法设计与分析

Table 1. Receiver training algorithm based on metalearning
表1. 基于元学习的接收机训练算法
结合数据集的划分、各学习过程和DNN接收机的结构,提出的基于元学习的三阶段的学习算法如表1。执行之前需要进行初始化,即初始随机生成网络参数
适用于各任务并设置各任务初始的输入条件概率为均匀分布即
且
。算法主要包括内部更新,外部更新和适应阶段。在步骤3中,所有的任务是并行执行的。在步骤8中数据集
(简写形式)表示由内部更新的网络得到的组合数据,
和
分别表示支持集和查询集中数据对的数目。步骤1~12中由元训练阶段更新的元网络参数
将作为步骤13~21 (适应阶段)的初始网络参数,由此出发在适应集上得到该任务的最优参数。
步骤16~17称为“继承”。该步骤的目的是在接收机训练迭代中,第q次迭代产生的网络参数可作为第
次迭代的初始参数,以便更快的适应网络,这是因为该接收机结构是基于迭代的干扰消除方法,第
次迭代所得到的网络可以认为是含有干扰消除的相关知识,因而可被下一次迭代的网络利用。元训练阶段中其内部更新的步数通常设置的不高,原因是元更新的目的更看重初始化的能力,而非让所有任务均取得最优(容易导致过拟合)。下面将以元训练阶段外部更新的损失(即
)解释元学习的泛化能力:
(8)
这里用上标(t)表示第t次外部更新。为便于分析,设置内部更新的迭代次数为1 (即
)。外部更新损失进行一阶泰勒展开,得到式8。该式的第一项为查询集的总损失,第二项为支持集和查询集上梯度的负内积和。当两个梯度的方向越接近时,则负内积越小,因而总损失越小。这说明在元训练阶段外部更新的过程中,试图最大化查询集与支持集之间梯度的相似性。这增强了查询集与支持集之间的泛化能力,因此当更新的元网络参数应用于新任务时,将会更快的适应。
4. 实验设计与分析
本节首先验证上述基于元学习的接收机(以下将简称为MetaDNN)算法,首先对该接收机算法进行测试,而后在不同信道模型下和不同的接收机进行性能比较测试。
4.1. 级联信道模型下接收机性能
当信道模型为级联模型(服从式1的相关建模)并设置用户、RIS和基站的坐标分别为[0, 0],[30, 30]和[60, 0],单位(m)。其中各信道
的衰落因子分别设置为0.7,0.8和0.9,信噪比定义为
。将
和
建模为瑞利信道,其每一列分别为
和
,其中
为路径损耗因子
(每一列均由复高斯分布随机产生)。信道矩阵
可建模为莱斯信道:
(9)
其中
和
分别表示莱斯因子(10 dB)和路径损耗。上标“LOS”和“NLOS”表示信道的视距和非视距成分,且该信道分量均由标准的高斯信道矩阵随机产生。整个系统为10 × 10的MIMO,星座集采用QPSK,RIS单元数量P为256。仿真环境为Python,测试框架为Pytorch。算法1中各主要参数设置如表2所示:
该算法的性能如图4,信噪比(Signal Noise Ratio, SNR)为11 dB的不同方案的性能比较。由随机初始网络参数方案中有无继承可以得出,继承的使用将加快网络收敛速度,在初始随随机的方案中,网络收敛从500步开始,而使用继承后收敛从250步开始。从元学习的对比也可发现,在元学习的方案中收敛最初从50步开始,相较于随机初始方案,收敛的速度得到很大的提升。然而继承的使用在性能上的提升不明显,当迭代的步数足够大时,无论有无继承,性能收敛值BER均接近10−3。综合比较可以得出元学习算法在网络收敛能力上提升较大,且在系统性能上有一定提升。

Figure 4. Comparison of performance for different simulations
图4. 不同方案性能比较
接下来考虑基于元学习算法的接收机和其他传统接收机的性能比较。即比较基准包含迫零检测器(Zero Forcing, ZF)、最小均方准则检测器(Minimum Mean Square Error, MMSE) [10] 和球体解码器(Sphere Decoder, SD) [11] 。需要注意的是,接收机ZF,MMSE和SD作为对比方案时,具有完整的CSI,与译码规则有关,且SD是一种次优的解码器,是最大似然译码方法的高效实现。基于DNN的接收机不需要CSI,用信道输入输出的符号对来进行数据驱动。

Figure 5. Comparison of different receiver performance
图5. 不同接收机性能比较
如图5所示,传统的接收机ZF和MMSE在具有CSI的情况下,其性能在SNR较小时均较差,然而基于元学习的接收机性能虽然比次优的SD性能稍差,但在SNR相同时其性能差异不大,例如同时取得BER为10−3时,其所需的SNR差异接近0.6 dB。当SNR逐渐增大时,其性能差异逐渐显现。这是由于当SNR较大时,噪声的影响逐渐减小,相较于利用CSI的方式,由数据驱动的学习方式对噪声变化不敏感,因而,改善的幅度不如利用CSI的方式。
4.2. 非级联信道模型下接收机性能
本节中考虑的是一个更复杂的信道模型,并验证MetaDNN接收机的性能。与级联模型不同,这里采用了一种更复杂的物理衰落信道模型PhysFad [12] ,它是一种基于物理层的由RIS参数化辅助且衰落可调的端到端模型。由RIS辅助的无线信道通常由收发天线、RIS单元和散射环境三部分组成。PhysFad将这三个实体建模为具有特殊属性的偶极子或一组偶极子的集合,根据这些偶极子组合成一个信道模型并生成端到端的信道矩阵。值得注意的是,该建模方法用于二维(2D)场景,系统由偶极子描述,该偶极子用一组参数
表征。本文不涉及该参数的专业物理学含义的解释,关于详细参数的物理含义参考原文献。

Figure 6. 2D system modeling based on PhysFad
图6. 基于PhysFad的2D系统建模
图6是基于文献中的建模方法所设计的2D FhysFad模型简图(单位:m)。通信系统中的实体均被建模为偶极子,系统包括发送天线(TX)、接收天线(RX)、散射环境(Scat.Env)、散射体(Scatters)和RIS。该图为一个小型的5 × 5 MIMO系统(具有金属外壳的内部环境,RIS分布在墙壁两侧)。在该模型中对系统中的各个实体进行了固定,即采用文献中提到的默认参数,产生莱斯因子为10 dB的端到端的莱斯分布信道矩阵。由此得到的仿真结果如图7,由此可见非级联模型下的性能趋势下和级联模型的仿真结果的趋势基本一致。然而,在信噪比均定义为的情况下,由于信道环境的改变,需要更大的信噪比才能获取较好的性能增益。
观察到当SNR在12~18 dB时MetaDNN和SD的性能接近,然后性能差异开始扩大,这是基于SD接收机拥有完美CSI,而MetaDNN通过数据驱动的方式,当无CSI可用时,MetaDNN在少量样本的情况下依然可以达到较好的性能。

Figure 7. Comparison of receiver performance for the PhysFad model
图7. PhysFad模型下各接收机性能比较
5. 结论
本文提出一种基于元学习的DNN接收机(MetaDNN)学习算法,该算法在通过多阶段的学习得到适用于新任务即符号集合的初始网络参数,能够快速适应新的任务,并以少量的迭代次数使得网络快速收敛并同时提升系统性能。仿真结果表明相较于传统依赖CSI的检测器ZF、MMSE,MetaDNN在无需CSI的情况下依然有更好的性能且性能接近次优的SD检测器。在级联和非级联模型中均取得了相似的结果表明该算法对于不同信道模型的有效性。