1. 引言
近年来,大数据和通信技术的蓬勃发展为遥感卫星提供了独特的价值。例如,通过遥感卫星数据,可以实现智能交通 [1] ,以及风力发电机的最优部署 [2] 。然而,遥感卫星自身计算资源有限,对于自身难以处理的计算任务需要将其通过卫星中继卸载至地面云计算中心进行处理,当大型计算任务进行传输时会产生巨大的传输时延,这对于实时任务来说是不可接受的。通过在低轨卫星上部署MEC服务器形成卫星边缘节点 [3] [4] ,将遥感卫星产生的计算任务放在低轨卫星上进行处理,节省了大量的传输时延 [5] [6] 。然而,由于低轨道卫星的能源有限,其运行时间的50%都是在背阳面,当处于背阳面时无法补充能源,过度使用能源可能会缩短其寿命。因此,如何在能源受限的条件下实现以低轨道卫星辅助的遥感卫星计算卸载,是当前面临的挑战。
在过去几年中,低轨卫星在性能和计算能力方面实现了显著的飞跃 [7] 。比如,SpaceX公司已经将逾三万台搭载Linux操作系统计算机的低轨卫星投放到太空。2022年3月,我国推出了首颗批量制造的近地轨道宽带通信卫星,该卫星经过升级后的单星CPU主频达到了1.2 GHz,内存容量为8 GB,总线带宽则为2.5 Gbps [8] 。这些研究说明了低轨卫星已经开始拥有处理计算任务的能力。2021年11月,我国成功发射的高分三号02星,可在特定观测模式下实时进行数据处理,大大节省了以小时为单位的地面图像获取和处理流程 [9] 。亚马逊成功地在低轨道卫星上运行了AWS计算和机器学习软件套件,通过此套装,用户可以直接在其轨道卫星上收集并分析有价值的空间数据。而且,它还能自动分析在轨的大量原始卫星数据,仅留下关键图像用于存储和深入分析,这不仅降低了成本,还加快了决策速度 [10] [11] 。然而,在上述的研究中,尚未充分利用低轨道卫星的计算资源,这导致在面对大量遥感卫星任务产生时,计算资源遭遇短缺,从而增加了任务处理的延迟。针对边缘计算架构下的计算卸载研究已有很多,例如,文献 [12] 研究卫星边缘计算中协同计算方法,允许多个具有计算能力的卫星执行计算任务,使卫星网络能耗最小化。但是上述研究中,主要研究以星地融合网络来辅助地面终端进行计算卸载,并未针对遥感卫星任务。
为了解决上述问题,本文提出了一种基于Dueling DQN [13] 的遥感卫星任务计算卸载策略,该策略的目标是在能源受限的条件下优化能源消耗。通过这种策略,可以更充分地利用低轨道卫星的计算资源,并在最大程度上,减少遥感卫星任务处理的能源消耗。
2. 系统模型和问题描述
2.1. 系统模型

Figure 1. LEO Satellite network architecture diagram
图1. 低轨卫星网络架构图
如图1所示,在低轨卫星计算卸载场景中,系统由遥感卫星,卫星边缘节点,地面云计算中心构成。在该场景中,对于遥感卫星产生的计算任务根据当前系统中设备资源状态选择卸载设备,可选择的卸载设备依据当前时隙覆盖区域所观测到的设备进行卸载,包括遥感卫星设备自身、卫星边缘节点以及地面云计算中心。
为了便于表达和分析,定义遥感卫星的集合为
,所有遥感卫星产生任务的集合为
。假设遥感卫星
产生了一个数据大小为
的计算任务
。本文采用一个元组
表示每个遥感卫星产生的计算任务
。这里
表示遥感卫星
产生的计算任务
的数据大小,单位为bits;
表示遥感卫星
产生的计算任务
所需的CPU周期数,单位为cycles/bit。本文考虑多个卫星边缘节点,卫星边缘节点的集合为
,环境中时隙为t,由于卫星的动态性,对于不同时隙的遥感卫星来说,其可选择的卸载对象是时变的。
2.2. 通信模型
在本文中,设备之间通信采用端到端的通信方式进行通信,遥感卫星到卫星边缘节点的传输速率
可表示为:
(1)
其中,
为星间链路的带宽;
为遥感卫星的传输功率;
为噪声功率。
同理,卸载到地面云计算中心传输速率
可表示为:
(2)
其中,
为星地无线链路的带宽,
为地面云计算中心传输功率。
2.3. 计算模型
在本文中对于每个遥感卫星产生的任务不可分割,单个完全卸载。
2.3.1. 遥感卫星计算
遥感卫星执行计算任务的能耗可表示为:
(3)
其中,
表示能量因子,
为遥感卫星
的计算能力,
表示遥感卫星
产生的计算任务
的数据大小;
表示遥感卫星
产生的计算任务
所需的CPU周期数。
2.3.2. 卫星边缘节点
遥感卫星产生任务之后如果选择卸载到其所观测到的卫星边缘节点。计算任务
卸载到卫星边缘节点 执行产生的能耗可表示为:
(4)
其中,
表示计算任务从遥感卫星到卫星边缘节点的传输时延,
表示从遥感卫星
到卫星边缘节点的传输速率;
表示卫星边缘节点
的计算能力。
表示计算任务在卫星边缘节点 上执行的能耗;
表示计算任务从遥感卫星
到卫星边缘节点的传输能耗,
表示卸载至卫星边缘节点的传输功率。
2.3.3. 地面云计算中心
遥感卫星产生任务之后如果选择卸载到其所观测到的地面云计算中心。计算任务
卸载到地面云计算中心产生的能耗可表示为:
(5)
其中,
表示计算任务在地面云计算中心执行的能耗,
表示地面云计算中心的计算资源,
表示计算任务从信关站到卫星边缘节点的传输能耗,
表示计算任务卸载到地面云计算中心的传输时延。
对于遥感卫星产生的计算任务,要么遥感卫星执行,要么卸载至卫星边缘节点上执行,要么卸载至地面云计算中心执行。因此本文引入一个卸载决策
表示计算任务的卸载情况:
(6)
(7)
(8)
其中,
表示遥感卫星产生的计算任务是否在本地执行,
表示遥感卫星产生的计算任务是否卸载到卫星边缘节点上执行,
表示遥感卫星产生的计算任务是否卸载到地面云计算中心执行。由上可得,总的能耗函数为:
(9)
2.4. 问题描述
本文的目的是找到使整个系统的能耗最小的卸载策略,遥感卫星根据任务信息和系统的资源情况决定计算任务的卸载对象,则针对优化问题的目标函数可以表述如下:
(10)
(11)
(12)
(13)
其中,
是卸载约束,表示计算任务可以本地执行、卫星边缘节点或者地面云计算中心上执行;
表示保证每个任务只分配给一个卫星边缘节点,和
表示保证每个任务分配给地面云计算中心处理。
是一个任务数未知的非线性优化问题,用常规方法很难求解。考虑到低轨卫星计算能力有限,本文将卫星网络中计算卸载重新表述为最小化系统任务处理能耗为目标的最优马尔可夫决策过程来求解,设计了一种基于Dueling DQN遥感卫星任务计算卸载策略来解决该问题。在遥感卫星和低轨卫星边缘节点资源的限制下,旨在最大限度地减少遥感卫星任务处理能耗。
3. 基于Dueling DQN的遥感卫星任务计算卸载策略
在本节中,本文首先将问题
表述为马尔科夫决策过程,然后提出了一种基于Dueling DQN的遥感卫星任务计算卸载策略,之后又详细介绍了策略设计方案。
3.1. 马尔可夫决策过程
本文定义了一个元组
来模拟马尔可夫决策过程。具体来说,
表示状态的集合,
是动作的集合,
表示成本函数,
是策略。同时,将
定义为系统处于状态
并采取行动
时的成本。对于上述问题,马尔可夫决策过程模型中的状态空间、动作空间和奖励函数表示如下。
3.1.1. 状态空间
在时隙
中,本文用一个元组来表示当前时隙状态
,其中,
为当前时隙产生任务属性,
为前时隙可卸载目标设备资源使用情况,包括遥感卫星自身、卫星边缘节点以及地面云计算中心。
3.1.2. 动作空间
在时隙
中,将动作空间定义为
,
为当前时隙任务卸载目标,当
为0时为遥感卫星自身进行处理,当
为1或2时,选择卫星边缘节点进行处理,当
为3时,选择地面云计算中心进行处理。
3.1.3. 奖励函数
在时隙
中,当本地物联网设备采取行动时,可以计算出执行该动作所消耗的能耗。其中,本文处理计算任务
的处理能耗表示为:
(14)
由公式(14)可得本文的奖励表示为:
(15)
3.2. 算法设计
基于状态空间、动作空间以及奖励函数的设计,设计基Dueling DQN的卸载策略算法。Dueling DQN算法架构如图2所示。

Figure 2. Dueling DQN architecture flow diagram
图2. Dueling DQN算法流程图
算法首先初始化深度强化学习模型训练参数,以及初始状态参数。通过
网络输出动作
,智能体执行动作
,获得奖励
,并获取下一个时隙的状态
,存储到经验池中,在更新模型网络时,从经验池中取出batchsize大小的样本数量进行计算损失,根据损失函数不断优化神经网络参数,最终得到卸载策略。
4. 仿真结果与分析
本文假设在低轨卫星网络场景中,系统由4个遥感卫星、2个卫星边缘节点和1个云计算中心组成。任务的数据大小在100 Kb到300 Kb之间,任务CPU周期数大小为0~20 cycles,遥感卫星设备的计算能力为10 MHz;卫星边缘节点的计算能力为5 GHz之间,地面云计算中心给每个计算任务分配的计算能力为5 GHz,系统带宽为5 MHz,星间传输功率为8 mW,星地传输功率为5 mW实验中的默认参数见表1。
本文提出的基于Dueling DQN的计算卸载策略通过Python 3.7和Pytorch开源机器学习库实现。Dueling DQN的训练使用NVDIA 4090 GPU进行。Dueling DQN的Q网络包括3个完全连接的隐藏层,共有128个神经元,采用ReLU函数作为激活函数,实现全连接层后的非线性逼近。在Dueling DQN训练中采用Adam优化器。
仿真结果
首先,本文评估了本文所提策略的收敛性能。其次,本文将所提出的策略与其他卸载策略的性能进行比较,依次比较了不同条件下的平均能耗等。
(1) 收敛性能

Figure 3. The convergence of Dueling DQN under different learning rates
图3. 不同学习率下Dueling DQN收敛性图
为了评估方法的收敛性,本文评估了本文提出的方法在不同参数下的收敛性。在实验中,本文将epoch大小设置为5000。图3展示了方法在不同学习率下的收敛情况,其中学习率表示每次迭代中向损失函数最小值移动的步长。可以看出本实验在不同的学习率下均可以收敛,可以验证本文算法的合理性。
(2) 性能比较
为了验证所提策略的优越性和可靠性,本文将其与四种对比方法进行了比较:a) DQN(DQN)方法,b) 随机卸载(Radom),c) 卫星边缘节点卸载(Remote),d) 地面云计算中心卸载(Cloud)。与其他四种卸载相比,本文提出的计算卸载策略实现了最低的平均系统任务处理能耗。
· DQN方法:DQN是一种结合了深度学习和Q-learning的强化学习算法。DQN使用深度神经网络来近似Q函数,使其能够处理具有连续动作的能力。
· 随机卸载方法:随机卸载方法是一种随机行动选择算法,通过在每个决策阶段随机选择行动来解决问题。
· 卫星边缘节点卸载:即将所有计算任务卸载至卫星边缘节点进行计算。
· 地面云计算中心卸载:即将所有计算任务卸载至地面云计算中心进行计算。

Figure 4. Impact of Task Data Size on system average energy
图4. 任务数据大小对系统平均能耗的影响
如图4所示,在实验中,本文将任务数据大小分别设置为100 Kb、200 Kb、300 Kb、400 Kb和500 Kb,并将提出的策略与其他四种卸载方法在能耗方面进行比较。当任务数据量从100 Kb增加到500 Kb时,与其他四种对比方法相比,本文提出的算法可以保持最低的能量消耗。通过比较发现,本文所提的策略比DQN方法更节能,能耗降低了近17%。相比于其他随机卸载、卫星边缘节点卸载、地面云计算中心卸载方法,本文所提策略的能耗减少了两倍以上。
5. 总结
本文研究了卫星网络中遥感卫星任务计算卸载问题,针对计算资源有限的遥感卫星在面对大量的突发卸载任务时,出现资源短缺造成任务处理时延增加的情况,在考虑卫星资源有限的前提下,提出了一种以能耗为目标的基于Dueling DQN的遥感卫星任务计算卸载策略。
仿真实验结果表明,本文所设计算法可以很好的收敛,并且与其他算法相比,在降低系统能量消耗这一关键性能指标上,文本策略显著优于其他算法,验证了本文研究的合理性和高效性。
基金项目
国家自然科学基金资助项目(61602305, 61802257);上海市自然科学基金资助项目(18ZR1426000, 19ZR1477600)。