1. 引言
通信网络中,基站的设计与部署通常是基于满足用户峰值速率需求的目标,因此基站往往按照最大网络负载值为用户提供服务[1]。然而,现实场景中用户流量通常随时间动态分布,导致大部分时间内,部分基站会处于轻载或空载状态,但设备仍持续运行,使得能耗居高不下[2]。为减少不必要的能源消耗,可以在保障用户通信质量并遵循基站最大发射功率约束的条件下,执行合理的基站节能决策,关断低负载基站,并将其业务负载迁移至周边基站[3],从而实现闲时能耗的有效控制和性能优化。
传统的基站节能决策是随机关断网络中的某些基站,[4] [5]或根据基站和用户间的距离来决定是否关断[6] [7]。文献[4]通过综合考虑网络平均覆盖概率和用户功耗来量化基站关断对网络性能的影响,构建了一个基站能耗最小化问题,确定了关断宏基站(Macro Base Station, MBS)的最优概率,实现在降低能耗的同时维持通信覆盖率。文献[5]发现当基站深度睡眠和不连续传输(Discontinuous Transmission, DTX)同时应用于提升网络能效时,基站深度睡眠会增加剩余活动基站的负载,减少它们通过DTX节省的能源,通过权衡深度睡眠节能和DTX节能,提出同时应用两种机制时的最佳基站节能策略。文献[6]提出的启发式算法是基于用户的位置和其所需的数据速率,按照距离由近及远地逐步激活基站,在保证用户连接需求的同时,显著降低基站的激活比例来节省能量。文献[7]提出,与功耗随业务负载而显著增加的宏基站相比,微基站的功耗相对平稳且受负载影响较小,在用户均匀分布的情况下,优先关断距离宏基站较近的微基站,宏基站以较低的功耗为用户提供服务,可以降低异构网络的整体能耗。
同时,强化学习(Reinforcement Learning, RL)也已经越来越多地应用于基站节能决策。文献[8]面向具有宏基站和多个微基站的密集异构网络背景下的节能决策问题,提出一种基于深度Q-Learning的算法,在基站切换需要额外的能源消耗时显著节能。文献[9]考虑到环境的动态性质,提出了一种基于深度强化学习的动态基站切换框架,同时引入了模仿学习(Imitation Learning, IL)的思想,通过学习专家的动作来更新策略,能够有效降低功耗。
以上相关研究,主要聚焦于基站执行某一种特定节能决策的效果,并未讨论基站执行节能决策面临多种选择时的优化方式。为应对用户需求随时间降低带来的影响,基站通常面临两种节能决策:一种决策是直接关断低负载基站,将用户的通信连接切换至其他基站。这种方式能够迅速降低基站的恒定能耗,但用户切换至其他基站的过程中将带来更多的传输能耗,并且可能降低用户通信服务质量;另一种决策是通过功率分级调节来逐级降低基站的能耗,同时维持通信服务的稳定性。本文研究的基于深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG) [10]的基站节能决策优化方法将综合考虑通信服务质量和系统能耗,通过对比,选择执行性能更优的节能决策。
2. 系统模型
2.1. 研究场景建模
本文的研究场景设置为多小区中有M个基站和N名静止用户,初始状态为1名用户连接1个基站。假设其中K名用户的通信业务bi逐渐减小,T时间段后,通信业务bi消失,其余N-K名用户的通信业务需求保持不变。此时基站需满足的目标为降低系统能耗,同时保障通信连接稳定。若初始基站难以满足用户的通信业务需求,用户设备选择切换接入附近的基站。通信网络拓扑如图1所示。
Figure 1. Communication network topology diagram
图1. 通信网络拓扑图
2.2. 信道参数建模
本文参考了应用于ITU城市异构网络场景的路径损耗场景,选取大尺度衰落模型作为信道传播模型。信号传输中的基本路径损耗PLb的计算公式如下:
(1)
基本路径损耗PLb由三部分组成,φ是阴影衰落,ε是天线增益,FSPL是自由空间路径损耗:
(2)
其中,fc为基站发射载波的频率,d为用户与基站之间的直线距离。
2.3. 用户通信业务建模
在此研究场景下,每个基站的传输带宽固定,设基站m的带宽为Bm。基站按照服务区域内用户的通信业务需求向用户按需分配带宽。设基站m服务的用户数目为Numm,并设基站m下用户n的通信业务需求为bm,n,那么基站m下的用户n所分配的带宽Bm,n为:
(3)
用户业务的传输速率Vm,n根据香农公式计算可得:
(4)
其中,pm,n是用户设备的发射功率,σ2是信道噪声功率。根据此速率传输,则用户与基站之间的传输时延(Transmitting Delay) dT为:
(5)
用户与基站之间的传输能耗(Transmitting Consumption) cT可通过用户设备的发射功率和传输时延相乘得到:
(6)
3. 基于DDPG的基站节能决策优化方法
3.1. 基站节能问题建模
在本文的研究场景下,用户的通信业务需求随时间逐渐降低。为避免所有基站因遵循传统的基站传输策略,始终保持开启导致系统能耗过高,基站可结合用户分布和业务负载情况执行智能节能决策,在用户流量低负载时,控制部分基站进入低功耗模式或关断状态,完成降低系统能耗的目标。用户与基站之间的传输能耗为cT,可由前文式(6)得到。用户从原连接基站切换至另一基站时的切换损耗(Switch Consumption)为cS,如果相邻时刻用户n选择接入的基站不变,则切换损耗
等于0,反之:
(7)
其中,
为用户n当前时刻最佳的RSRP,RSRPn为用户n上一时刻的RSRP。基站在开启或关断状态下的恒定能耗(Constant Consumption)为cCon。根据前文研究场景建模可得,K个基站的功率等级随K名通信业务需求减小的用户k可调,设α为功率等级系数,
,其余M-K个基站保持满功率状态,能耗为Pmax。则系统中的基站恒定能耗cCon可表示为:
(8)
该研究场景下的优化目标为系统的总能耗降低,且用户的通信服务质量提高,即系统的总时延降低,故系统的总体优化目标G可以表示如下:
(9)
基站的节能决策优化被建模成一个对系统总体目标min G求最优化的问题。针对该问题,本文设计了两种基站节能决策方案,并研究了它们的优化方法,旨在降低该研究场景下的系统能耗和时延。
3.2. 传统基站固定功率方案
传统基站不具备自主决策的能力,基站优先保证现有用户的流量稳定性,因此基站不会自主关断,功率等级也不会随着用户需求降低,直至用户通信业务需求降至0,基站始终保持满功率状态运行。以该传统基站固定功率方案作为基线实验。该方案下,用户n选择接入的基站始终保持不变,系统的切换损耗cS等于0,系统中的基站恒定能耗cCon:
(10)
3.3. 基站节能决策方案
为了解决系统总体目标min G的最优化问题,本节设计了两种基站节能决策,即基站面对本文提出的研究场景可产生两种节能决策。然而,基站针对同一时空的同一场景只能选择一种智能决策。
在第一种节能决策下,基站的决策被设定为“开启”和“关断”两个等级。基站根据其服务的用户业务量,当用户k通信需求降低时,业务量小的基站将直接进入关断状态,原本接入它的用户k将切换至附近处于开启状态的基站进行通信连接。在满足用户需求的条件下迅速关断基站,基站恒定能耗cCon降低。但由于用户k需要切换距离较远的基站,因此系统中存在切换损耗cS,且传输能耗cT将上涨。由于基站只有“开启”和“关断”两种状态,因此式(8)中的功率等级系数α为定值,关断基站的最低能耗为Pmin。则系统中的基站恒定能耗cCon:
(11)
Figure 2. Energy-saving decision I: shutdown low-load base stations
图2. 节能决策一:关断低负载基站
Figure 3. Energy-saving decision II: hierarchical power adjustment
图3. 节能决策二:功率逐级调节
节能决策一(直接关断低负载基站)的情况如图2所示,其中用户k通信业务需求降低,初始状态下为用户k提供服务的基站k随即关断,用户k切换连接至就近基站。
在第二种节能决策下,基站的决策被设定为允许开启NP个功率等级。基站支持根据用户业务量的变化情况进行不同的功率选择,实现更加精确的功率等级控制,同时避免用户k切换至其他基站进行连接,降低切换损耗cS与传输能耗cT。但由于没有直接关断基站,导致瞬时恒定能耗cCon相较第一种节能决策偏高。该方案下,用户n选择接入的基站始终保持不变,因此系统的切换损耗cS等于0。系统中的基站恒定能耗cCon可以直接用式(8)表示,随功率等级系数α变化。节能决策二(功率按等级调节)的情况如图3所示,其中用户k通信业务需求降低,基站k仍为用户提供通信连接,它的功率逐级降低。
3.4. 基于DDPG的基站节能决策优化方法
在强化学习任务中,智能体通过与环境的交互来学习最优的行动策略,达成奖励值的最大化。因此可以应用强化学习来实现系统能耗和用户通信服务质量总体目标min G的最优化。下面介绍应用于本问题的强化学习算法所设计的状态空间(State)、动作空间(Action)和奖励函数(Reward)。
1) 状态空间
部署在基站的智能体从基站处收集当前网络环境的状态信息,其中涵盖了用户位置分布、接入基站、业务需求、传输速率等用户状态,以及基站服务用户数量、信道参数等基站状态。选取用户传输速率和基站服务用户数量两项关键要素形成状态空间S,则该状态空间S可表示为如下集合:
(12)
其中,sm表示基站m当前的状态信息,它包括基站m服务的用户数量sm0和基站m所服务用户的平均带宽sm1,具体表示为:
(13)
(14)
(15)
2) 动作空间
智能体获取状态空间S后,经过强化学习训练,向基站输出动作空间A,执行当前状态下的节能决策,即立刻执行关断动作或按照功率等级参数逐级调节功率。节能决策一的动作空间A1可表示为:
(16)
(17)
节能决策二的动作空间A2可表示为:
(18)
(19)
其中,am表示基站m当前的功率。α1表明基站的决策一被设定为“开启”和“关断”两个等级,α2表明基站的决策二被设定为允许开启NP个功率等级。
3) 奖励函数
系统总体优化目标G是一个与用户传输时延dT、用户传输能耗cT、基站切换损耗cS和基站恒定能耗cCon有关的参数,它综合考虑了系统能耗和用户通信服务质量。因此,将奖励函数R设计为与G负相关的函数,奖励值取最大值说明当前G最小,即达成系统总体目标最优解min G。奖励函数R表示如下:
(20)
DDPG算法在处理大动作空间和连续动作输出时具有一定的优势,能够采用经验回放、深度神经网络和目标网络等机制,增强训练过程的稳定性,加速模型收敛。本文提出的两种基站节能决策中,动作空间A的大小随基站数量M呈指数增长,且动作输出即基站功率等级为确定值。因此,本文选取DDPG作为决策优化方法的基础强化学习算法。
Figure 4. Base station energy-saving decision optimization method based on DDPG
图4. 基于DDPG的基站节能决策优化方法
基于DDPG的基站节能决策优化方法如图4所示。DDPG算法由当前Actor网络μ、当前Critic网络Q和目标Actor网络μ'、目标Critic网络Q′构成。首先,初始化Actor网络参数θμ和Critic网络参数θQ及其目标网络参数θμ′和θQ′,初始化经验回放缓冲区D。在每个step,各基站采集当前step的网络信息,汇总后形成全局状态空间St,上报给部署在系统中的智能体。智能体综合全局状态空间S输出动作空间At,下发至各个基站,基站执行决策。计算该决策下的奖励值Rt,获取下一step的全局状态空间St + 1,将集合{St, At, Rt, St + 1}存入经验回放缓冲区D。智能体从经验回放缓冲区D中随机获取一批样本,更新网络参数。循环往复直至奖励R收敛,对比节能决策一与决策二下奖励R的大小,从两种决策中选取更优方案。
4. 仿真结果
4.1. 参数设置
仿真实验在面积为1 km × 1 km的矩形区域范围内进行,10个基站均匀分布在其中,10个用户在其对应基站附近随机撒点,分布范围在其半径100 m内,有4个用户的通信业务需求随时间降低,另外6个用户保持不变。仿真实验经过1000个episode的强化学习训练,每个episode包含50个step。设step = 0时每个用户的初始通信业务需求大小为2000 kbit到4000 kbit不等。具体的仿真平台参数设置如表1所示。
Table 1. Simulation parameters
表1. 仿真参数
参数名称 |
参数设置 |
信道模型 |
Dense Urban模型 + 阴影衰落 |
仿真区域 |
1 km × 1 km |
基站数量M |
10个 |
基站部署方式 |
均匀分布 |
用户数量N |
10个 |
用户分布方式 |
在对应基站半径100 m内随机撒点 |
基站传输带宽Bm |
20 MHz |
基站载波频率fc |
2000 MHz |
用户设备发射功率pm,n |
最高23 dBm |
基站恒定能耗
|
满功率:45 kJ 关断:5 kJ |
基站功率等级NP |
5个功率等级 |
阴影衰落φ |
3 dB |
天线增益ε |
14 dBi |
4.2. 结果分析
该决策优化方法的目标是降低传输时延、传输能耗、切换损耗和基站的恒定能耗,因此奖励值R的绝对值越大,说明系统的时延与能耗性能越差,故将其定义为负值。图5和图6显示了仿真结果,图中的横坐标为强化学习DDPG算法的训练轮次episode,纵坐标为综合奖励值R。
Figure 5. Training performance of DDPG algorithm under energy-saving decision I
图5. 节能决策一下的DDPG算法训练性能
Figure 6. Training performance of DDPG algorithm under energy-saving decision II
图6. 节能决策二下的DDPG算法训练性能
当基站执行节能决策一时,基站仅有“开启”和“关断”两个功率等级。图5表明,训练曲线的收敛速度较快,在第75个轮次收敛。这得益于基站执行直接关断动作,用户切换至就近基站,不需要执行细粒度的功率等级调节,基站的恒定能耗迅速减少。当训练曲线收敛后,奖励值稳定在−2.5 × 104上下。但基站在执行直接关断决策的情况下,奖励值的波动范围较大,其波动范围在6 × 103。这是因为在用户进行基站切换的过程中,附近的基站面对突发新增的通信业务,将出现一些高能耗或高时延的明显抖动。
当基站执行节能决策二时,即基站的功率等级分为5档,分别是5 kJ、15 kJ、25 kJ、35 kJ和45 kJ,且能够随着用户通信业务需求的减少逐级降低。图6表明,训练曲线的收敛速度相较于执行节能决策一时降低,直到第260个轮次才趋于收敛。这是由于细粒度的功率等级要求基站做出更精细化的调节。而当训练曲线收敛后,奖励值稳定在−2.0 × 104上下,说明基站逐级调节的节能决策拥有更优的能耗与时延综合性能。其收敛效果相较于节能决策一更稳定,波动范围在4 × 103,这是因为用户无需切换基站,始终保持与初始基站的连接,传输相对稳定。
应用训练完成的智能体模型对部分基站直接关断的节能决策一和基站功率逐级调节的节能决策二进行仿真测试,统计模型收敛后用户在一个step下的平均时延与能耗数据如表2所示。
Table 2. Comparison of average delay and energy consumption of two energy-saving decisions
表2. 两种节能决策平均时延与能耗对比
参数指标 |
节能决策一 |
节能决策二 |
平均传输时延dT/ms |
6.23 |
4.77 |
平均传输能耗cT/J |
1.62 × 10−2 |
9.52 × 10−3 |
平均切换损耗cS/dB |
6.16 |
0 |
结合图5、图6以及表2中的数据可以看出,当基站面临两种节能决策时,执行基站直接关断的决策的模型训练收敛速度更快,即决策响应速度更快,而执行功率逐级调节的决策在降低传输时延、减少传输能耗方面则有着较大优势。
将两种基站节能决策和传统基线方案(即所有基站始终保持满功率运行)的实验结果进行了对比,来验证所提节能决策的有效性。如图7所示,两种节能决策的平均奖励值的绝对值均明显低于基线方案。部分基站直接关断的节能决策一相较传统方案性能提升了47.5%,基站功率逐级调节的节能决策二相较传统方案性能提升了56.4%,将所提的基站节能决策相对比,节能决策二的性能比节能决策一高16.9%。
Figure 7. Performance comparison of two energy-saving decisions and baseline
图7. 两种节能决策和基线之间的性能比较
本文还进一步分析了在基站数量和分布保持不变的情况下,增加用户数量,两种基站节能决策和传统基线方案的平均传输时延以及基站平均能耗的对比,对比结果见图8和图9。
Figure 8. Comparison of average transmission delay under different numbers of users
图8. 不同用户数量下的平均传输时延对比
由图8可知,执行基站直接关断的决策一时,平均传输时延明显高于决策二与传统基线方案。这是由于关断部分基站使得用户切换至剩余基站,仍处于开启状态的基站需要负责更多用户的通信业务,因此传输时延上涨。而随着用户数量的增长,决策一与另外两种决策的时延差距越拉越大,不过差距始终保持在5 ms以内,因此仍属于用户可接受的延迟范围。对比功率逐级调节的节能决策二和基站保持满功率运行的传统基线方案,它们的时延表现都相对优异。且在用户数量较少时,决策二和传统方案之间的时延差距几乎可以忽略不计。这是因为网络场景中用户密度较为稀疏,用户请求的业务量较少,调低基站的功率等级对业务传输质量的影响微乎其微。
Figure 9. Comparison of average energy consumption of base stations under different numbers of users
图9. 不同用户数量下的基站平均能耗对比
从图9可以看出,当基站执行节能决策一或决策二时,基站的平均能耗始终显著低于传统方案,证明了本文所提出的两种节能决策在降低基站能耗方面的优越性。将两种基站节能决策进行比较可以发现,执行功率逐级降低的决策二时相比直接关断部分基站的决策一,基站的平均能耗更低,这也印证了决策二在时延和能耗整体性能方面的优势。
5. 结论
本文针对用户通信需求随时间降低的研究场景建立数学模型,设计了综合考虑系统能耗和用户通信服务质量的奖励函数,基于DDPG算法求解基站节能决策优化问题。仿真结果表明,本文所提出的两种决策的节能效果相较于基站保持满功率运行的传统方案都有显著提升,为降低系统能耗和时延,基站选择优先执行功率逐级调节的节能决策。