北京交通大学 | 基于TD3算法的层叠超表面辅助多用户MISO系统联合优化研究
引言随着无线通信技术的不断发展可重构智能表面RIS技术因其低功耗和信号操控能力而受到广泛关注。然而RIS的单层结构和离散相移能力限制了其性能表现。层叠智能超表面SIM作为一项创新技术凭借其直接操控电磁波信号的能力以及类似人工神经网络的工作原理为无线通信系统性能提升带来了新的可能。本研究由北京交通大学和中国移动紫金创新研究院的研究团队共同完成聚焦于SIM辅助的多用户多输入单输出MU-MISO系统下行链路场景提出了一种基于双延迟深度确定性策略梯度TD3算法的联合优化方法。系统模型SIM模型图1 SIM辅助的多用户下行MISO通信系统研究考虑的SIM由L层超表面组成每层包含M个超原子。通过配置每层每个超原子的相移SIM能够在电磁波域实现复杂的信号处理任务如波束成形。相比传统方案基站天线只需传输低分辨率数模转换器转换的模拟数据流无需额外的信号处理电路。SIM的波域波束成形矩阵可表示为G Φ_L W_L Φ_(L-1) W_(L-1) ··· Φ_2 W_2 Φ_1其中Φ_l表示第l层的相移矩阵W_l表示层间传播矩阵。电磁波在相邻超表面间的传播遵循瑞利-索末菲衍射理论。通信系统模型系统包含K个单天线用户和一个配备S根天线及一个SIM设备的基站。研究假设SK即每根天线可直接传输和接收独立用户的数据流。从最后一层超表面到用户的信道采用空间相关瑞利衰落模型信道矩阵h_k服从复高斯分布。第k个用户接收到的信号包含期望信号、多用户干扰和加性高斯白噪声。第k个用户的接收信干噪比SINR为γ_k |h_k^H G w_k^1|^2 p_k / (Σ_(j≠k) |h_k^H G w_j^1|^2 p_j σ_k^2)问题建模研究的优化目标是联合设计SIM相移矩阵Φ和天线功率分配向量p以最大化系统和速率。在假设基站已知完美信道状态信息的前提下优化问题表述为最大化 R Σ_(k1)^K log_2(1 γ_k)约束条件包括总功率约束、各用户功率非负约束、相移范围约束。该问题由于非凸目标函数和约束条件而具有高度复杂性传统数学方法难以在大规模网络中求得最优解。TD3算法优化方案算法框架图2 用于配置SIM的TD3框架TD3算法是DDPG算法的扩展通过引入双评论家网络和延迟更新策略有效缓解了过估计偏差和高方差估计问题。TD3框架包含六个网络训练演员网络提供近似策略并生成动作两个训练评论家网络基于训练演员网络的动作估计动作值函数目标演员网络生成目标动作用于训练目标评论家网络两个目标评论家网络生成目标Q值用于训练过程TD3还采用噪声和平滑策略来增强智能体的探索能力。考虑到SIM辅助系统的相移参数众多、无线信道状态复杂以及SIM堆叠结构等特点TD3在收敛速度、稳定性和泛化能力方面表现出色。深度强化学习要素设计动作Action包括SIM相移矩阵Φ和功率分配矩阵P。由于神经网络只能处理实数输入相移矩阵被分解为实部和虚部动作总维度为2MLK。状态State由相移矩阵Φ、功率分配矩阵P和信道矩阵H组成状态维度为2MLK2MK。奖励Reward定义为系统和速率R。策略Policy表示智能体在给定状态下采取动作的准则。数值仿真结果仿真设置仿真假设载波频率为28 GHz的SIM辅助MU-MISO下行系统。基站配备S根天线SIM由L层组成。每层超表面有M个超原子均匀排列在N×N方阵中MN²。超原子长宽均为λ/2。用户沿y轴排列用户间距为10米。最大传输功率为10 dBm信道噪声功率为-104 dBm。图3SIM辅助MU-MISO通信系统仿真设置和速率与超表面层数关系仿真结果表明随着层数增加基于深度强化学习的算法性能优于传统交替优化方法。当L较小时TD3与DDPG性能接近但随着L增大动作空间维度变大TD3算法显示出优越性。然而当层数L较大时无论采用何种方法系统优化效果都趋于饱和。图4和速率R_sum随SIM层数L的变化S4, K4, M9, P_t10 dBm和速率与超原子数量关系随着每层超原子数量增加系统和速率也随之提升。更多的超原子带来更高分辨率的相移通过增加超表面的自由度来提高下行波束成形的精度。当M≥25时TD3算法的效率高于DDPG。然而增加超原子数量也带来了算法复杂度的增加且交替优化算法在优化大量参数时效果不如深度强化学习算法。图5和速率R_sum随每层超原子数量M的变化L2, S4, K4, P_t10 dBm和速率与用户数量关系随着用户数量增加和速率呈下降趋势尽管SIM优化缓解了这一问题。这是因为用户数量增加导致用户间干扰加剧。结果表明在SIM辅助MU-MISO系统中仅在发射端部署SIM无法完全解决多用户干扰问题未来可考虑在接收端部署SIM以消除干扰。图6和速率R_sum随用户数量K的变化M9, SK, L4, P_t10 dBm收敛性分析仿真对比了不同延迟更新时间对算法收敛的影响。延迟更新策略有助于降低更新频率、防止过拟合和振荡提高算法泛化能力。当延迟更新时间过长时算法收敛速度放缓当延迟更新时间过短时算法振荡变得严重。相比DDPGTD3展现出更好的稳定性。图7不同延迟更新时间下的和速率收敛曲线L5, S4, K4, M9, P_t10 dBm结论本研究针对SIM辅助MU-MISO通信系统提出了基于TD3算法的联合SIM相移配置和功率分配优化方法。通过与DDPG和交替优化方法的对比实验验证了所提TD3算法的优越性能。研究发现增加每层超原子数量总是有益的但持续增加SIM层数并不会带来持续的性能提升。未来研究将聚焦于在大规模MIMO系统和无蜂窝网络等更复杂系统中探索更高效的SIM配置方法。参考文献X. Yang, J. Zhang, E. Shiet al., Joint SIM Configuration and Power Allocation for Stacked Intelligent Metasurface-assisted MU-MISO Systems with TD3,GLOBECOM 2024 - 2024 IEEE Global Communications Conference, Cape Town, South Africa, 2024, pp. 3255-3260
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2480329.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!