DRASTIC：面向任务感知闭环触觉互联网应用中6G网络切片的动态资源分配框架

news2026/4/2 8:05:38

大家读完觉得有帮助记得关注和点赞摘要本文提出一种新颖的学习驱动的带宽优化框架称为 DRASTIC任务感知闭环触觉互联网应用中用于切片的动态资源分配。该框架在支持增强型移动宽带和高可靠低延迟通信用户的网络切片之间动态分配资源。该算法利用李雅普诺夫引导的优势演员-评论家强化学习技术在马尔可夫调制泊松流量下确保队列稳定性并以高概率满足延迟目标。所提出的网络模型包括一个开环eMBB队列其到达和离开主要由吞吐量需求驱动以及一个闭环HRLLC队列该队列捕捉反馈和任务执行效应。依赖于任务执行的灵巧度指数调节有效到达率在网络和任务之间创建了反馈感知的交互。通过拉格朗日松弛将概率性延迟约束纳入目标函数产生了一个最小-最大优化框架该框架在最大化两种用户吞吐量的同时强制实现延迟保证。仿真结果表明所提出的框架满足了多样化的服务质量要求在动态无线和机器人任务变化条件下保持了队列稳定性并且优于其他方法。I. 引言无线通信的演进推动了6G技术的发展为信息物理应用解锁了新的范式。其中最具变革性的应用之一是触觉互联网它通过超可靠低延迟通信实现了对远程机器人的实时交互控制[19]例如远程手术、工业操作和远程驾驶。与HRLLC并存的是eMBB服务例如视频流、增强现实/虚拟现实这些服务持续要求高数据吞吐量这给在共享无线基础设施内进行无线资源分配带来了复杂的挑战。在包含具有冲突服务质量要求的共存服务的场景中网络切片[9]可以成为满足不同类型应用需求并实现更好、更公平频谱利用的有效工具。图1展示了这样一个场景其中HRLLC切片支持远程控制机器人的触觉和控制反馈回路而eMBB切片则将来自环境的高分辨率视频流传回给用户。这带来了一个关键挑战在有限频谱上确保可靠、低延迟的控制命令传输同时保持高吞吐量尤其是在突发性或人类驱动的应用流量下[20, 10]。此外由于人机环回动态像远程机器人这样的触觉互联网应用表现出强烈的非泊松行为。这种行为可以被马尔可夫调制泊松过程很好地捕捉并且它与机器人端的排队延迟和任务执行存在非平凡交互。传统的调度器如轮询和比例公平并未设计用来处理MMPP到达、概率性延迟目标或闭环中通信与控制之间的紧密耦合。为了弥补这一差距我们引入了DRASTIC一个基于深度强化学习的动态资源分配框架集成了基于李雅普诺夫的队列稳定性和任务感知自适应。开放无线接入网架构的出现使这个问题更具挑战性。O-RAN将传统的gNB分解为虚拟化的O-CU、O-DU和O-RU组件并引入了RAN智能控制器这些控制器在近实时10毫秒-1秒和非实时1秒时间尺度上暴露标准化、可编程的控制回路[6, 1]。这些RIC托管由AI/ML驱动的应用近实时RIC中的xApp和非实时RIC中的rApp可以通过开放接口如E2和A1动态优化无线资源管理、切片和QoS策略[4]。这为将基于学习调度器的HRLLC/eMBB共存作为RAN中一流的、符合标准的控制应用铺平了道路[13]通过实现自适应的、兼容O-RAN的调度器这些调度器在真实的远程机器人流量下明确针对概率性延迟保证。[图1] 用于触觉遥操作的6G网络切片HRLLC切片承载控制/反馈流量eMBB切片承载视频流量与背景移动eMBB用户在共享的PRB预算下共存。I-A 贡献我们通过提出的DRASTIC框架做出的贡献如下我们通过将HRLLC到达过程与灵巧度/复杂度指数耦合引入了一种任务感知的闭环HRLLC流量模型使资源分配能够反映通信-控制交互。我们将HRLLC延迟可靠性公式化为一个概率约束并推导出一个可微分的指数替代项将其嵌入到李雅普诺夫漂移加惩罚目标函数中。这产生了一个最小-最大优化框架其中变量自适应地惩罚延迟违规同时保持吞吐量和队列稳定性。每时隙物理资源块分配问题被构建为马尔可夫决策过程并通过优势演员-评论家算法求解。学习到的策略被设计为在近实时RIC上作为符合O-RAN的xApp运行观察队列积压、信道条件和灵巧度指数并通过E2接口向O-DU发出调度决策。大量的仿真表明即使在高度突发性的MMPP驱动到达下所提出的李雅普诺夫–A2C–拉格朗日框架在HRLLC延迟可靠性方面也显著优于轮询和比例公平调度器。II. 背景与相关工作现有5G/6G切片和调度中用于URLLC/HRLLC通信的一个常见局限是数据包到达被视为外生的例如独立的泊松或静态突发模型在很大程度上与底层控制或任务执行过程解耦[16]。然而在触觉互联网应用中例如远程机器人流量本质上是闭环的其中命令/反馈生成速率取决于正在执行的任务和机器人端的响应能力而这两者又受到通信延迟和可靠性的影响。这创建了一个反馈交互其中i任务动态影响有效的HRLLC到达需求以及ii频谱资源分配和延迟性能影响后续的控制/反馈行为。忽略这种耦合可能导致提供的负载与分配的服务之间的系统性不匹配导致不必要的队列增长并在任务状态变化期间降低延迟可靠性。在这项工作中我们通过引入一个依赖于任务的灵巧度指数来调节HRLLC流量需求并将该任务指标包含在调度器状态中从而明确捕捉了这种通信-控制耦合。因此学习到的策略可以在任务复杂性变化时主动调整PRB分配将服务与由控制引起的流量波动相匹配并同时保持队列稳定性和概率性延迟可靠性。补充研究探索了用于延迟敏感和HRLLC流量的李雅普诺夫优化。Liu等人[12]应用李雅普诺夫漂移最小化来管理具有延迟约束的无线网络而Li等人[11]研究了用于边缘系统中队列感知性能优化的强化学习。尽管具有基础性但这些方法要么单独考虑HRLLC或eMBB流量要么未处理机器人工作负载动态。近期的工作开始将控制感知指标集成到通信调度中。在[8]中作者为机器人命令执行引入了一种灵巧度感知的排队公式。在[7]中展示了一个用于在5G上验证远程机器人性能的软件定义实验平台。尽管取得了这些进展现有方法在三个关键方面仍然存在局限i它们没有提供一个能够同时强制执行通信层和控制层约束的统一学习框架ii它们忽视了受控制影响的到达和离开过程包括突发性人类行为和依赖于任务的到达率以及iii它们没有纳入新兴的6G要求如HRLLC可靠性、AI原生优化和动态切片自适应。因此现有方法不足以应对沉浸式遥操作、远程手术和工业机器人控制这些场景需要联合管理队列不稳定性、可变的人类行为以及严格的端到端延迟保证而我们所提出的DRASTIC框架正是为此而设计。图2说明了所提出的调度器如何与O-RAN控制层次结构以及O-CU/O-DU/O-RU流水线对接。非实时RIC时间尺度 1秒执行长周期分析和模型指导包括切片级目标、延迟-可靠性目标并通过A1接口将策略更新传递给近实时域。近实时RIC10-100毫秒将DRASTIC作为xApp托管并使用O-DU报告的实时测量结果包括队列占用率、PRB利用率、吞吐量指标、HARQ反馈以及CQI/KPMs [3, 2]执行轻量级推理。基于这些实时观测xApp计算每时隙的PRB分配决策并将其返回给DU执行。这种分离保留了O-RAN的时序约束同时实现了闭环、切片感知的调度能够适应突发性的HRLLC流量和时变信道条件[18]从而可以支持触觉互联网等应用中的有效资源分配。[图2] DRASTIC的O-RAN部署III. 系统描述与问题构建我们考虑一个6G系统其中有一个gNB服务于 UnhneUnhne 个用户其中 nhnh 是HRLLC远程机器人用户nene 是eMBB用户图1。我们的目标是将可用带宽分配给两种类型的用户切片。总带宽 BB Hz被划分为 KK 个PRB每个带宽为 BkB/KBkB/K。我们为HRLLC和eMBB用户维护独立的队列。设 Fi(t)Fi(t) 表示时隙 tt 开始时HRLLC用户 ii 的队列积压Gi(t)Gi(t) 表示eMBB用户 ii 的队列积压。以下小节描述了这两组用户的队列动态。III-A 网络模型III-A1 HRLLC流量我们假设HRLLC终端用户智能体/机器人的参考命令通常由人类生成图1。人类生成的信号通过网络传输到终端用户可能不是均匀的可能是突发性的或缓慢的。为了以现实的方式捕捉这种行为HRLLC到达被建模为两状态马尔可夫调制泊松过程。设 Si(t)∈{1,2}Si(t)∈{1,2} 为底层马尔可夫链其生成矩阵为Qi[−ααβ−β],Qi[−αβα−β],其中 αα 和 ββ 是转移速率突发和缓慢。这里Si(t)∈{1,2}Si(t)∈{1,2} 表示时隙 tt 时HRLLC用户 ii 的MMPP状态。给定 Si(t)sSi(t)s时隙 tt 内的到达数服从强度为 λsλs例如λ2λ1λ2λ1的泊松分布。在转移速率 αα从状态1到2和 ββ从状态2到1下马尔可夫链的稳态概率为π1βαβ,π2ααβ.π1αββ,π2αβα.因此用户 ii 的长期平均到达率是加权平均值 λˉiπ1λ1π2λ2λˉiπ1λ1π2λ2。闭合HRLLC反馈回路为了捕捉远程机器人流量的闭环特性我们模拟了HRLLC数据包生成对机器人/智能体任务执行状态的依赖性。在每个时隙中远程机器人或智能体提供一个标量反馈信号称为用户 ii 的灵巧度指数 DXIiDXIi它捕捉了任务难度。此反馈在网络头端操作员侧可用并由人类参考生成器用于动态调整其参考命令生成行为。直观地说当机器人执行困难的动作时高 DXIiDXIi操作员应发出较少的更新命令到达应减慢类似地当任务较简单时低 DXIiDXIi可以参考更新以理想速率生成。两状态MMPP使用 DXIiDXIi 调节其强度。我们定义这样较大的 DXIiDXIi 会降低瞬时到达强度。产生的HRLLC到达满足设 rih(t)rih(t) 表示在时隙 tt 中为HRLLC用户 ii 实现的离开服务速率由方程6定义。HRLLC队列动态可以写成其中 [x]max⁡{x,0}[x]max{x,0}。III-A2 eMBB流量我们以传统方式模拟eMBB用户的数据生成到达和服务速率离开。因此eMBB到达被建模为具有固定速率 λieλie 的泊松分布。设 Aie(t)Aie(t) 为到达rie(t)rie(t) 为通过方程6获得的eMBB用户实现的服务速率。所以eMBB队列可以表示为备注1我们为两组用户提出了两个队列。eMBB用户的队列是一个开环系统因为它们的流量生成是外生的。相比之下HRLLC远程机器人用户的队列是一个闭环系统因为它们的数据包生成依赖于任务执行反馈灵巧度指数因此可以随时间动态变化。在下一节中当我们提出一种用于最优带宽分配的深度强化学习方法时这两个队列将决定马尔可夫决策过程的状态转移动态。III-A3 信道模型与可达速率为了模拟现实的网络行为我们考虑由于小尺度衰落信道增益在用户、PRB和时隙之间变化。设 hij(t)hij(t) 表示在时隙 tt 内用户 ii 在PRB jj 上的瑞利衰落信道增益设 pij(t)pij(t) 为该PRB上分配的发射功率。用户 ii 在PRB jj 上实现的可达速率为其中 σ2σ2 是噪声方差BkB/KBkB/K 是PRB带宽[14]。用户 ii 的总速率为其中 ρij(t)∈{0,1}ρij(t)∈{0,1} 表示PRB jj 是否分配给用户 ii。为了与队列更新保持一致我们对HRLLC使用 rih(t)ri(t)rih(t)ri(t)其中 i∈Ri∈R对eMBB使用 rie(t)ri(t)rie(t)ri(t)其中 i∈Ei∈E。III-B 问题构建gNB必须在两组用户之间共享有限的带宽 BB等效于 KK 个PRB同时确保每个用户获得最优的数据速率。这种资源共享具有挑战性因为由于队列和信道条件的变化网络会随时间动态变化。此外HRLLC切片必须满足严格的延迟可靠性要求而eMBB用户的目标是高吞吐量。为了实现这一目标在每个时隙 tt调度器选择一个整数PRB分配向量其中 UnenhUnenhai(t)ai(t) 表示在时隙 tt 期间分配给用户 ii 的PRB数量。利用信道模型6诱导的可达速率我们旨在优化HRLLC和eMBB用户的长期数据速率性能其中 rih(t)rih(t) 和 rie(t)rie(t) 分别是HRLLC和eMBB用户实现的数据速率。为了数值稳定性8可以等效地改写为其中有一个小的常数 ϵ0ϵ0。该优化受三个耦合约束约束10b强制执行瞬时PRB预算必须在每个时隙分配所有 KK 个PRB。约束10c强制执行整数分配每个用户接收整数个PRB且至少一个PRB。约束10a强制执行HRLLC延迟-可靠性目标对于每个HRLLC用户端到端延迟 DtiDti 超过截止期限 Dmax⁡Dmax 的概率必须保持在 1−χh1−χh 以下。因为 DtiDti 依赖于队列演化3-4和实现速率6约束10a将跨时隙的分配决策耦合在一起。因此调度器必须不断调整 a(t)a(t) 以适应变化的队列和信道同时满足10。注HRLLC概率性延迟约束对于HRLLC用户 ii总端到端延迟为其中 DiprocDiproc 是处理/传播延迟DicommDicomm 是通信延迟。可靠性要求为其中 Dmax⁡Dmax 是延迟预算χhχh 是目标可靠性。直接优化12中的尾部概率很困难因为 DicommDicomm 依赖于时变速率和队列积压。为了获得一个易处理的代理我们定义其中 pp 是数据包大小。这个代理项允许将延迟可靠性与队列动态3-4和速率模型6一起纳入在线PRB分配策略中。IV. 提出的DRASTIC框架DRASTIC将基于队列理论的稳定性与基于学习的资源分配相结合用于eMBB/HRLLC切片。在每个时隙调度器观察网络状态队列、信道条件和任务复杂性并输出最优的PRB分配。IV-A 李雅普诺夫漂移加惩罚重述在这种混合服务网络中一个关键要求是队列稳定性。HRLLC和eMBB缓冲区不应无限增长同时调度器仍需追求高效率和可靠服务。直接优化长期性能很困难因为流量和无线信道随时间随机变化并且每个调度决策都会影响未来的队列大小。为了在考虑稳定性的同时支持实时决策我们使用李雅普诺夫漂移加惩罚方法。设 Fi(t)Fi(t) 表示时隙 tt 时HRLLC用户 ii 的积压Gi(t)Gi(t) 表示eMBB用户 ii 的积压。将所有积收集合到聚合队列状态 Q(t)Q(t) 中我们定义一个标准的二次李雅普诺夫函数该函数可解释为衡量网络队列拥塞的标量“能量”当任何一个单独队列变大时它会迅速增加从而有助于阻止那些在平均意义上保持系统稳定但允许持久积压累积的策略。一步条件李雅普诺夫漂移定义为漂移量化了从时隙 tt 到时隙 t1t1 队列“能量”的预期变化条件为当前的积压状态。条件期望是必要的因为 Q(t1)Q(t1) 依赖于随机量如随机数据包到达和时变信道条件。直观地说如果一个调度策略保持 ΔL(t)ΔL(t) 很小特别是在队列增长时倾向于使其为负那么该策略就能防止李雅普诺夫函数随时间增长这对于建立队列稳定性至关重要。仅最小化漂移可以强制执行稳定性但并未明确包含期望的性能目标。除了有限的积压外调度器还必须分配无线资源以实现HRLLC和eMBB流量有利的速率结果。为了将这个系统目标纳入在线决策我们引入一个每时隙成本 htht并形成漂移加惩罚表达式其中 V0V0 是一个可调参数用于权衡稳定队列和优化性能。较大的 VV 值更强调性能但可能以更高的平均队列积压为代价而较小的 VV 值则产生更积极的积压减少通常导致更小的队列。在这项工作中瞬时成本被选为长期目标函数的每时隙对应项并定义为其中 rih(t)rih(t) 和 rie(t)rie(t) 分别表示在时隙 tt 实现的HRLLC和eMBB速率ϵ0ϵ0 是为数值稳定性引入的小常数。该成本设计使得较差的速率结果比中等速率结果受到更重的惩罚鼓励分配避免在瞬时信道条件不利时持续提供低速率服务。最后为了使漂移加惩罚优化目标与合适的强化学习公式对齐我们将每时隙奖励定义为负的漂移加惩罚量因此最大化期望累积奖励将驱动潜在的RL学习智能体朝着同时i减少二次队列度量的预期增长从而减少网络拥塞和ii改善由 htht 捕获的吞吐量依赖于速率性能目标的方向行动。因此这种奖励公式使基于RL的在线策略能够在统一的动态优化框架中平衡面向可靠性的积压控制和面向吞吐量的资源分配。IV-B 深度强化学习实现为了数值求解18中定义的优化问题我们可以将动态PRB分配任务构建为马尔可夫决策过程并采用双头A2C算法来学习从系统状态到资源分配决策动作的映射[15]。在我们的实现中如图3所示使用了一个单一的联合演员-评论家智能体具有共享表示和两个策略头一个用于eMBB一个用于HRLLC以及一个用于联合系统状态的单一评论家价值函数。状态空间在时隙 tt智能体通过两个状态分量观察当前网络和任务状态一个eMBB状态向量 steste 和一个HRLLC状态向量 sthsth。eMBB状态。eMBB状态定义为其中 G(t)G(t) 表示eMBB队列积压向量he(t)he(t) 表示瞬时eMBB信道条件re(t)re(t) 表示实现的eMBB数据速率ΔLe(t)ΔLe(t) 是从李雅普诺夫框架导出的与eMBB漂移相关的项。HRLLC状态。HRLLC状态定义为其中 F(t)F(t) 表示HRLLC队列积压向量hh(t)hh(t) 表示瞬时HRLLC信道条件rh(t)rh(t) 表示实现的HRLLC数据速率ΔLh(t)ΔLh(t) 是与HRLLC漂移相关的项y(t)y(t) 是瞬时概率性延迟违规信号DXIi(t)DXIi(t) 是与HRLLC远程机器人用户相关的灵巧度指数向量捕捉任务复杂性。最后整体状态被视为对由联合演员-评论家网络使用以产生特定于切片的分配决策。[图3] DRASTIC架构与学习循环。IV-B1 动作空间智能体在时间 tt 的动作是联合PRB分配决策空间是离散的形式为其中 ateate 和 athath 分别对应eMBB和HRLLC的分配选择。这些动作决定了实现的速率 re(t)re(t) 和 rh(t)rh(t)并进而驱动队列演化和稳定性行为。IV-B2 奖励函数奖励被设计为反映带有约束强制的漂移加惩罚目标其中 ΔL(t)ΔL(t) 是一步李雅普诺夫漂移htht 是第IV-A节定义的与吞吐量相关的惩罚y(t)y(t) 捕捉概率性延迟违规信号。对偶变量 λℓ(t)≥0λℓ(t)≥0 控制约束满足的强度。IV-B3 演员-评论家更新设 Vϕ(st)Vϕ(st) 表示由 ϕϕ 参数化的评论家网络设演员策略由两个分类头 πθe(ate∣st)πθe(ate∣st) 和 πθh(ath∣st)πθh(ath∣st) 表示参数为 θθ。使用一步自举目标TD误差计算为其中 γ∈(0,1)γ∈(0,1) 是折扣因子。评论家通过最小化平方或鲁棒TD损失进行更新而演员使用基于 δtδt优势估计的策略梯度进行更新。对偶变量被强制为非负并在线更新例如通过投影更新或平滑非负参数化确保学习到的策略平衡队列稳定性、吞吐量性能和概率性延迟合规性。V. 仿真结果与性能分析仿真在PythonPyTorch中进行运行在配备16 GB内存的M1 Pro MacBook上。带宽10 MHzK25K25Ne4Ne4Nr3Nr3Dmax⁡20Dmax20 毫秒χh0.98χh0.98α10.1α10.1α0.2α0.2β0.2β0.2 秒−1−1。折扣因子 γ0.99γ0.99学习率 10−410−4。[图4] DRASTIC (A2C)的训练收敛性情节回报 vs. 训练情节已平滑。[图5] 训练期间的队列演化(a) eMBB队列长度(b) HRLLC队列长度。随着学习到的调度器收敛队列积压减少并保持有界。V-A 收敛行为在训练早期DRASTIC广泛探索导致PRB分配不一致偶尔出现延迟-可靠性违规。这种行为表现为强烈负向的情节回报以及eMBB和HRLLC队列积压的巨大瞬时增长。随着训练进行DRASTIC学习到更一致的调度策略更好地将随机的MMPP到达与足够的服务匹配导致两个队列迅速减少图5(a,b)此后保持有界这反映在图4中。同时图6所示的eMBB和HRLLC的李雅普诺夫漂移项衰减到小的稳定值表明DRASTIC不仅提高了奖励也改善了稳定性。大约125个情节后回报曲线趋于平稳队列长度在一个狭窄范围内波动表明DRASTIC已收敛到一个稳定的运行状态仅因信道随机性和突发性到达而存在微小的残余波动。[图6] 训练期间的每切片李雅普诺夫漂移eMBB和HRLLC漂移项衰减到接近零表明队列动态趋于稳定。V-B 两步灵巧度指数时域结果说明了学习到的调度器在异构流量下的任务依赖自适应。eMBB流量是开环的且由吞吐量驱动而HRLLC流量是闭环的并通过灵巧度指数与控制/反馈耦合该指数调节命令/反馈生成速率。当灵巧度指数降低时图8(b)更简单的任务HRLLC到达率增加调度器将更多PRB重新分配给受影响的用户提高其数据速率和离开速率以防止队列持续增长。在阶跃变化附近李雅普诺夫相关信号的暂时上升反映了先前分配与新流量状态之间的短期不匹配导致图7中情节500处的奖励下降并在资源调整和积压压力缓解后衰减。当灵巧度指数再次增加更复杂的任务时可行的闭环命令频率下降HRLLC到达减少。策略相应地减少该用户的PRB份额并重新分配资源同时保持HRLLC延迟-可靠性目标如图8(a)所示。总体而言到达、速率、离开和漂移的阶跃响应证实了预期的反馈队列分配耦合任务复杂性重塑闭环需求而DRASTIC通过自适应带宽分配跟踪这些状态变化。[图7] 两步灵巧度实验中的奖励。[图8] 两步灵巧度实验(a) HRLLC实现的数据速率(b) 施加的两步灵巧度曲线。DRASTIC重新分配PRB以跟踪需求变化同时保持队列稳定性和延迟可靠性。V-C DRL比较我们评估了三种基于DRL的调度器用于跨eMBB和HRLLC流量的联合PRB分配。在每个时间步调度器观察网络状态包括流量和队列相关特征并选择一个PRB分配在满足每用户最小分配约束的同时将固定PRB预算分配给两个切片中的用户。目标是通过由拉格朗日乘子 λλ 加权的惩罚项来最大化长期性能同时阻止延迟/队列违规。比较的方法包括A2C离散策略、DQN离散基于值和DDPG连续演员-评论家。A2C从可行整数分配的类别分布中采样DQN通过最大化估计的动作值选择分配DDPG输出连续的资源拆分比例每个切片单独输出在执行前将其投影为整数PRB分配。如图9所示A2C在此设置中表现出稳定的学习而DQN和DDPG在相同的动态和约束下显示出有限或没有收敛。这主要是由执行的分配即整数分配的离散性质驱动的。对于DQN可行的分配空间随着PRB预算和用户数量迅速增长使得探索和价值估计变得困难尤其是在约束违规惩罚主导回报时。对于DDPG连续的演员输出必须通过非光滑投影映射到整数分配其中许多连续动作映射到相同的执行分配削弱了学习信号并在惩罚较大时使评论家-演员更新不稳定。[图9] 在相同PRB和信道设置下的DRL调度器比较A2C (DRASTIC)、DQN和DDPG的情节回报突显了A2C在离散PRB分配约束下更稳定的学习。V-D 延迟与可靠性图10评估了延迟性能和延迟-可靠性合规性。图10(a)中的每情节延迟是根据排队模型计算的反映了在所选PRB分配下经历的延迟。图10(b)显示了DRASTIC与两种切片内基线MVNO和Py5cheSim的通信延迟的经验累积分布函数。垂直和水平虚线分别表示通信延迟阈值此处 D0.02D0.02 秒和可靠性目标 XhXh例如 Xh0.98Xh0.98可视化了要求 Pr(DcommDmax⁡−Dproc)≥XhPr(DcommDmax−Dproc)≥Xh。DRASTIC在 DthDth 处或之前达到了98%的可靠性目标而MVNO和Py5cheSim仅在更大的延迟下才达到相同的可靠性水平这意味着违反阈值的概率更高。所有方法都在相同条件下进行评估相同的信道模型、PRB预算、灵巧度驱动的HRLLC到达和队列动态因此差异仅反映了调度策略。我们将DRASTIC与两种切片内基线进行比较MVNO-PF它应用比例公平优先级规则以及Py5cheSim-RR它执行与信道无关的轮询共享两种基线都没有显式优化延迟可靠性。[图10] DRASTIC与切片内基线MVNO-PF和Py5cheSim-RR的延迟比较。(a) 带有移动平均平滑的每情节延迟与PF/RR相比DRASTIC实现了更低的延迟。(b) 不同分配策略下每情节延迟的CDF。V-E 任务复杂性灵巧度敏感性研究为了评估所提出的公式是否捕捉了与任务相关的闭环流量我们考虑了一个有五个HRLLC用户的场景分配了不同的灵巧度指数范围从低到高任务复杂性。图11总结了得到的稳态行为。随着灵巧度指数增加测量的到达率下降学习到的策略相应地为该用户分配更少的PRB。这种分配带宽的减少导致服务能力降低反映在离开率的下降上。相反具有较小灵巧度指数的用户表现出更高的到达率并被授予更大的PRB份额产生更高的离开率以防止队列积压。跨灵巧度水平的到达和离开之间的紧密跟踪表明所提出的调度器始终将服务速率与任务引发的流量需求相匹配从而展示了对任务复杂性的敏感性和在异构闭环HRLLC工作负载下的有效资源自适应能力。[图11] 任务依赖流量下的自适应带宽分配PRB跟踪不同灵巧度水平下的到达/离开速率。VI. 结论与未来工作本文提出了一个用于6G远程机器人调度的李雅普诺夫-A2C-拉格朗日框架该框架适用于MMPP驱动的到达和概率性延迟保证。通过结合随机优化和强化学习该方法同时稳定队列、强制执行可靠性并最大化吞吐量。自适应对偶变量作为一个在线可靠性控制器而A2C智能体则近似最优漂移最小化。主要成果包括1在相关突发下的稳定队列动态298%的延迟可靠性以及3优于传统调度器的吞吐量增益。未来的扩展包括分布式多小区协调、包括mMTC在内的分层切片管理以及使用EdgeRIC平台进行基于真实软件无线电的测试。该框架为6G及以后自主、智能的RAN调度奠定了基础。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2474722.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！