Nexus | 连接预测和决策:数据驱动优化的进展和挑战
文章信息论文题目为《Bridging prediction and decision: Advancesand challenges in>摘要数据驱动方法通过将预测与决策相结合彻底改变了传统的优化方法。文章探讨了三种关键方法 —— 顺序优化、端到端学习和直接学习 —— 的理论基础、优势、最新进展和局限性重点介绍了它们在电网调度、运营管理和智能自主控制中的实际应用。并且进行了多维度比较随后讨论了数据中心方法论、优化方法论和决策应用方面的挑战。为学术界和工业界提供了方法论指导并概述了未来的发展方向以增强复杂数据环境中的决策制定。引言基于机器学习或深度学习的预测方法从现实世界的数据中提取特征以发现潜在的模式支持诊断、预测预测和模式识别等任务然而在电力系统或市场操作等实际应用中预测很少是最后一步。相反它可以作为一个中介为优化模型提供信息实现智能的数据驱动决策如在不确定性下确定最佳资源分配设计自适应定价策略或通过预测性维护提高电网可靠性。 考虑到预测和决策之间的相互作用现有的数据驱动优化方法可以大致分为三种框架如下图所示。1顺序优化SO这种两阶段方法将预测和决策解耦并按顺序排列。首先利用多尺度数据训练预测模型以估计不确定变量其输出随后作为优化的输入以推导决策。作为最直观的数据驱动方法之一顺序优化具有灵活性和模块化特点允许预测和优化建模的独立进展实现无缝集成。然而这种两阶段耦合存在理论偏差源于预测目标与决策目标之间的不匹配。2端到端学习E2E通过将优化结构嵌入训练过程端到端学习将重点从传统的统计学习目标转向以决策为中心的损失函数。在每次训练迭代中预测结果通过优化层进行处理以生成决策随后从决策环境中的验证过程反向传播梯度以细化和校准预测模型。这种闭环框架实现了以决策为导向的学习减少了传统两阶段方法固有的偏差并使预测任务与优化目标保持一致。例如optnet和SPO都是端到端学习实际应用的典型案例。3直接学习DL与依赖显式优化公式的SO和E2E不同DL专为具有复杂或隐式优化结构的场景设计例如机器人控制这类场景需要从人类演示中直接学习策略以应对动态、非结构化环境。通过绕过显式优化DL专注于将预测输出与最终目标性能指标对齐实现自适应决策。诸如模仿学习IL等技术可复制专家行为而强化学习RL和无模型方法则能动态适应不断变化的条件如在个性化教育系统中根据学生表现调整教学策略。这些应用凸显了DL将数据直接融入决策的能力尤其在传统优化不可行的场景中表现出色。顺序优化为了建立优化领域的基础我们首先回顾凸约束优化CO的基本原理该理论是许多数据驱动决策框架的基础。一般的凸约束优化问题可表述如下其中f表示目标函数它依赖于决策变量z和估计参数其中p是一个预测模型该模型将输入特征x映射到预测变量y_hat。重要的是由于预测误差的存在y_hat通常会偏离真实值y。约束条件g和h定义了z 的可行区域。考虑一个资源分配问题其中z表示分配策略y_hat表示预测的资源需求后者指导决策过程。目标函数f用于量化分配的成本或效率而约束条件g和h则体现预算限制、资源可用性或系统容量等约束。该优化公式在连接预测和决策问题方面起着关键作用。 在该框架中预测参数作为连接预测模型和优化过程的信号。 它既影响目标函数也影响约束条件指导基于模型预测的决策过程。 当y_hat偏离y时结果优化可能导致次优决策强调需要将预测准确性与决策目标保持一致。 值得注意的是本节关注的是点预测的情况。 对不确定性感知预测的扩展如随机优化和分布鲁棒优化将在后续章节中讨论。 三种数据驱动优化框架及其相关方法的列表摘要见下图。在SO框架下该过程首先使用机器学习或深度学习技术对历史资源需求数据训练预测模型 训练后的模型产生下一阶段的预测需求作为优化问题的输入。 然后使用Gurobi等优化求解器来解决问题并结合特定的约束包括整数要求或其他特定于领域的考虑得到的解决方案代表最终决策完成数据驱动的决策过程。 该框架举例说明了将预测和优化相结合的解耦但顺序的方法这是SO方法的标志。 SO的理论基础取决于预测模型的准确性。 在能源调度、供应链优化、金融投资组合管理等多阶段决策场景中广泛应用的时间序列预测任务中通常使用基于范数的统计损失函数如MSE和平均绝对百分比误差MAPE来度量预测值与真实值之间的差异。因此近年来的研究重点从传统的统计模型转向了 例如支持向量机和k近邻到先进的深度学习架构和大规模模型代表了在准确识别时间序列预测模式方面取得的重大进展。 在能源市场的背景下时间序列预测如电价预测、需求估计和可再生能源产量预测由于可再生能源日益渗透推动的市场波动加剧已经变得越来越重要 这些预测是优化资源分配、管理电网稳定性和制定有效投标策略的基础说明了它们在更广泛的能源系统复杂性中的作用。 为了应对这些挑战采用了多视界预测方法以提高不同时间尺度的预测效率一个两阶段的框架首先预测离散事件如价格飙升然后估计连续变量进一步提高了预测的准确性 此外将长短期记忆LSTM网络与小波变换相结合的混合模型也显示出更高的预测精度 卷积神经网络在捕获局部模式和提取高级特征方面已被证明是有效的而变压器模型通过注意机制管理远程依赖关系从而推动了该领域的发展 这些方法上的进步共同强调了在广泛的时间序列预测任务中提高预测性能的持续努力解决了动态和波动的市场环境的多方面需求。在实际应用中由于实现绝对预测精度的固有限制SO经常遇到挑战。 预测模型通常使用梯度下降算法进行训练一旦预测损失达到预定义的阈值以避免过拟合该算法就会终止同时努力尽可能有效地识别模式。 然而减少预测误差并不一定转化为决策优势因为预测和决策绩效之间的关系在现实场景中往往是不对称的 与基于规范的预测损失的对称结构不同决策标准很少是直截了当的。 例如在负荷预测中电力系统的运行成本是不对称的。 过度预测可能导致不必要的发电增加操作储备以及低效的资源分配而预测不足可能导致供应不足的情况触发昂贵的平衡行动依赖快速启动单元以及对系统可靠性的潜在风险。 基于规范的统计预测损失等同地处理预测过高和预测不足的错误未能捕获这些操作不对称之所以出现这种不匹配是因为决策依赖于实际环境来解释时间序列数据中更多隐含的模式。 决策中的评估指标通常既不是明确对称的也不是基于规范的而是由目标方程1和约束方程2的非线性、隐含的、有时是动态的性质所塑造的。 预测损失的下降方向和成本目标之间的不一致经常导致偏离真正最优解决方案的次优决策潜在地破坏数据驱动策略在高度强调决策准确性的情况下的整体有效性。端到端学习为了解决不匹配问题E2E也被称为以决策为中心的学习在训练过程中将预测和决策紧密结合在一起。 与SO不同的是E2E不仅保留了预测后决策的顺序结构而且将决策估值直接融入损失函数中。 该方法通过决策损失梯度的反向传播迭代训练预测模型通过优化结构闭环更新模型参数。对于目标函数为公式 1且约束条件为公式 2的问题其最优决策记为:其中M表示输入预测值y_hat与最优决策z*_hat的映射关系。决策损失的直观定义是衡量在预测场景y_hat下做出的决策与真实场景y下的决策之间的差异通常表示为该表达式通常被称为遗憾值。为了适应不同的实际场景决策损失也可以更一般地表示为一般形式有利于理论结构的结合例如报贩问题中的相对遗憾其中定制的损失函数被设计成更好地与特定的决策目标相一致。 E2E的主要目标是训练具有参数的预测模型以最小化决策损失使预测输出直接与决策目标一致。 根据链式法则决策损失相对于预测参数的梯度表示为其学习训练过程可由下图表示然而在一般的凸优化CO问题中该过程会变得更为复杂因为决策结果隐含地由底层优化结构所决定需要专门的方法来进行精确的梯度计算。以下介绍端到端学习E2E的三类方法。1.隐式微分法为了建立预测和决策之间的等价关系最直接的方法是应用由KKT条件导出的隐式梯度定理。 具体来说对于由目标式1和约束式2定义的凸优化问题拉格朗日函数表示为其中λ和v分别是式2中g和h约束的乘子。,保证最优性的KKT条件包括平稳性、原始可行性和互补松弛性表示为这些条件确保z*_hat满足优化准则。通过应用隐函数定理若κ关于z*_hat的导数和雅可比矩阵JK可逆则最优决策z*_hat关于预测输出y_hat的导数可表示为在预测模型训练的每个周期中关键的梯度计算可简化为计算K的雅可比矩阵然后在给定参数下对J_z * K求逆并将其与J_y*K相乘。基于该理论基础端到端学习E2E通过将优化层集成到神经网络中的方法取得了显著进展网络以实现平滑的梯度传播。Amos 等人取得了一项关键突破他们引入了 OptNet—— 一种 GPU 加速的二次优化层能够高效解决复杂的优化决策问题。该层支持优化梯度通过神经网络进行无缝反向传播提升了计算效率并实现了更有效的决策驱动训练。Lee 等人将该框架扩展至元学习任务中的嵌入模型优化证明了集成优化层在提升任务泛化能力方面的实用性。与此同时Agrawal 等人提出了一种凸规划的结构化方法做出了重要贡献。他们的方法将优化问题规范化为锥规划使得在求解复杂凸优化任务时能够高效计算导数。近期的研究还聚焦于解决非光滑目标函数相关的挑战。Bertrand 等人和 Blondel 等人提出了管理模块化自动隐式次微分的高效方法这是将端到端学习扩展至非光滑和大规模优化场景的关键进展。这些创新与深度学习的快速发展相结合显著增强了端到端学习框架处理多样化和高计算需求优化问题的能力。2.替代损失函数法尽管隐式微分方法具有优势但其计算成本仍是一个关键问题。如公式 7 所示每次训练迭代都需要计算雅可比矩阵并求逆这可能会带来较高的计算成本尤其是对于大批量输入数据而言。为解决这一问题Elmachtoub 和 Grigas 提出使用代理损失函数来简化梯度计算。定义线性目标函数为遗憾值表示为提出SPO损失函数表示为由SPO损失函数计算的梯度为这种简化方法通过利用凸替代损失的次梯度不需要直接计算雅可比矩阵。3.近似法除了计算效率外在具有多面体可行域和线性目标的优化中梯度信息的有效性也存在问题因为y_hat的变化可能并不总是影响最优解z*_hat并且可能会出现无穷多解的情况。如下图所示最优解位于极点处其中y_hat和y_hat1可能会产生相同的解而y_hat2则会导致不同的解。因此梯度往往未定义或为零从而阻碍了预测模型的更新。为了改善梯度的平滑性和可微性学者们引入了使用噪声的概念近似方法。通过向y_hat添加高斯噪声ϵ扰动可以定义为这种扰动期望替代了精确解映射M(y_hat)。如下图所示。z*_perturb表示极点的期望值其概率受y_hat和噪声ϵ影响极点概率的变化会导致扰动解的平滑变化从而使梯度保持连续。对于特定场景例如在最短路径问题中确保正值研究人员调整了噪声分布如指数噪声以在扰动下保持正值确保稳定性。除了统计近似外连续函数拟合1提供了另一种方法。插值函数可以确保优化过程中的连续性。直接学习端到端学习E2E的核心过程在于将优化问题的梯度传递至预测模型以实现无偏训练。然而隐式微分、替代损失和近似等方法高度依赖于保留优化结构这在复杂的现实场景中可能并不总是可行。直接学习DL通过绕过保留优化结构的要求进一步整合了预测和决策过程。相反它基于计算出的决策损失c直接更新预测模型参数从而消除了对优化梯度的需求。1.强化学习在直接学习DL中决策任务被重新构建于强化学习RL框架内以消除对显式优化结构的依赖。模型p将输入 x 映射到决策 z。强化学习RL框架优化期望累积奖励J其定义为其中 t 表示马尔可夫决策过程(S, A, T, r, y)中的时间索引。强化学习RL为数据驱动决策中整合预测与优化提供了灵活框架将二者视为相互依赖的过程。通过直接利用观测数据RL 能够为复杂系统定制动态自适应策略。例如RL 已应用于需求负荷与风电的序列日前预测误差校准改善下游机组组合决策还能基于家庭级指标优化电池与1热储能系统助力智能能源管理。为提升可扩展性与鲁棒性先进RL 技术不断涌现近端策略优化通过裁剪替代目标约束策略更新增强稳定性确保高维优化中的可靠收敛深度确定性策略梯度借助演员 -评论家框架将策略梯度扩展至连续动作空间实现精准高效的决策。这些方法凸显了 RL 处理需要稳定性与精确性的复杂大规模优化问题的能力。尽管基于强化学习RL的直接学习DL为集成预测与决策提供了强大的框架但它仍面临一些关键挑战。平衡探索与利用仍然困难因为发现新策略往往以牺牲已知策略的利用为代价。稀疏或延迟的奖励如在长期能源管理中进一步加剧了策略学习和收敛的复杂性。此外可扩展性是一个显著问题因为为大规模系统训练 RL 策略需要大量计算资源这限制了其实际应用。有前景的解决方案包括混合方法例如使用监督学习对策略进行预训练或采用分布式 RL 算法来提高样本效率和可扩展性。2.模仿学习模仿学习是直接学习中的一个关键方法它侧重于使用早期阶段收集的专家数据直接拟合输入x和决策z之间的关系。与强化学习不同模仿学习完全绕过优化只专注于使用专家演示准确地将预测映射到决策。模仿学习广泛应用于现实世界场景如城市自动驾驶在这种情况下制定通用决策规则具有挑战性。此外局部模仿学习方法已被提出作为模拟优化过程中梯度传播的折衷方案。这些方法保留预测模型同时直接拟合梯度映射绕过显式优化结构。深度学习模型h_φ用于通过输入y_hat和y来近似决策损失优化以下目标:这种方法将从输入特征到决策结果的映射视为 “黑箱”使h_φ能够近似梯度。因此针对 θ 的优化任务被简化为h_φ(pθ(x),y)用h_φ的内部梯度传播取代了方程 4 中的显式梯度计算。尽管该方法提高了计算效率但由于依赖黑箱近似在辅助模型训练过程中存在陷入局部最优的风险。为增强鲁棒性并确保决策准确通常需要针对具体场景进行调整。模仿学习IL将输入映射到决策的直接方法使其成为一种计算高效的替代方案而其绕过显式优化的能力凸显了它在复杂系统中实现简化决策的潜力。然而使用神经网络等黑箱结构来近似这种映射可能导致与优化约束不匹配从而产生不可行或次优的解决方案并引发对鲁棒性和安全性的担忧。为解决这些问题可以在训练过程中进行调整使预测与决策约束保持一致。例如正则化项或可以引入额外的约束感知训练目标对不可行的预测进行惩罚。另外可将严格的架构约束嵌入数据驱动模型中以确保持续生成有效的解决方案。结论以上每种方法根据应用场景的不同而具有独特优势。标准优化SO非常适合需要可扩展预测模型且计算开销较低的场景例如气象预报或大规模自然语言模型尽管它可能会牺牲决策的最优性。端到端学习E2E则是要求高决策精度任务的理想选择在这类任务中预测模型会被显式训练以优化决策性能。直接学习DL通过从训练数据中进行模式识别来抽象优化结构这使其在复杂动态的决策环境如自动驾驶中具有特别优势。。本推文着重介绍文章所提到的几种前沿方法具体的方法比较、未来挑战、应用领域感兴趣的读者可阅读原文。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2452069.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!