新闻动态
AIRS智慧低碳团队提出创新性框架赋能风储系统智能安全运行
近日,我院赵俊华教授团队创新性地提出了一种基于分层安全强化学习的风储一体化控制框架(Hierarchical Safe Deep Reinforcement Learning,HSDRL)。该框架通过安全约束驱动与层级决策协同,能够在多时间尺度下协调风电机组与储能系统的功率输出,兼顾经济收益最大化与功率平滑安全约束,从而实现风储系统的智能化与安全化运行。香港中文大学(深圳)博士生王抒一为论文第一作者,我院赵俊华教授与香港理工大学赵焕博士为论文共同通讯作者。
通过在大规模仿真平台WindFarmSimulator上的系统验证,研究团队提出的HSDRL框架展现出业界领先的性能。研究进一步表明,该方法能够在复杂风速与电价扰动环境下保持高稳定性与安全性,为新型电力系统的智能调度与可再生能源并网运行提供了新的突破,也展示了其在未来大规模风储系统中的广阔应用潜力。
期刊介绍
IEEE Transactions on Smart Grid (TSG) 是IEEE电力与能源学会(IEEE Power & Energy Society, PES)旗下的旗舰级国际期刊,聚焦智能电网、可再生能源并网、能源管理与智能控制等领域的前沿研究。该期刊长期保持中科院一区TOP期刊地位,具有极高的学术影响力与严格的审稿标准,录用率低,仅发表在智能电网及能源系统领域具有原创性、前瞻性与工程影响力的高水平研究成果。
研究背景
随着风能在全球能源结构中的占比不断提升,如何在保证电网安全与稳定的前提下高效利用波动性风电成为新型电力系统中的关键科学问题。本文提出了一种基于分层安全强化学习的风储一体化功率平滑控制框架HSDRL,旨在协调风电机组与电池储能系统(BESS)的多时间尺度控制,实现收益最大化与功率波动抑制的双重目标。该框架通过引入约束马尔可夫决策过程(CMDP)建模风储系统运行的安全边界,并结合原始-对偶优化思想在不同层级间实现协调学习。上层智能体负责风电功率输出与长期经济收益优化,下层智能体负责储能系统的实时功率调节与安全约束执行。通过在WindFarmSimulator仿真平台上的综合实验,所提出方法相较多智能体强化学习与模型预测控制基线模型达到当前最先进性能。该研究为将强化学习安全引入风储系统控制提供了有效途径,展示了人工智能赋能新能源系统安全调度与稳定运行的巨大潜力。
研究方法
如图1所示,本文提出的分层安全强化学习控制框架(Hierarchical Safe Deep Reinforcement Learning,HSDRL)由两级智能体组成,以实现风电机组与储能系统(BESS)在不同时间尺度下的协同控制。上层智能体以风电场为核心,负责长时间尺度下的收益最大化与功率平滑目标设定;下层智能体则在短时间尺度内通过控制储能充放电行为实现精细化功率调节,从而保证系统运行的稳定与安全。

图1:分层安全强化学习控制框架图。
在算法设计上,研究团队将功率平滑控制问题形式化为两个约束马尔可夫决策过程(CMDPs),并提出了分层原始–对偶安全DDPG算法(Hierarchical Primal-Dual Safe DDPG, HPD-DDPG),实现对收益与约束的同步优化。与传统强化学习方法不同,HPD-DDPG通过引入拉格朗日对偶变量动态调节约束权重,能够在确保安全边界的前提下自适应地学习最优策略。
同时,本文创新性地设计了三项关键机制以提升算法稳定性与训练效率:
1. 安全引导课程学习(Safety-Guided Curriculum Learning, SGCL)
通过逐步收紧安全阈值,引导智能体从宽松到严格的学习阶段,实现平稳收敛与约束感知策略的逐步形成。

图2:安全引导课程学习过程。
2. 约束违例优先经验回放(Constraint Violation Prioritized Experience Replay, CVPER)
对发生约束违例的样本赋予更高采样优先级,确保智能体在训练过程中持续强化安全边界意识,显著改善样本利用效率。
3. 分层共享特征神经网络结构(Hierarchical Shared Feature Neural Network, HSFNN)
在上、下层智能体间实现Q网络参数共享,促进特征迁移与跨层知识协同,加速整体训练收敛过程。

图3:分层共享特征神经网络结构。
为验证所提方法的有效性,研究团队基于WindFarmSimulator仿真平台进行了系统实验。实验综合考虑了多风速情景与电价扰动,评估算法在收益、功率波动与约束违例等指标上的表现。结果表明,HSDRL框架相比多智能体强化学习(MA-DDPG、MA-SAC)与滚动预测控制(R-MPC)等方法,平均收益提升15.3%,功率波动降低46.0%,约束违例减少71.4%。此外,算法在高波动风速场景下依然保持快速收敛与高稳定性,展现出良好的鲁棒性与可扩展性。

图4:不同方法的学习过程。

图5:不同方法下的功率平滑结果和电池储能系统(BESS)控制行为。
研究贡献
提出了一种分层安全强化学习控制框架(Hierarchical Safe Deep Reinforcement Learning, HSDRL)。该框架将风储一体化功率平滑控制问题建模为两个互相关联的约束马尔可夫决策过程(CMDPs),通过分层原始–对偶安全DDPG算法实现风机与储能系统在不同时间尺度下的协同控制,兼顾收益最大化与安全约束。
提出了安全引导课程学习机制(Safety-Guided Curriculum Learning, SGCL)。该方法通过逐步收紧安全阈值引导智能体从宽松到严格的学习阶段,显著提高了在复杂约束环境下的稳定性与收敛效率。
设计了约束违例优先经验回放机制(Constraint Violation Prioritized Experience Replay, CVPER)。该机制对约束违例样本赋予更高的采样优先级,从而强化智能体对安全边界的学习与记忆,提高整体策略的安全性。
构建了分层共享特征神经网络结构(Hierarchical Shared Feature Neural Network, HSFNN)。该结构在多层智能体之间实现特征共享与参数协同,有效提升了特征提取能力与学习效率。
作者简介
文章通讯作者赵俊华教授现任香港中文大学(深圳)理工学院教授、CUHKSZ–CSIJRI智能储能联合研究中心执行主任、深圳市人工智能与机器人研究院群体智能中心副主任、深圳金融研究院能源市场与金融实验室主任,深圳河套学院兼职教授。赵教授长期从事智能电网、电力市场、低碳能源转型及人工智能在能源系统中的应用研究。赵教授曾任澳大利亚纽卡斯尔大学智能电力网络研究中心首席研究科学家,并拥有超过 11 年澳大利亚电力行业科研与工程经验。他发表学术论文 350 余篇,其中包括发表于Joule(Cell Press)、Patterns(Cell Press)、Scientific Data(Nature Publishing Group)及Engineering(中国工程院主办)等国际高水平期刊论文。其研究成果被引用超过19, 000次,H-index达到67(Google Scholar)。
本文第一作者王抒一,香港中文大学(深圳)2020级计算机与信息工程专业博士生,本科毕业于香港中文大学(深圳),主要研究方向为智能电网、强化学习、风储控制。
* 相关论文信息由论文作者提供
