基于深度强化学习算法的光伏抽蓄互补系统智能(3)
对于策略π,从状态st开始并执行动作at的一次探索过程所期望的累积回报可由动作价值函数Qπ(s,a)来描述。
综上所述,互补模型的智能调度问题可以转换为
2.2 CDLR-DDPG算法与网络结构
DDPG算法基于Actor-Critic架构结合了DQN的思想和DPG算法,并在连续控制问题中取得了很好的效果。本文采用DDPG算法来训练一个能够实时为光-蓄互补系统做出最优决策的智能体。在DDPG算法中,智能体通过与环境之间的交互所获得的累积奖励见式(21),并最大化累积奖励以获得最优策略π*。DDPG算法的Actor-Critic架构分别由四个全连接层神经网络实现,见表1。表中,θμ为Actor网络参数;θq为Critic网络参数。Critic网络中表示随机噪声。
表1 DDPG算法网络结构Tab.1 The network structure of DDPG网络名称 输入 输出Actor网络 st (; )a s μ μ θ t t=Actor目标网络 st+Δt ( ; )a s μ t ′ ′=μ θ′t+ Δt= ~Critic目标网络 ,Critic网络 s,a~ (,;q)t t q Qsaθ t t s a t t t+Δ ′ (, ;q)q Qsaθ′′′′=t t
训练时,Actor网络参数的优化通过梯度下降策略,即
而Critic网络的更新则是通过最小化损失函数,即
实现Actor、Critic网络参数更新后,与之对应的两个目标网络参数的更新则通过软更新(Soft Update)方式,即
式中,θμ′为Actor目标网络参数;θq′为Critic目标网络参数;τ为软更新系数(0<τ?1)。
为了增强DDPG算法的稳定性,引入了经验回放机制并将整个训练过程分为探索、学习和收敛三个阶段:①探索阶段,将从环境中观察的信息和反馈奖励值所构成的元组ei={st, at, rt, st+1}放入大小为D的经验记忆库d中,d={e1, e2,…, eM},当经验记忆库被存满时,新的元组将替换原有的旧元组,并进入学习阶段;②学习阶段,将经验记忆库中均匀采样的一小批元组信息用于更新Actor、Critic网络的参数;③收敛阶段,智能体学到了一条应对随机环境的策略,并保持累积奖励处于平稳状态。
由于元组信息中的状态与奖励均来自互补系统中实时输入信息与优化目标,因此,整个智能调度优化模型由互补模型和DDPG算法构成。互补优化模型结构如图3所示。
图3 互补优化模型结构Fig.3 Framework of the PV-PHS system with DDPG-based reinforcement learning
原始DDPG算法在连续控制领域有着较大的优势,但是固定学习率的DDPG算法存在着训练效率低,容易陷入局部最优等缺陷。由于网络权值θ的更新速度受到学习率η的影响,如式(26)所示,在常规训练中通常选取较小的学习率来保证算法收敛性,但此时损失函数的梯度下降速度慢,收敛时间效率低且容易陷入局部最优。
为提升算法性能,本文提出采用周期衰减学习率的改进型深度确定性策略梯度算法,即在训练过程中将总回合数N划分为n个周期,并在一个周期内使学习率按照式(27)衰减规律进行更新。
式中,α为学习率;ε为衰减因子,εi表示ε的i次幂;i= 0,… ,n?1。第j个回合的学习率ηj为
式中,mod(?)定义为取余算子。
采用CDLR-DDPG算法流程见表2。
表2 CDLR-DDPG算法流程Tab.2 Flow of the PV-PHS system with CDLR-DDPG algorithm随机初始化Actor、Critic网络参数 μ θ′←θ ;初始化经验记忆库D;For j=1, N do:复位整个环境,并返回一个初试状态s1;通过式(28)更新学习率η;For t=1, T do:由当前策略π和噪声Nt,产生一个动作at;执行at并返回 tr和新状态st+1;存储{st, at, rt, st+1}到记忆库d;从d中均匀采样m个{st, at, rt, st+1};通过式(22)和式(26)更新Actor网络参数;通过式(23)和式(26)更新Critic网络参数;通过式(25)更新Actor、Critic目标网络;End for End for θ;初始化Actor、Critic目标网络参数 μ μ θ、 q θ′←θ 、 q q
3 算例分析
本文利用和 TensorFlow架构来实现改进型CDLR-DDPG算法对光-蓄互补发电系统智能调度问题的求解,并采用序列二次规划(Sequential Quadratic Programming, SQP)算法和拉丁超立方抽样场景分析法(Scenario Analysis, SA)与之进行对比分析。仿真模型如图2所示,互补模型主要参数见表3。
为进一步阐述本文所提互补模型与优化方法,以四川省小金县某实际光伏电站的出力数据做算例分析,其求解流程如图4所示,具体实施步骤如下:
(1)初始化互补模型的参数,CDLR-DDPG算法超参数以及神经网络的权重与偏置。
(2)随机读入训练集中某一天的光伏、电价、负荷数据。
表3 互补模型主要参数Tab.3 The parameters of hybrid model参 数 数 值P /MW 20 pump max P /MW 20 tur mxbine a SOC (%) 10 min SOC (%) 100 max SOC(%) 55 0 η (%) 83[30]pump η (%) 86[30]T/h 24 t/h turbine Δ 1
文章来源:《水电与抽水蓄能》 网址: http://www.sdycsxn.cn/qikandaodu/2021/0226/470.html