基于深度强化学习算法的光伏抽蓄互补系统智能(2)
1 光-蓄互补系统描述
图2 光-蓄互补模型Fig.2 Integrated energy system with PV and pump hydro storage
本文以光伏发电与抽水蓄能所构成的互补系统为研究对象,其示意图如图2所示,其中能量流表示系统能量流向,信息流表示系统内部信息传递以及与上级电网之间的通信,即光伏电站根据实际发出功率全额送入电网,抽水蓄能通过控制中心传递的光伏电站当前发电情况来提供功率支撑。
1.1 抽水蓄能的数学模型
本文研究的光-蓄互补发电系统要求全额消纳光伏,即认为光伏为不可控电源,因此不讨论光伏的发电模型。同时,本地负荷以恒功率模型表示。抽水蓄能可在不同时段承担着电源/负荷双重角色[26]。
抽水蓄能工作在发电模式下的数学模型为
式中,为抽水蓄能在t时刻的发电量,MW;ηturbine为发电效率;g为重力加速度;H为水头高度,m;为t时刻的发电水流量,m3/s。
抽水蓄能工作在抽水模式下的数学模型为
式中,为抽水蓄能在t时刻的用电量,MW;ηpump为水泵效率;为t时刻的抽水水流量,m3/s。
上游水库水量的变化可由式(3)计算。
式中,Vt为t时刻的剩余水量,m3;Δt为优化时间间隔,h;tψ为t时刻其他支流的流入水流量,m3/s。
上游水库的剩余水量可以类比蓄电池的荷电状态(State of Charge, SOC),数学定义为
式中,SOCt为t时刻的剩余可用水量百分比;Vur为上游水库最大容量,m3。
1.2 优化模型
本文考虑全额消纳光伏时,抽水蓄能作为功率支撑设备来缓解并网点功率波动。在实时电价模式下,最大化抽水蓄能的经济收益,同时将功率波动转换为经济惩罚,构成优化目标为
式中,ERt为t时刻的收益,$;T为运行周期;λt为t时刻的电价,$/(MW·h);为功率波动的经济惩罚,$,其定义为
式中,φ1、φ2为波动罚金系数,单位分别为$/MW2和$/MW;ΔPt为Δt时间内的功率波动量,MW,Δt=1h定义为
式中,分别为抽蓄参与调节前后t时刻并网点传递的功率,MW,定义为
式中,为t时刻光伏的实发功率,MW;为t时刻的负荷功率,MW;为t时刻抽水蓄能的发出或吸收功率,MW。定义
1.3 约束条件
忽略系统内部网损,互补系统需要满足以下约束条件:
1)功率平衡约束,如式(9)。
2)抽水蓄能最大用/发电功率约束。
3)上游水库水量约束。
1.4 优化变量
定义优化变量x为抽水蓄能在t时刻的用/发电功率。
2 深度强化学习建模
马尔可夫过程(Markov Process, MP)表示系统在下一个时刻的状态只与当前时刻的状态相关[27]。由于本文所研究的智能调度问题是在一个含有随机性光伏出力的环境中做出的最优决策,因此,可以将该问题建模成一种离散的、有限步骤的马尔可夫决策过程(Markov Decision Process, MDP)[28]。
2.1 智能调度问题向强化学习任务的转换
对于一个强化学习问题必须具备智能体与环境两个条件,其学习过程表现为:根据智能体策略和环境信息,智能体采取相应的动作使得累积奖励最大。深度强化学习最初应用于游戏领域,并取得了非凡的成就[29];但电力系统模型不同于游戏环境,因此,如何将电力系统问题转换为适应强化学习任务是其成功应用于电力系统的关键。
本文所研究的光-蓄互补系统可作为动态随机环境,抽水蓄能的发/用电功率作为智能体的动作at,即
光-蓄互补系统中,对于任意时刻t,光伏的实际发电量、负荷、电价、并网点功率差、抽蓄的工况和上游水库剩余水量作为状态,状态st定义为
在at作用下环境反馈的奖励值可由优化目标ERt体现(见式(5)),即
由于智能体在学习过程中的目标是最大化奖励,但是最优策略*π必须满足互补模型中的约束条件,因此,需将约束条件合理地转换为奖励函数的一部分。互补模型中,能量平衡约束由式(9)自动满足,抽水蓄能的最大用/发电功率约束体现在对动作值的限幅,因此,只需转换上游水库水量约束(SOC),本文以惩罚函数的形式表示为
式中,3φ、4φ为惩罚系数,$/MW,通常取值较大且与模型相关。
从状态st开始的一次探索过程所对应的累积奖励Rt为
式中,γ为奖励折扣系数,γ∈ [ 0,1]。
文章来源:《水电与抽水蓄能》 网址: http://www.sdycsxn.cn/qikandaodu/2021/0226/470.html