基于强化学习的机组组合问题求解方法研究 毕业论文+外文翻译+Python代码及数据
中文摘要随着我国电力市场制度的逐步发展以及清洁能源的引入,机组组合问题又面临着新的挑战。使用传统方法进行机组组合求解,能够求得经济上的最优解,但是在求解时间上随着系统规模的增大而迅速增大,难以满足当前电力市场快速出清的要求。针对上述问题,本文提出了基于强化学习的机组组合求解方法,在保证电力系统安全约束的情况下实现机组组合问题的快速求解。本文首先对机组组合问题进行混合整数线性规划模型与马尔可夫决策过程的建模。在机组组合的问题背景下,引入了保证电力系统安全约束的混合整数线性规划问题模型,使用该分析方法能够利用 Gurobi 求解器实现求解,给出机组组合问题的最优解。引入了强化学习中马尔可夫决策过程的概念,基于机组组合问题的特点给出状态空间、动作空间、转移概率以及奖励函数,为强化学习打下基础。针对机组组合过程中每一个时段内的决策过程,引入了模仿学习的行为克隆方法。本文给出了一个基于ResNet 网络的智能体结构,并令其模仿混合整数线性规划问题方法给出的在某些场景下的状态决策对,使之能够求解在单时段内的机组组合问题。通过模仿学习,该智能体为强化学习提供了一个基础的策略网络,便于强化学习的求解。最后,本文基于模仿学习给出的智能体作为基础的决策网络,引入了强化学习中的策略梯度算法,使用 ActorCritic 算法对该问题进行求解。提出了使用最优潮流优化限制、屏蔽函数与惩罚函数的三种方法实现了电力系统安全约束在各机组之间上与时序上的安全约束。使用强化学习方法给出的策略模型,能够以远小于优化方法的求解时间给出与优化方法相比成本差不多的解。综上所述,本文的工作实现了对机组组合问题进行了优化问题及马尔可夫决策过程的建模,使用模仿学习得到一个求解单时段机组组合的模型,并使用强化学习使其能求解多时段的机组组合问题。本文引入数据驱动的方法扩展了电力系统优化调度的分析方法。关键词:机组组合;MILP;MDP;模仿学习;强化学习ABSTRACTUsing the traditional method for unit commitment solution, we can find the econom ically optimal solution, but the solution time increases rapidly with the increase of system size, which is difficult to meet the current requirements of rapid market clearing. To solve the above problems, this paper proposes a reinforcement learning based unit combination method to achieve fast solution of the unit commitment problem while ensuring the secu rity constraints of the power system.In this paper, we first model the mixed integer linear programming model and Markov decision process for the unit commitment problem. In the context of the unit commitment problem, a MILP model is proposed to ensure the safety constraints of the power system. The concept of MDP in reinforcement learning is introduced.The behavioral cloning method of imitation learning is introduced for the decision process within each time period of the unit commitment process. In this paper, an agent based on ResNet network is given and made to imitate the statedecision pairs given by the MILP method in certain scenarios to solve the unit commitment problem in a single time period.Finally, this paper introduces the policy gradient algorithm in reinforcement learning based on the agent given by imitation learning as the underlying decision network, and solves the problem using the Actor Critic algorithm. Three methods using OPF optimiza tion restrictions, shielding functions and penalty functions are proposed to achieve the safety constraints of the power system in cross section and in time sequence.In summary, this paper implements the modeling of the MDP for the unit commit ment problem, using imitation learning to obtain a model for solving the single time unit commitment, and using reinforcement learning to enable it to solve the multi time unit commitment problem. This paper introduces a data driven approach to extend the analyt ical approach to optimal scheduling of power systems.Keywords: unit commitment; MILP; MDP; imitate learning; reinforcement learning目 录第 1 章 引言 11.1研究背景 11.2研究现状 11.3研究意义 21.4研究目标与主要工作 31.4.1研究目标 31.4.2主要工作 3第 2 章 机组组合的马尔可夫决策过程建模 52.1概述 52.2主要符号对照表 52.3直流潮流模型 62.4考虑安全约束的电力系统机组组合优化模型 72.4.1决策变量 72.4.2目标函数 82.4.3约束条件 82.5考虑安全约束的电力系统 MDP 建模 92.5.1状态空间 102.5.2动作空间 122.5.3转换概率 122.5.4 奖励 132.6本章小结 13第 3 章 机组组合模仿学习 143.1 概述 143.2主要符号对照表 143.3模仿学习 143.4网络设计 163.4.1问题结构 163.4.2智能体网络 173.5算例分析 193.5.1实际负荷数据 193.5.2生成负荷数据 203.5.3参数设置 203.5.4训练结果 213.6情景分析 223.7本章小结 23第 4 章 机组组合强化学习 244.1 概述 244.2主要符号对照表 244.3主要构成 254.3.1 问题模型 254.3.2 策略 264.3.3价值函数 264.3.4最优价值函数和最优策略 274.4贝尔曼方程 274.4.1一般贝尔曼方程 274.4.2期望贝尔曼方程 284.4.3最优贝尔曼方程 284.5强化学习算法 284.5.1策略梯度法 294.5.2ActorCritic 算法 294.6网络设计 314.6.1安全约束实现 314.6.2Actor 网络 334.6.3Critic 网络 344.6.4训练过程 354.7算例分析 354.7.1 数据 354.7.2参数设置 364.7.3训练结果 374.8本章小结 39第 5 章 总结与展望 40插图索引 42表格索引 43参考文献 44致 谢 47