发布时间:2021-05-08所属分类:免费文献浏览:1次
摘 要: 电测与仪表
《基于深度森林的电力系统暂态稳定评估方法》论文发表期刊:《电测与仪表》;发表周期:2021年02期
《基于深度森林的电力系统暂态稳定评估方法》论文作者信息:李淼(1976—) ,女,高级工程师,博士,主要从事电力系统调度运行工作。
摘要:快速准确地实现暂态稳定评估,是电力系统安全运行的重要保障。近年来迅速发展的深度学习技术已经成为解决这一问题的有效手段,然而基于神经网络的深度学习模型存在着调参困难、训练时间长和样本需求量大等缺点。文中将故障切除时刻系统的物理量作为输入特征,以系统的暂态稳定状态作为输出结果,采用集成决策树方法,构建了基于深度森林的电力系统暂态稳定评估模型。新英格兰39节点系统的算例分析表明,所提方法与深度神经网络相比,参数设置简单、训练速度更快,即使在训练样本数量较少时也能有效避免过拟合,具有良好的泛化能力。
关键词:深度学习;暂态稳定评估;深度森林
Abstract: The quick and precise implementation of transient stability assessment (TSA) is of great significance for the safe operation of power system. In recent years, the rapid development of deep learning techniques has become the effective measures to deal with this issue. However, the deep learning models based on neural networks have some drawbacks including difficulty in parameter regulation, long training time and big demand of samples. In this paper, we establish a transient stability assesment model for power system based on deep forest. Some physical characteristics at the fault clear-ing moment are selected as the input features, and the transient stability state of a system is considered as the output result. The simulations on New England 39-bus svstem show that, compared with the deep neutral network, the proposed method has advantages in simple parameter setting, rapid training speed, moreover, it can effectively avoid over-fitting and has a good generalization ability even when the number of training samples is small
Keywords: deep leaming, transient stability assessment, deep forest
0 引言
现代电力系统的规模不断增大,网架结构日益复杂,对系统的安全稳定分析技术提出了更高的要求,暂态稳定评估即是其中的一个重要环节0。电力系统的暂态稳定反映了系统在遭受短路等严重故障后,各发电机保持同步运行的能力口,又被称为大扰动功角稳定。如何在故障后快速准确地实现哲态稳定预测已成为近年来的研究热点54目前,电力系统暂态稳定分析手段主要包括时域仿真法、直接法国和人工智能方法。时域仿真法数学模型直观且计算结果准确,但计算速度较慢,难以满足在线评估需求,因此被广泛用于离线分析与校核。直接法基于能量观点进行暂态稳定计算[1,具有明确的物理意义,但结果比较保守,并且往往难以找到合适为能量函数。而电力系统中广域测量信息的不断丰富完善,则为人工智能、数据挖掘技术在暂态稳定研究中应用提供了广阔的前景。
作为人工智能的核心技术,机器学习为快速准确地实现暂态稳定评估提供了新的解决方案。从机器学习的角度来看,暂态稳定评估通常是一个二分类问题[21,即判断系统是否稳定。解决这一问题的关键在于,分类器通过离线训练从样本中学习特征量与系统暂态稳定状态之间的映射关系,在线应用时即可利用实时运行数据快速预测系统的哲态稳定性[)0人工神经网络[4、支持向量机[13、决策树[1等经典机器学习算法都已被应用于暂态稳定评估。然而这些模型大多都属于浅层模型,拟合能力有限,无法保证对复杂分类问题的泛化性能。近年来,迅速发展的深度学习技术在故障诊断、图像识别和欺诈检测等任务上表现出了优于浅层模型的效果。包括卷积神经网络[2、深度置信网络08和自动编码器[在内的多种深度学习算法也已被引入电力系统暂态稳定分析领域,显著提升了评估准确率。这些模型在本质上都属于深度神经网络(Deep Neural Networks,DNN),训练速度较慢,需要人为设置的参数众多,并且模型的泛化能力受参数影响程度较大,因此确定参数的过程将花费大量的时间。同时,DNN要大量的样本来避免过拟合,但实际的电力系统运行数据不一定能提供足够的标注样本供其训练。以上问题都对将深度学习技术用于电力系统暂态稳定评估造成了一定的阻碍。
深度森林(Deep Forest,DF)是近年提出的深度学习新算法,在多种复杂分类任务上表现出了姚美或超越DNN的性能21,同时具有更快的训练速度和更好的参数鲁棒性,并且能够适应不同规模的训练集。文中将深度森林引入电力系统暂态稳定评估领域。将故障切除时刻的有功、无功、电压幅值、相角等物理量作为输入特征,对极限随机树等集成树模型以“特征拼接”的方式进行级联,采用“早停止”策略自动决定模型的深度,从而避免了人为设计模型结构带来的困难,并使模型能适应不同规模的训练集。仿真结果表明,作为一种深度学习模型,深度森林拥有比浅层模型更好的泛化能力,同时能弥补深度神经网络训练速度慢、调参难度高和样本需求量大的不足。
1深度森林算法
与深度神经网络不同,深度森林是以决策树为基础构建的深层模型。完整的深度森林包括多粒度扫描和级联森林两个阶段,多粒度扫描类似于卷积神经网络的卷积过程,需要四维数组形式的输入特征,主要用于图像或序列数据的局部特征抽取。利用二维数组形式(样本数量×特征维数)的故障切除时刻数据进行电力系统暂态稳定评估,因此只采用了级联方法构建深度森林。
1.1 随机森林
随机森林(Random Forests,RF)是Leo Breiman[2提出的一种重要的集成学习模型。如图1所示,一个随机森林分类器由N棵决策树{h(x,0,k =1...,M)}组成,其中0,是一个随机向量,表示一棵决策树的参数,所有的0,k=1...,n均独立同分布。对于一个待预测样本x,每一棵决策树都对其进行投票分类,获得总票数最高的类别即被认为是该样本所属类别。即:
式中 H( x) 表示集成的随机森林; hk 是第 k 棵决策树; y 代表待测样本的真实类别; I(·) 为指示函数( 在·为真和假时分别取 1 和 0) 。
随机森林的随机性主要体现在“样本扰动”和“属性扰动"2]两个方面。首先,在构建决策树作为基分类器的过程中,采用了bootstrap方法对原始训练集进行采样。即对于每一棵决策树h,,都从包含m个样本的原始训练集D中进行m次有放回的抽样,从而得到N个不同的含m个样本的训练集D,(k=,...)。-
个采样集中,有部分原始样本会被采样多次,也有部分原始样本从未被选中。经过bootstrap,每个D,大约包含了D中63.2%的样本2,因此每一棵决策树所使用的训练集都不完全相同。
另外,在训练决策树时,还包含随机的特征选择过程。对于CART决策树,当前结点包含的样本集S的纯度可用基尼值描述:
式中 pk 是当前样本集 S 中第 k 类样本所占比例。由定义可知,Gini( S) 反映了样本集 S 中任意两个样本属于不同类别的概率。因此 Gini( S) 越小,S 的纯度越高。若特征 a 共有 J 个离散的取值{ a1,a2,…,aJ } ,利用该特征对样本集 S 进行划分后则会得到 J 个子结点,第 j 个子节点包含了所有特征 a 的取值为 aj 的样本,记为 Sj。于是特征 a 的基尼指数可以定义为:
一般的决策树在分裂结点时,会在当前结点包含的所有 d 个特征中进行比较,基尼指数最小的特征 a*即是最优划分特征:
对于随机森林,则是先从结点的特征集合中随机抽取出一个特征子集,其中包含 d' 个特征,再从该特征子集中筛选出最优划分特征。显然,d'= d 即代表普通决策树的生长方式。一般情况下,d' 的取值可根据式( 5) 确定[24]。
对于特征取值连续的情况,可以基于一个分割阈值1将S划分为特征a取值大于1的样本集S"和特征a取值小于1的样本集S-。基尼指数相应地变为Gini_index(S,a)。
提高基分类器之间的差异性是保证集成学习模型泛化能力的关键。利用“样本扰动”和“属性扰动"带来的随机性,随机森林可以构建出多样的决策树,从而获得更好的分类性能。
1.2 极限随机树
极限随机树(Extremely Randomized Trees,Extra Trees,ET)与随机森林的原理十分相似,二者仅有两个主要的区别。一方面,极限随机树没有经过hootstrap而是将全部训练集样本用于每一棵决策树的训练。另一方面,对于取值连续的数值型特征,极限随机树会随机选择特征分割阈值,从而进一步增加模型的随机程度。这样一来,虽然构建所有决策树时使用的样本相同,但由于分裂结点时的特征划分是随机的,得到的决策树依然会有明显的差异。从“方差-偏差"分解的角度来看[1,提高随机性意味着模型的方差减小而偏差增大,对于拟合能力较好的集成模型而言,这往往可以带来更好的泛化能力。同时,由于省去了boostrap 抽样以及计算最优分割阈值的过程,极限随机树的训练速度会显著快于随机森林。
1. 3 级联森林
图 2 描述了深度森林的级联方式。以二分类为例,一个 n 维输入样本[x1,x2,…,xn]经过一层随机森林会得到一个二维类向量预测结果[c1,c2],将该结果与原 n 维样本拼接,作为下一层随机森林的输入。经过多层随机森林的级联后,以最后一层随机森林的预测结果中最大值对应的类别作为最终的预测类别。
在深度森林的训练过程中,采用了k折交叉验证的方式避免过拟合,即对每一层随机森林得到的k-1个二维类向量取均值后再作为下一层的输入。另外,与深度神经网络需要人为确定网络层数的方式不同,深度森林在训练时会自动决定模型的规模。每生成一层新的随机森林,都使用测试集交叉检验模型的准确率是否提升,如果没有则停止生成下一层森林,并以当前结构作为模型最终结构。这种“早停止”策略不仅可以大幅减少人为调整参数的工作量,还能使深度森林模型具有良好的自适应学习能力,无需针对不同规模的训练集设置不同的模型参数和结构。
2暂态稳定评估流程
基于深度森林的暂态稳定评估流程主要包括离线训练和在线预测,如图3所示。离线训练时,首先需要筛选出能够反映电力系统暂态稳定性物理量作为输入特征,然后设置不同的运行方式和故障条件,进行时域仿真,并记录这些物理量的具体数值,从而获得足够的样本。为了保证泛化性能,将得到的样本随机划分为训练集和测试集,利用训练集训练模型,然后根据模型在测试集上的测试结果对参数进行相应的调整。在线预测时,将实时获得的电力系统运行数据输入离线训练好的模型,即可得到系统的暂态稳定状态预测结果。
为了构建合适的输入特征,不仅要考虑物理量与系统暂态稳定状态的相关性,还要考虑特征在实际的电力系统中能否通过广域测量系统实时获取或快速计算得到。假定系统在一次故障的暂态过程中没有再次发生故障,那么系统的暂态稳定状态在故障切除瞬间就已经确定。因此本文选择了故障切除时刻的有功、无功、电压幅值和相角等易于量测的非状态量[13]作为输入特征,具体的特征类型如表 1 所示。
3 算例分析
新英格兰 10 机 39 节点系统包含 10 台发电机,39条母线与 46 条传输线,是暂态稳定分析领域常用的标准测试电网[12,18],因此文中也采用该电网作为仿真算例。
3. 1 数据集生成
为了得到用于模型训练与测试的数据集,基于PSS/E软件进行时域仿真,参数设置如下。同步发电机采用相对精确的六阶模型,负荷则采用恒阻抗模型。
负荷水平在70%~120%之间变化,同时发电机相应调整其出力。由于暂态失稳情况通常只在严重的扰动后发生,故障类型采用最严重的三相接地短路故障[
故障位置位于各传输线的首末端及20%、40%、60%和80%处,故障持续时间为0.1 s,0.2 s或0.3s。考虑到暂态稳定分析的时间尺度通常在10s-20 s内2,将仿真总时长设置为20s。仿真结束时刻若任意两台发电机之间的功角差大于3600,则将该样本标注为暂态失稳E。通过时域仿真共获得5775个样本,其中稳定样本1885个,失稳样本3890个。
3.2测试结果及分析
3.2.1 模型性能测试
随机选择数据集中的一半样本作为训练集,另一半作为测试集,得到各模型测试结果如表2所示。
表2中,决策树是深度森林对应的浅层模型,单隐层的人工神经网络(Artificial Neural Networks,ANN)则是深度神经网络对应的浅层模型。其中DNN是含有10隐层深度神网,DF(RF based)和DF(ET based)分别代表基于随机森林和极限随机树的深度森林。可以发现,与对应的浅层模型相比,深度学习方法虽然训练时间相对较长,但在准确率上均有较大的提升。而两种深度森林不仅具有比DNN更高的准确率,在训练时间上也明显快于DNN,其中,基于ET的深度森林比基于RF的深度森林计算速度更快,并且泛化效果更好。
3.2.2 参数敏感程度分析
影响DNN性能的参数主要包括隐含层和隐含层
神经元的数量、学习率、激活函数类型等,其中隐含层的设计与调整往往需要耗费大量时间。与DNN相比,深度森林具有良好的自适应能力,可以自行确定级联的层数,需要人为设置或选择的主要参数仅有树模型的类别( RF、ET 或其他集成树模型) 以及集成模型的基分类器数量。更关键的是,深度森林对于参数的敏感性较低,在使用默认参数也可以情况下也可以获得较好的效果。因此,随机森林的调参过程相对简单很多。图 4 以最关键的参数—极限随机树的基分类器数量为例,说明了深度森林对参数具有良好的鲁棒性。
3. 2. 3 训练集数量的影响
基于神经网络的深度学习模型在小样本集的条件下容易出现过拟合,因此往往需要较大的样本数量。为了分析样本数量对深度学习方法的影响,随机选择原有 5 775 个样本中的 20% ( 即 1155 个样本) 作为测试集,训练集则分别设置为样本总量的 80% ( 4 620 个样本) ,60% ( 3 465 个样本) ,40% ( 2 310 个样本) 和 20% ,确保训练集和测试集不存在交叉,评估结果如图5 所示。图 6 则给出了训练集样本数量对模型训练时间的影响。
由图5可以发现,在训练集样本数量变化的过程中,两种深度森林模型始终具有比DNN更高的准确率,其中基于极限随机树的模型比基于随机森林的模型性能略好。训练样本占样本总量80%时,DNN也可以达到98%以上的准确率。但当训练样本减少到2000个甚至1000个时,DNN的准确率就会下降到96%左右,而两种深度森林模型则依然保持在98%以上。这是因为,深度神经网络往往具有比较复杂的结构和模型假设,在没有大量训练数据的情况下,很容易受到局部离群点或噪声的影响,造成过拟合现象。图7以曲线拟合为例说明了数据量对模型过拟合程度的影响。其中图7(a)共30个数据点,图7(b)共300个数据点。可以发现图7(b)的拟合曲线更光滑,而数据较少的图7(a)曲线出现了明显的局部过拟合。深度森林模型由于采用了早停止策略来自动决定级联的层数,从而控制了模型的复杂度,能够很好地适应不同规模的训练集,减少了过拟合。因此可以有效解决DNN不适用于小训练样本集的问题。另一方面,图6反映出,当训练集增加时,DNN的耗时增加幅度远高于深度森林,意味着在大规模数据集上深度森林有更明显的速度优势。
4结束语
利用深度森林模型实现电力系统暂态稳定评估,克服了深度神经网络样本需求量大、训练时间长、调参
难度大的缺点。采用故障切除时刻的有功功率和无功功率以及电压幅值与相角作为输入特征,将随机森林等集成树以级联方式构建深度森林模型。以新英格兰
39节点系统作为仿真分析算例,将深度森林与深度神
经网络以及它们对应的浅层模型进行对比,结果表明
所提方法在评估准确率、训练速度、参数鲁棒性以及小
样本学习等方面具有一定的优势,因此可以作为深度
神经网络的一种高效替代手段。
与深度神经网络复杂的“黑箱”模型相比,树模型
的可解释性是一个突出的优点,如何利用这一优势进一步挖掘各物理量对系统暂态稳定状态的影响程度,是下一步研究的重点。
参考文献
[1]YUJ,HIL.D,LAM A,et al.Intelligent Time-adaptive transient stability assesment system[.IEEE Transactions on Power Systems,2017,33(1):10494058.
[2]IEEE/CIGRE joint task force on stability terms and definitions.Definition and classification of power system stability[].IEFE Transactions on Power Systems,2004,19(2):1387-401.
[3]DL 755-2001,电力系统安全稳定导则[S].
[4]孙华东,汤涌,马世英,电力系统稳定的定义与分类述评D].电网技术,2006,(17):3135.
[5]姜涛,王长江,陈厚合,等,基于正则化投影李生支持向量机的电力系统暂态稳定评估D.电力系统自化,2019,43(1):141451.
[6]张玮灵,胡伟,闵勇,等,稳定域概念下考虑保守性的电力系统在线暂态稳定评估方法D.电网技术,2016,40(4):992998.
[7]Tang C K,Graham C E,El-Kady M,et al.Transient stability index from conventional time domain simulation[].IEEE Transactions on Power Systems,1994,9(3):15244530.
[8]薛禹胜.EEAC与直接法的机理比较D].电力系统自动化,2001,
25(11):641.
[9]汤奕,崔晗,李峰,等,人工智能在电力系统暂态问题中的应用综述D.电机工程报,2019,39(1):2-3,315.
[10]罗恒,刘涤尘,史秋芸,等,基于暂态能量函数的核电机组接入电网哲态稳定性研究[.电网技术,2013,37(1):119-25.
[11]吴为,汤涌,孙华东,等,基于广域量测信息的电力系统暂态稳定研究综述[].电网技术,2012,36(9):81-87.
[12]周悦,谭本东,李森,等,基于深度学习的电力系统暂态稳定评估方法[.电力建设,2018,39(2):103408.
[13]胡伟,郑乐,闵勇,等,基于深度学习的电力系统故障后暂态稳定评估研究D].电网技术,2017,41(10):31403146.
[14]姚德全,贾宏杰,赵帅,基于复合神经网络的电力系统暂态稳定评估和裕度预测D].电力系统自动化,2013,37(20):4146.
[15]戴远航,陈磊,张玮灵,等,基于多支持向量机综合的电力系统暂态稳定评估D].中国电机工程报,2016,36(5):1173-4180.
[16]王康,孙宏斌,张伯明,等,基于二维组合属性决策树的暂态稳定评估[D].中国电机工程报,2009,29(1):17-24.
[17]朱乔木,陈金富,李弘毅,等,基于堆叠自动编码器的电力系统暂态稳定评估D].中国电机工程报,2018,38(10):2937-2946.
[18]朱乔木,党杰,陈金富,等,基于深度置信网络的电力系统暂态稳定评估方法D].中国电机工程报,2018,38(3):73543.
[19]尹雪燕,闫炯程,刘玉田,等,基于深度学习的暂态稳定评估与严重度分级[].电力自动化设备,2018,38(5):6469.
[20]Zhou Zhihua,Feng Ji.Deep Forest:towards an alternative to deep neural networks[EB/OL],[2019-528].https://arxiv.org/abs/1702.08835.
[21]陈吕鹏,殷林飞,余涛,等,基于深度森林算法的电力系统短期负荷预测[].电力建设,2018,39(11):42-50.
[22]刘天琪.现代电力系统分析理论与方法[M].北京:中国电力出版社,2012.
[23]Wang B,Fang B,Wang Y,et al.Power system transient stability assessment based on big data and the core vector machine[].IEEE Transactions on Smart Grid,2016,7(5):2561-2570.
[24]Breiman L.Random forests[].Machine Learning,2001,45(1):5-32.
[25]周志华,机器学习[M].北京:清华大学出版社,2016.
[26]Geurts P,Ernst D,Wehenkel L.Extremely randomized trees[].Machine Learning,2006,63:342.
SCISSCIAHCI