发布时间:2021-03-24所属分类:免费文献浏览:1次
摘 要: 信息技术
《泛在电力物联网的用户侧电力大数据关键技术》论文发表期刊:《信息技术》;发表周期:2020年10期
《泛在电力物联网的用户侧电力大数据关键技术》论文作者信息:熊学锋(1989-),男,硕士,研究方向为营销信息技术、数据库、营销信息安全等。
摘要:针对目前用户侧电力大数据挖掘技术存在数据挖掘准确率、训练集分类精度、数据挖掘效率较低的问题提出了基于泛在电力物联网的用户侧电力大数据关键技术。在泛在电力物联网中,确定正常电力大数据与异常数据之间的关系,计算异常电力大数据特征,加叔处理电力大数据,完成电力大数据特征提取,采用数据概率理论结合电力大数据预处理方法,将泛在电力物联网应用到数据挖掘算法中,设计用户侧电力大数据挖掘算法,通过分析电力大数据现状、预处理电力大数据、数据抱掘以及评估挖掘结果,设计用户侧电力大数据抱掘流程,实现用户侧电力大数据的挖掘。实验结果表明,基于泛在电力物联网的用户侧电力大数据挖掘准确率及训练集分类精度较高,且能够有效提高数据挖掘的效率,具有更好的挖掘性能。
关键词:电力物联网;用户侧:电力大数据;挖掘技术
Abstract: There are problems of data mining accuracy, training set classification accuracy, and data mining efficiency in the current userside power big data mining technology. The key technology of userside power big data based on ubiquitous power Intemet of Things is proposed. In the ubiquitous power Intemet of Things, the relationship between normal power hig data and abnormal data is detemined, the abnormal power big data features are determined, the power big data, complete the power big data featureextraction is weighted, data probability theory combined with power big data Processing methods is used, the ubiquitous power Internet of Things is applied to the data mining algorithm , the user-ide power big data mining algorithm is designed. The user-side power big is designed by analyzing the status of power big data, preprocessing power big data, data mining, and evaluating the mining resuls The data mining process realizes the mining of big data on the user side. The experimental results show that the userside power hig data mining accuracy based on the ubiquitous power Intemet of Things is high and the training set classification accuracy is high, and it can effectively improve the efficiency of data mining and have better mining performance.
Key words: power loTs; user side: power big data; mining technology
0 引言
由于用户端电力大数据的数据量较大,且电力大数据的类型较多,因此在对电力大数据进行挖掘的过程中,必须满足配电网站内、站外数据的相关性要求,并通过从电力系统数据库中提取其中隐含的信息,来解决用户侧电力大数据所面临的关键问题。但目前对数据挖掘技术的研究还处于起步阶段,由于配电网用户侧电力大数据规模较大,且大量数据丢失,不能满足电力大数据的训练需求D-文献[4]提出了基于改进K-means算法的电力大数据挖掘技术,以改进Kmeans算法为基本架构,结果验证该技术可以满足电力故障的诊断要求,且针对电力大数据训练集处理时间较短、效率较高,但该技术数据挖掘准确率较低。文献5]提出了基于随机矩阵理论的电力大数据挖掘技术是针对用户侧电力大数据的特点,提取数据挖掘工作所需的电力大数据,利用随机矩阵理论架构剔除了冗余的数据,结果验证了该数据挖掘技术可以降低电力系统的运行成本,但该技术对于电力大数据训练集分类精度较差。
1 用户侧电力大数据分析技术设计1.1 提取用户侧电力大数据特征在泛在电力物联网中,提取用户侧电力大数据特征,并提取用户侧电力大数据库中所有异常电力大数据特征的平均值,所有数据特征共同构成特征矩阵T,特征矩阵中的电力大数据G[],电力大数据特征差异E,=G(y-)2]。在提取用户侧电力大数据特征过程中,将正常电力大数据特征与异常电力大数据特征进行对比回,两种电力大数据之间的对应关系为:
式中,α 表示关系系数; WT 表示正常电力大数据特征矩阵; wi 表示正常电力大数据特征。异常电力大数据特征 y 的计算过程为:
用户侧电力大数据特征提取过程中,利用式( 3) 可以对电力大数据特征进行加权处理:
式中,^y 表示电力大数据加权处理结果; p、q 分别表示加权处理次数; αk、βk 分别表示正常、异常数据加权结果; wk 表示电力大数据权重。
用户侧电力大数据特征提取误差为:
式中,ψ 表示特征提取误差; G 表示数据特征,当βk = G[αk] = wkG[y] = wk y珋时,电力大数据特征的
提取误差值最小,可以确保电力大数据提取的精准度[7 -9]。电力大数据特征提取结果为:
式中,中表示电力大数据特征提取结果。
在泛在电力物联网中,确定了正常电力大数据与异常数据之间的关系,通过对电力大数据异常特征进行计算加权处理,得到电力大数据特征的提取误差最小时的结果,完成电力大数据特征提取,接下来通过电力大数据库挖掘算法的设计,为电力大数据挖掘奠定基础。
1.2 用户侧电力大数据挖掘算法设计电力大数据挖掘是以数理统计为基础的挖掘算法,应用数据概率理论与统计学为主要核心对用户侧电力大数据进行挖掘[1-1,用户侧电力大数据挖掘算法原理为:假设用户侧电力大数据集中共包含k类电力大数据,记作C=iC,C2,..,ch,不同类别数据集中C,的先验概率通常表示为P(C),其中,i=1,2,...
k。将用户侧电力大数据训练集中属于C,的电力大数据样本数量记作N,用户侧电力大数据总样本数为N,电力大数据样本x在C,类别上的数据量记作x,则有:
基于泛在电力物联网的原理[14],计算 Ci 类别用户侧电力大数据的后验概率为:
将计算得到的后验概率最高的电力大数据样本
作为用户侧电力大数据样本x进行分类,因为在实际应用中,令用户侧电力大数据样本x可能存在的类别记作c(x),由于实际应用中P(x)作为一个常数量,与C,之间没有任何关联,因此将P(x)删除,可以得到c(x)的计算公式为:
由于用户侧数据集中的电力大数据样本x通常
是由多个不同属性值构成的,因此,电力大数据样本的表达为(a,a2,..a),此时电力大数据样本x的分类c(x)计算如下:
用户侧电力大数据挖掘算法在具体应用时,电
力大数据测试样本的属性值来自训练样本,无法保证电力大数据样本集包含所有问题[7,因此将用户侧电力大数据样本 X 属于 Ci 类别时,Ai 为 ai 的条件概率:
式中,n表示电力大数据样本值的总和:n,表示在C类别中A,= a,出现的具体次数:n,表示第j类的电力大数据样本数量n,的总和:m,表示A,可能出现的值总数。
用户侧电力大数据挖掘算法对用户侧电力大数据测试集的电力大数据挖掘过程中,先对电力系统变压器测试数据集进行数据预处理,将用户侧电力大数据组织成输入文本格式,然后利用泛在电力物联网完成对电力大数据测试集的数据挖掘[。用户侧电力大数据挖掘算法计算待测试的电力系统变压器用户侧数据集中电力大数据属性特征词出现的频数并归并,最终获得用户侧电力大数据挖掘结果。
用户侧电力大数据挖掘算法原理如图1所示。
通过图1分析,用户侧电力大数据挖掘过程中,电力大数据预处理的方法,将泛在电力物联网应用到数据挖掘算法中,研究了用户侧电力大数据挖掘算法的执行步骤,利用用户侧电力大数据挖掘算法原理,完成了用户侧电力大数据挖掘算法设计,接下来通过用户侧电力大数据挖掘流程设计,实现用户侧电力大数据的挖掘。
1.3挖掘用户侧电力大数据用户侧电力大数据数据的挖掘过程可以分为电力大数据现状分析、电力大数据的准备和预处理、数据挖掘以及挖掘结果的解释和评估,用户侧电力大数据挖掘过程示意图,如图2所示。
泛在电力物联网中用户侧电力大数据数据挖掘的具体步骤如下:步骤1:分析用户侧电力大数据现状。
用户侧电力大数据挖掘的目标是从大量的电力大数据中发现有价值的电力大数据信息,从而找出电力大数据信息,成为整个挖掘过程中的重要环节。分析用户侧电力大数据的现状,挖掘人员必须与电力领域的专家以及最终用户之间建立紧密的合作关系。首先明确了实际工作对电力大数据挖掘的要求,其次对不同种类挖掘算法进行了比较,从而确定了有效的挖掘算法。
步骤2:电力大数据的数据收集和预处理。电力大数据收集的目的是确定所选挖掘任务的目标电力大数据,根据用户的不同需求,从原用户侧电力大数据库中提取数据特征。电力大数据预处理是数据挖掘过程中的一个非常重要环节。它可以消除电力大数据的噪声,推导和计算丢失的用户侧电力大数据,并消除重复的处理记录,完成离散电力大数据和连续电力大数据之间的相互转换,从电力大数据初始特征中获取有效的数据特征,减少数据挖掘过程中必须考虑的变量特征,从而降低电力大数据的维数。
步骤3:挖掘用户侧电力大数据。
在分析电力大数据应用现状的基础上,确定电力大数据挖掘的任务和目标,基于泛在电力物联网的数据挖掘算法,明确挖掘算法实施时应考虑的两个因素。一方面,不同的电力大数据有不同的特点,因此需要利用相关数据挖掘算法,挖掘用户侧和电网系统的实际需求2。另一方面,有些用户想要得到易于理解的电力大数据信息,而有些用户则想要得到精确的电力大数据,无论这些电力大数据是否符合用户需求。
步骤4:挖掘结果的解释和评估。
被挖掘的电力数据模式可能存在冗余的数据或与数据挖掘阶段无关的模式。这时,需要将冗余的电力大数据消除,否则挖掘到的电力大数据可能不能满足用户需求。整个评估过程需要回到数据挖掘的阶段,比如重新选择电力大数据回,采用新的数据转换方式,设置新的挖掘参数值,通过改变挖掘算法完成用户侧电力大数据的挖掘。
用户侧电力大数据的挖掘流程如图3所示。数据挖掘的质量主要取决于两个因素:一是采用的数据挖掘算法是否有效:二是挖掘所用电力大数据的数量和质量。若电力大数据的数据转换格式不正确,就会影响最终的挖掘结果。
综上所述,在泛在电力物联网中提取了用户侧电力大数据特征,根据数据挖掘算法设计,实现了用户侧电力大数据的挖掘。
2实验对比分析2.1实验数据
电力大数据挖掘性能对比实验采用电力系统用户侧的数据库,数据库中包含1103201条电力大数据,首先将用户侧电力大数据划分成训练集和测试集两个集合,采用人工标记的方式,对训练集中的电力大数据进行标记。
2.2用户侧电力大数据挖掘准确率对比实验在测试数据集上进行数据挖掘准确率对比实验,采用基于改进K-neans算法的电力大数据挖掘技术和基于随机矩阵理论的电力大数据挖掘技术作为实验对比对象,得到数据挖掘准确率对比结果,如图4所示。
从图4的实验结果可以看出,随着测试数据集不断增大,基于改进K-means算法的电力大数据挖掘技术的电力大数据挖掘准确率逐渐提高,当测试数据集为70 x 10'时,数据挖掘准确率接近了60%,随后几乎没有变化:基于随机矩阵理论的电力大数据挖掘技术的数据挖掘准确率高于基于改进K-means算法的电力大数据挖掘技术,但是仅提高了10%;而基于泛在电力物联网的用户侧电力大数据挖掘技术,虽然在电力大数据测试数据集为10x
10"时的准确率只有22%,但是当电力大数据测试数据集为40 x 10'时,其数据挖掘准确率就超过了基于改进Ktneans算法的电力大数据挖掘技术和基于随机矩阵理论的电力大数据挖掘技术的最大值,当电力大数据测试数据集为100 x 10时,基于泛在电力物联网的用户侧电力大数据挖掘技术的数据挖掘准确率高达93%。因此,基于泛在电力物联网的用户侧电力数据挖掘技术具有最高的准确性。由于被挖掘的电力数据模式可能存在冗余的数据,基于泛在电力物联网的用户侧电力数据挖掘技术消除冗余的电力大数据,从而提高电力大数据挖掘准确率。
2.3 用户侧电力大数据训练集分类精度对比实验利用预处理后的用户侧电力大数据,在电力大数据训练集中,分别采用基于改进K-means算法的电力大数据挖掘技术、基于随机矩阵理论的电力大数据挖掘技术作为实验对比对象,得到电力大数据训练集分类精度对比结果,如图5所示。
从图5的实验结果可以看出,当电力大数据训练集为30 x 10时,基于改进K-neans算法的电力大数据挖掘技术的训练集分类准确率为58%,基于随机矩阵理论的电力大数据挖掘技术的训练集分类准确率为37%,而基于泛在电力物联网的用户侧电力大数据挖掘技术的训练集分类准确率为77%:当电力大数据训练集为100 x 10'时,基于改进Kmeans算法的电力大数据挖掘技术的训练集分类准确率为64% ,基于随机矩阵理论的电力大数据挖掘技术的训练集分类准确率为 60% ,而基于泛在电力物联网的用户侧电力大数据挖掘技术的训练集分类准确率高达92%。由此可知,基于泛在电力物联网的用户侧电力大数据挖掘技术的训练集分类准确率最高。因为基于泛在电力物联网的原理,计算不同类别用户侧电力大数据的后验概率,能够保证用户侧电力大数据训练集分类精度。
2.4 用户侧电力大数据挖掘效率对比实验为了验证基于泛在电力物联网的用户侧电力大数据挖掘技术的数据挖掘效率,采用基于改进K-
means算法的电力大数据挖掘技术、基于随机矩阵理论的电力大数据挖掘技术作为实验对比对象,对比电力大数据训练集处理时间,结果如图6所示。
从图 6 的实验结果可以看出,当电力大数据训练集为 50 × 103时,基于改进 K-means 算法的电力大数据挖掘技术的训练集处理时间为43s,基于随机矩阵理论的电力大数据挖掘技术的训练集处理时间为61s,而基于泛在电力物联网的用户侧电力大数据挖掘技术的训练集处理时间为25s;当电力大数据训练集为100 x 10"时,基于改进K-means算法的电力大数据挖掘技术的训练集处理时间为60s,基于随机矩阵理论的电力大数据挖掘技术的训练集处理时间为85s,而基于泛在电力物联网的用户侧电力大数据挖掘技术的训练集处理时间为30s。由此可知,基于泛在电力物联网的用户侧电力大数据挖掘技术的训练集处理时间较短,电力大数据挖掘效率较高。因为基于泛在电力物联网的用户侧电力大数据挖掘技术能够从电力大数据初始特征中获取有效的数据特征,减少数据挖掘过程中必须考虑的变量特征,从而降低电力大数据的维数,有效提高电力大数据挖掘效率。
基于以上实验结果,在电力大数据训练集和测试集变化形式相同的情况下,基于泛在电力物联网的用户侧电力大数据挖掘技术的数据挖掘准确率、训练集分类精度和数据挖掘效率均较高。
3结束语
为了解决目前用户侧电力大数据挖掘技术存在的问题。本文提出了基于泛在电力物联网的用户侧电力大数据关键技术。通过确定正常电力大数据与异常数据之间的关系,加权处理电力大数据,提取电力大数据特征,采用数据概率理论并预处理电力大数据,设计用户侧电力大数据挖掘算法,通过用户侧电力大数据挖掘流程,实现用户侧电力大数据的挖掘。实验结果显示,基于泛在电力物联网的用户侧电力大数据挖掘准确性和分类精度较高,并且有效降低电力大数据处理时间,具有更好的挖掘性能。
参考文献:
[1]包永红云计算技术下数据挖掘平台设计及技术[]现代电子技术,2016,39(16):61-63.
[2]王曙霞,胡瑞敏,梁意文,等,云服务器中的不稳定数据挖掘系统的研究与设计[].现代电子技术,2016,39(6):49-52.
[3]宁琳·一种基于句法规则的文本挖掘技术的设计D].现代情报,2016,36( 2) : 140 - 144.
[4]李金湖,基于改进K-neans算法的电力大数据系统研发0].电子测量技术,2018,41(13):23-28.
[5]王艺罪,李贤,来骥,等,基于随机矩阵理论的智能电网大数据体系结构设计[.计算技术与自动化,2019,38(3):17-21.
[6]王伟,黄字星,余鸿敏,基于CART决策树的冲压成形仿真数据挖掘D].工程科学报,201 8,40(11):1373-1379.
[7]赵逸智,张云峰·大数据环境下文本信息挖据系统设计D].现代电子技术,2018,41(1):125-128.
[8]张磐,丁冷允,姜宁,等,基于支持度-置信度-提升度的配网自动化系统数据挖掘算法及应用D].电测与仪表,2019,56(10):62-68.
[9]马昱欣,曹震东,陈为,可视化驱动的交互式数据挖掘方法综述D.计算机辅助设计与图形学报,2016(1):1-8.
[10]李云玮,马蕾.基于SVM的物联网大数据有效信息过滤挖据[].控制工程,2016,23(10):1533-1537.
[11]郭鹏,蔡骋,基于聚类和关联算法的学生成绩挖据与分析[].计算机工程与应用,2019,55(17):169-179.
[12]李勇男,基于聚类的反恐情报异常数据分析方法研究D].现代情,2019,39(10):32-37.
[13]翁佩纯,张远海,马慧.We网络中的离群数据挖掘技术研究与改进[].现代电子技术,2017,40(18):29-31.
[14]颜磊,祁冰基于Android平台的移动学习系统大数据挖掘技术研究D].现代电子技术,2017,40(19):142-144.
[15]张贵红,李中华,基于粗糙集的海量数据挖掘算法研究D].现代电子技术,2016,39(17):116-119.
[16]钱维扬,王俊义,仇洪冰.基于Hadoop的数据挖掘技术在测光红移上的研究D].电子技术应用,2016,42(9):111-114.
[17]郝艳妮,吴素萍,田维丽,数据挖掘算法在葡萄酒信息数据分析系统中的研究[.计算机科学,2017,44(S1):491-494.
[18]徐曼舒,汪继文,邱剑锋,等,基于改进人工蜂群的模糊C-均值聚类算法D].计算机工程与科学,2016,38(6):1238-1243.
[19]荣盘祥,曾凡永,黄金杰·数据挖掘中特征选择算法研究DJ.,2016,21(1):106-109.
[20]朱亚琼,罗伟一种基于动态调度的数据挖据并行算法[].现代电子技术,2016,39(15):156-159.
[21]李雨童,姚登举,李哲,等,基于R的医学大数据挖掘系统研D.哈尔1大报,2016(2):38-43.
[22]王慧锋,段磊,左劫,等,免预设间隔约束的对比序列模式高效i机,2016,39(10):1979-1991.
[23]邵喽,师晓利基于遥感数据挖掘的智能地理信息系统设计t[].现代电子技术,2016,39(10):54-57。
SCISSCIAHCI