一种基于分布式计算的能源数据自动化处理方法与流程

专利2022-06-30  81


本发明属于大数据处理领域,特别涉及一种基于分布式计算的能源数据自动化处理方法。



背景技术:

随着信息化的发展,国家电网正在大力推进能源互联网的发展,加速大数据、人工智能在综合能源方面的应用。

目前国家电网大部分信息化系统采用传统的关系型数据库,数据处理采用数据库存储过程或编程实现,该种实现方案在早期数据量不大、实时性要求不高的情况下基本可以满足需求,但随着用能数据大量增加,现有方案已经逐渐无法满足业务需求,主要体现在如下方面:

1、表数量过多,需要存储的各种信息如企业信息、用户信息、采集点信息、用电数据等等都单独成表,还有涉及各表关系的关联信息表,随着电力业务的发展,会新增各种新业务,针对各种业务的数据还需要增加独立的表结构进行存储,表数量过多,难于管理和维护;

2、表关系混乱,当针对各种业务的表大量增加时,表之间的关联关系变得错综复杂,各种关联信息表难以重用,后期难以维护,同时严重影响数据的读取性能;

3、数据量达到tb级别时,关系型数据库单表无法存储;关系型数据库单表在数据量低于一定水平的情况下,读写性能在毫秒级别,完全满足需求,但高于一定水平之后,读写性能会严重下降,查询数据耗时会达到分钟级别,对于前端数据展示来说无法接受。

4、采用存储过程或编程的方式实现数据处理在数据量小的情况下能够满足需求,但随着数据量增大,该种方式已经无法在可接受时间范围内完成数据处理,甚至可能会由于数据量过大计算机资源不足直接导致处理程序崩溃。

5、前端页面无法实时获取最新数据,一是由于关系型数据库查询耗时过长,二是由于数据处理不及时。



技术实现要素:

本发明的目的就在于克服上述现有技术中存在的不足,而提供一种基于分布式计算的能源数据自动化处理方法,该处理方法可有效支撑大数据量电力数据分析处理。通过采集大量采集点数据且采用分布式大数据处理引擎,可以快速准确地计算生成各维度统计数据,找出用户的价值需求,达到用户特征数字化,形成各维度统计数据,从而为不同类别的用户提供“定制化套餐”的用能服务,实现综合用能服务的智能化。

如上构思,本发明的技术方案是:一种基于分布式计算的能源数据自动化处理方法,包括数据采集系统、数据处理系统和数据存储系统;

所述数据采集系统从相应的数据库中采集企业信息、电能站信息、采集器信息、物理采集点信息、虚拟采集点信息及历史用电数据的原始数据;

所述数据处理系统采用spark分布式计算引擎,对所述各原始数据首先进行清洗,且将清洗后的原始数据作为历史用电数据,然后以清洗后的历史用电数据为基础,针对各个企业,以小时、天、月、年、物理采集点、虚拟采集点为维度进行数据统计,包括以下操作:①基于历史用电数据,以小时和物理采集点为维度,生成物理采集点小时维度统计结果集;②基于历史用电数据,以企业为维度,计算各个企业下所有物理采集点在每个采集时间点上的电量累加值、一天之内电量最大值最小值及一天之内电量最大值最小值出现时间点;③基于物理采集点小时维度统计结果集,以天为维度,生成物理采集点天维度统计结果集;④基于物理采集点天维度结果集,以月为维度,生成物理采集点月维度统计结果集;⑤基于物理采集点月维度结果集,以年为维度,生成物理采集点年维度统计结果集;⑥基于历史用电数据,按设备属性或区域属性划分物理采集点并以四则运算公式将具有相同属性的物理采集点表达为虚拟采集点,以小时和虚拟采集点为维度,生成虚拟采集点小时维度统计结果集;⑦基于虚拟采集点小时维度结果集,以天为维度,生成虚拟采集点天维度统计结果集;⑧基于虚拟采集点天维度结果集,以月为维度,生成虚拟采集点月维度统计结果集;⑨基于虚拟采集点月维度结果集,以年为维度,生成虚拟采集点年维度统计结果集;

所述数据存储系统将数据处理系统生成的各维度结果集均进行保存,提供实时查询。

上述数据采集系统支持从mysql、oracle、mongodb及postgresql读取数据,根据配置文件中配置的数据库连接信息,从相应的数据源中拉取原始数据。

上述数据处理系统对所述各原始数据进行清洗的具体方法是:

①对各原始数据中的空值、特殊字符、非正常值、格式错误的数据分别进行处理:空值及非正常值数据取近三天数据的平均值;对包含非法字符及格式错误的数据进行过滤处理;

②计算各个采集时间段内的增量数据,采集点每隔一定时间间隔采集一次用电数据,有的数据为该时间间隔内的增量数据,有的数据则为历史累计数据,针对累计数据需要计算出该间隔内的增量数据;

③整合企业信息、电能站信息、采集器信息、采集点信息及用电数据作为清洗后的历史用电数据;

④以清洗后的历史用电数据为基础,针对各个企业,以小时、天、月、年、物理采集点、虚拟采集点点为维度进行数据统计:

a.基于历史用电数据,以小时和物理采集点为维度,计算各个物理采集点每小时内电量累计值、电量最大值和最小值平均值、电量最大值和最小值出现的时间点、各相电压整点瞬时值、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流整点瞬时值、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率整点瞬时值、总无功功率最大值和最小值的平均值、总无功功率最大值最小值出现时间点、总功率因数瞬时值、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点,生成物理采集点小时维度统计结果集;

b,基于历史用电数据,以企业为维度,计算各个企业下所有物理采集点在每个采集时间点上的电量累加值、一天之内电量最大值最小值及一天之内电量最大值最小值出现时间点;

c,基于物理采集点小时维度结果集,以天为维度,计算每一天内电量累计值、电量最大值最小值平均值、分季节和时间段的电量峰平谷值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点,生成物理采集点天维度统计结果集;

d,基于物理采集点天维度结果集,以月为维度,计算每月电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点,生成物理采集点月维度统计结果集;

e,基于物理采集点月维度结果集,以年为维度,计算每年电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点,生成物理采集点年维度统计结果集;

f,基于历史用电数据,按设备属性或区域属性划分物理采集点并以四则运算公式将具有相同属性的物理采集点表达为虚拟采集点,计算出各个企业下所有虚拟采集点每小时内电量累计值、电量最大值最小值、电量最大值最小值出现时间点、各相电压整点瞬时值、各相电压最大值最小值、各相电压最大值最小值出现时间点、各相电流整点瞬时值、各相电流最大值最小值、各相电流最大值最小值出现时间点、总无功功率整点瞬时值、总无功功率最大值最小值、总无功功率最大值最小值出现时间点、总功率因数瞬时值、总功率因数最大值最小值、总功率因数最大值最小值出现时间点,生成虚拟采集点小时维度统计结果集;

g,基于虚拟采集点小时维度结果集,以天为维度,计算每一天内电量累计值、电量最大值最小值平均值、分季节和时间段的电量峰平谷值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点,生成虚拟采集点天维度统计结果集。

h,基于虚拟采集点天维度结果集,以月为维度,计算每月电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点,生成虚拟采集点月维度统计结果集;

i,基于虚拟采集点月维度结果集,以年为维度,计算每年电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点,生成虚拟采集点年维度统计结果集。

上述数据存储系统采用hdfs(hadoopdistributedfilesystem)分布式文件存储系统,数据交互采用基于hdfs的hawqsql(apachehadoopnativesql)查询引擎,所述数据处理部分生成的各维度结果集均保存在hdfs中,提供实时查询。

本发明具有如下的优点和积极效果:

1、本发明采用宽表结构,企业信息、电能站信息、采集器信息、采集点信息及用电数据整合到一张表中,避免查询时需要考虑的各种关联关系,各表意义明确,避免大量表导致混乱的问题。

2、本发明采用单表分区存储,数据量无限制,可扩展,同时保证读写性能。

3、本发明采用spark分布式计算处理数据,保证数据处理快速可靠,增加计算节点即可增加计算能力,扩展便捷。

4、本发明可定时任务调度,无需人为介入,一次部署,长期运行。

附图说明

图1为本发明的数据流程图。

具体实施方式:

一种基于分布式计算的能源数据自动化处理方法,包括数据采集系统、数据处理系统和数据存储系统。

一、所述数据采集系统支持从mysql、oracle、mongodb及postgresql读取数据,根据配置文件中配置的数据库连接信息,从相应的数据源中拉取原始数据。包括企业信息、电能站信息、采集器信息、物理采集点信息、虚拟采集点信息及历史用电数据。

二、所述数据处理系统采用spark分布式计算引擎,对所述各原始数据首先进行清洗,清洗的具体方法是:

①对各原始数据中的空值、特殊字符、非正常值、格式错误的数据分别进行处理:空值及非正常值数据取近三天数据的平均值;对包含非法字符及格式错误的数据进行过滤处理;

②计算各个采集时间段内的增量数据,采集点每隔一定时间间隔采集一次用电数据,有的数据为该时间间隔内的增量数据,有的数据则为历史累计数据,针对累计数据需要计算出该间隔内的增量数据;

③整合企业信息、电能站信息、采集器信息、采集点信息及用电数据作为清洗后的历史用电数据;

④以清洗后的历史用电数据为基础,针对各个企业,以小时、天、月、年、物理采集点、虚拟采集点点为维度进行数据统计:

a.基于历史用电数据,以小时和物理采集点为维度,计算各个物理采集点每小时内电量累计值、电量最大值和最小值平均值、电量最大值和最小值出现的时间点、各相电压整点瞬时值、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流整点瞬时值、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率整点瞬时值、总无功功率最大值和最小值的平均值、总无功功率最大值最小值出现时间点、总功率因数瞬时值、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点,生成物理采集点小时维度统计结果集;

b,基于历史用电数据,以企业为维度,计算各个企业下所有物理采集点在每个采集时间点上的电量累加值、一天之内电量最大值最小值及一天之内电量最大值最小值出现时间点;

c,基于物理采集点小时维度结果集,以天为维度,计算每一天内电量累计值、电量最大值最小值平均值、分季节和时间段的电量峰平谷值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点,生成物理采集点天维度统计结果集;

d,基于物理采集点天维度结果集,以月为维度,计算每月电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点,生成物理采集点月维度统计结果集;

e,基于物理采集点月维度结果集,以年为维度,计算每年电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点,生成物理采集点年维度统计结果集;

f,基于历史用电数据,按设备属性或区域属性划分物理采集点并以四则运算公式将具有相同属性的物理采集点表达为虚拟采集点,计算出各个企业下所有虚拟采集点每小时内电量累计值、电量最大值最小值、电量最大值最小值出现时间点、各相电压整点瞬时值、各相电压最大值最小值、各相电压最大值最小值出现时间点、各相电流整点瞬时值、各相电流最大值最小值、各相电流最大值最小值出现时间点、总无功功率整点瞬时值、总无功功率最大值最小值、总无功功率最大值最小值出现时间点、总功率因数瞬时值、总功率因数最大值最小值、总功率因数最大值最小值出现时间点,生成虚拟采集点小时维度统计结果集;

g,基于虚拟采集点小时维度结果集,以天为维度,计算每一天内电量累计值、电量最大值最小值平均值、分季节和时间段的电量峰平谷值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点,生成虚拟采集点天维度统计结果集;

h,基于虚拟采集点天维度结果集,以月为维度,计算每月电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点,生成虚拟采集点月维度统计结果集;

i,基于虚拟采集点月维度结果集,以年为维度,计算每年电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点,生成虚拟采集点年维度统计结果集。

三、所述数据存储系统采用hdfs(hadoopdistributedfilesystem)分布式文件存储系统,数据交互采用基于hdfs的hawqsql(apachehadoopnativesql)查询引擎,所述数据处理部分生成的各维度结果集均保存在hdfs中,提供实时查询。

三、本发明还配有任务调度系统,该系统通过linuxcrontab执行定时任务的方式,实现数据处理的自动化。

参见附图,本发明数据流程的具体步骤如下:

(1)spark首先读取存放于固定路径下的配置文件中数据库连接信息,包括ip、username、password、database,然后通过jdbc方式读取各数据源数据,转换成spark内部dataset对象。

(2)spark通过dataset的join操作将企业信息、电能站信息、采集器信息、采集点信息及用电数据关联,整合为一条宽表数据,然后通过mappartitions对各个分区内的数据进行空值、特殊字符、非正常值、格式错误的处理并计算采集时间间隔内的增量值,生成清洗和整合后的用电数据。

(3)基于清洗和整合后的用电数据,通过dataset的maptopair、reducebykey及map操作生成物理采集点小时维度统计结果集。

(4)基于清洗和整合后的用电数据,通过dataset的maptopair、reducebykey、mappartitionstopair、reducebykey及map操作生成物理采集点企业维度统计结果集。

(5)基于物理采集点小时维度统计结果集,通过dataset的mappartitions、maptopair、reducebykey及map操作生成物理采集点天维度统计结果集。

(6)基于物理采集点天维度统计结果集,通过dataset的mappartitionstopair、reducebykey及map操作生成物理采集点月维度统计结果集。

(7)基于物理采集点月维度统计结果集,通过dataset的mappartitionstopair、reducebykey及map操作生成物理采集点年维度统计结果集。

(8)基于清洗和整合后的用电数据,通过dataset的maptopair、reducebykey、mappartitionstopair、reducebykey及map操作生成虚拟采集点小时维度统计结果集。

(9)基于虚拟采集点小时维度统计结果集,通过dataset的mappartitions、maptopair、reducebykey及map操作生成虚拟采集点天维度统计结果集。

(10)基于虚拟采集点天维度统计结果集,通过dataset的mappartitionstopair、reducebykey及map操作生成虚拟采集点月维度统计结果集。

(11)基于虚拟采集点月维度统计结果集,通过dataset的mappartitionstopair、reducebykey及map操作生成虚拟采集点年维度统计结果集。

(12)通过调用spark的jdbcwriter及hawq提供的jdbc接口将以上生成的各维度结果集写入hdfs进行存储。

(13)将spark处理程序打成任务jar包,并配置linuxcrontab定时提交任务jar包到spark集群,执行数据处理。


技术特征:

1.一种基于分布式计算的能源数据自动化处理方法,其特征在于:包括数据采集系统、数据处理系统和数据存储系统;

所述数据采集系统从相应的数据库中采集企业信息、电能站信息、采集器信息、物理采集点信息、虚拟采集点信息及历史用电数据的原始数据;

所述数据处理系统采用spark分布式计算引擎,对所述各原始数据首先进行清洗,且将清洗后的原始数据作为历史用电数据,然后以清洗后的历史用电数据为基础,针对各个企业,以小时、天、月、年、物理采集点、虚拟采集点为维度进行数据统计,包括以下操作:①基于历史用电数据,以小时和物理采集点为维度,生成物理采集点小时维度统计结果集;②基于历史用电数据,以企业为维度,计算各个企业下所有物理采集点在每个采集时间点上的电量累加值、一天之内电量最大值最小值及一天之内电量最大值最小值出现时间点;③基于物理采集点小时维度统计结果集,以天为维度,生成物理采集点天维度统计结果集;④基于物理采集点天维度结果集,以月为维度,生成物理采集点月维度统计结果集;⑤基于物理采集点月维度结果集,以年为维度,生成物理采集点年维度统计结果集;⑥基于历史用电数据,按设备属性或区域属性划分物理采集点并以四则运算公式将具有相同属性的物理采集点表达为虚拟采集点,以小时和虚拟采集点为维度,生成虚拟采集点小时维度统计结果集;⑦基于虚拟采集点小时维度结果集,以天为维度,生成虚拟采集点天维度统计结果集;⑧基于虚拟采集点天维度结果集,以月为维度,生成虚拟采集点月维度统计结果集;⑨基于虚拟采集点月维度结果集,以年为维度,生成虚拟采集点年维度统计结果集;

所述数据存储系统将数据处理系统生成的各维度结果集均进行保存,提供实时查询。

2.根据权利要求1所述的一种基于分布式计算的能源数据自动化处理方法,其特征在于:上述数据采集系统支持从mysql、oracle、mongodb及postgresql读取数据,根据配置文件中配置的数据库连接信息,从相应的数据源中拉取原始数据。

3.根据权利要求1所述的一种基于分布式计算的能源数据自动化处理方法,其特征在于:上述数据处理系统对所述各原始数据进行清洗的具体方法是:

①对各原始数据中的空值、特殊字符、非正常值、格式错误的数据分别进行处理:空值及非正常值数据取近三天数据的平均值;对包含非法字符及格式错误的数据进行过滤处理;

②计算各个采集时间段内的增量数据,采集点每隔一定时间间隔采集一次用电数据,有的数据为该时间间隔内的增量数据,有的数据则为历史累计数据,针对累计数据需要计算出该间隔内的增量数据;

③整合企业信息、电能站信息、采集器信息、采集点信息及用电数据作为清洗后的历史用电数据;

④以清洗后的历史用电数据为基础,针对各个企业,以小时、天、月、年、物理采集点、虚拟采集点点为维度进行数据统计:

a.基于历史用电数据,以小时和物理采集点为维度,计算各个物理采集点每小时内电量累计值、电量最大值和最小值平均值、电量最大值和最小值出现的时间点、各相电压整点瞬时值、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流整点瞬时值、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率整点瞬时值、总无功功率最大值和最小值的平均值、总无功功率最大值最小值出现时间点、总功率因数瞬时值、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点,生成物理采集点小时维度统计结果集;

b,基于历史用电数据,以企业为维度,计算各个企业下所有物理采集点在每个采集时间点上的电量累加值、一天之内电量最大值最小值及一天之内电量最大值最小值出现时间点;

c,基于物理采集点小时维度结果集,以天为维度,计算每一天内电量累计值、电量最大值最小值平均值、分季节和时间段的电量峰平谷值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点,生成物理采集点天维度统计结果集;

d,基于物理采集点天维度结果集,以月为维度,计算每月电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点,生成物理采集点月维度统计结果集;

e,基于物理采集点月维度结果集,以年为维度,计算每年电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点,生成物理采集点年维度统计结果集;

f,基于历史用电数据,按设备属性或区域属性划分物理采集点并以四则运算公式将具有相同属性的物理采集点表达为虚拟采集点,以小时和虚拟采集点为维度,计算出各个企业下所有虚拟采集点每小时内电量累计值、电量最大值最小值、电量最大值最小值出现时间点、各相电压整点瞬时值、各相电压最大值最小值、各相电压最大值最小值出现时间点、各相电流整点瞬时值、各相电流最大值最小值、各相电流最大值最小值出现时间点、总无功功率整点瞬时值、总无功功率最大值最小值、总无功功率最大值最小值出现时间点、总功率因数瞬时值、总功率因数最大值最小值、总功率因数最大值最小值出现时间点,生成虚拟采集点小时维度统计结果集;

g,基于虚拟采集点小时维度结果集,以天为维度,计算每一天内电量累计值、电量最大值最小值平均值、分季节和时间段的电量峰平谷值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点,生成虚拟采集点天维度统计结果集;

h,基于虚拟采集点天维度结果集,以月为维度,计算每月电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点,生成虚拟采集点月维度统计结果集;

i,基于虚拟采集点月维度结果集,以年为维度,计算每年电量累计值、电量最大值最小值平均值、电量最大值最小值出现时间点、各相电压最大值最小值平均值、各相电压最大值最小值出现时间点、各相电流最大值最小值平均值、各相电流最大值最小值出现时间点、总无功功率最大值最小值平均值、总无功功率最大值最小值出现时间点、总功率因数最大值最小值平均值、总功率因数最大值最小值出现时间点,生成虚拟采集点年维度统计结果集。

4.根据权利要求1所述的一种基于分布式计算的能源数据自动化处理方法,其特征在于:上述数据存储系统采用hdfs(hadoopdistributedfilesystem)分布式文件存储系统,数据交互采用基于hdfs的hawqsql(apachehadoopnativesql)查询引擎,所述数据处理部分生成的各维度结果集均保存在hdfs中,提供实时查询。

技术总结
一种基于分布式计算的能源数据自动化处理方法,包括数据采集系统、数据处理系统和数据存储系统;所述数据采集系统从相应的数据库中采集企业信息、电能站信息、采集器信息、物理采集点信息、虚拟采集点信息及历史用电数据的原始数据;所述数据处理系统采用Spark分布式计算引擎,对所述各原始数据首先进行清洗,且将清洗后的原始数据作为历史用电数据,然后根据历史用电数据生成物理采集点和虚拟采集点的小时、天、月和年维度统计结果集且保存到数据存储系统中。本发明可自动提取用户能源特征数据,找出用户的价值需求,达到用户特征数字化,形成各维度统计数据,从而为不同类别的用户提供“定制化套餐”的用能服务,实现综合用能服务的智能化。

技术研发人员:张立;杨少春;刘万龙;刘德强;朱传晶;张海涛;李鹏程
受保护的技术使用者:天津市普迅电力信息技术有限公司;国网信息通信产业集团有限公司
技术研发日:2020.03.10
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-58353.html

最新回复(0)