本发明涉及数据处理技术领域,具体地说是一种采集、处理和上传企业能源计量数据的方法。
背景技术:
随着重点用能单位能耗在线监测系统相关工作的深入开展,越来越多的企业能源计量数据需要接入上级相关平台,高效、稳定的能源计量数据的采集、处理和上传是整个工作顺利开展的基础。
现有能源计量数据采集、处理和上传过程通常采用直传的方式即原始数据由数据采集器完成采集并将数据直接存入数据库中,数据上传程序对原始数据经过简单的处理后直接上传到上级部门相关平台。
现有的方式问题突出表现在上传数据质量低、数据传输过程安全性低和数据传输稳定性差等方面。上传数据质量低主要指未经处理的数据数据准确性差、异常数据多和数据可用性差等方面,数据传输过程安全性低主要是指企业内网与外网直接通信降低了企业内部数据安全性。
技术实现要素:
本发明的目的在于提供一种采集、处理和上传企业能源计量数据的方法,用于解决上传数据质量低、数据传输过程安全性低和数据传输稳定性差的问题。
本发明解决其技术问题所采取的技术方案是:
一种采集、处理和上传企业能源计量数据的方法,该方法包括以下步骤:
在企业内网端设置中间数据库;
将采集到的能源计量原始数据存储到中间数据库中;
建立数据模型,对数据进行清洗、集成、转换、规约处理,得到有效数据;
将处理后的数据上传到正式数据库。
在第一种可能实现的方式中,所述对数据进行清洗包括对缺失值、重复值、异常值进行处理,具体包括:
通过对照已经设置的数据采集项名称、个数、种类和有效值范围对原始数据进行数据清洗;
将不满足要求的缺失值、重复值和异常值删除或插补。
在第二种可能实现的方式中,对数据进行集成包括将企业中通过电力需求侧、数据采集器和opc接口三种不同来源的数据,采用基于中间件模型和数据仓库的方法将数据集成成统一的数据格式并存储到中间数据库中。
在第三种可能实现的方式中,数据仓库的使用方法包括:
数据仓库使用update驱动的方法将来自多元异构数据库的数据提前进行处理和聚合,并将其存储在另一个独立的数据仓库中,数据仓库将数据复制、集成、注释、总结并重构到一个数据集市中。
在第四种可能实现的方式中,对数据进行转换包括以下方法:
通过聚类方法和回归方法进行平滑处理;
通过对数据进行总结或合计操作进行合计处理;
通过将属性数据按比例投射到特定范围之中进行规格化处理;
通过已有属性集构造新属性的进行属性构造处理。
在第五种可能实现的方式中,所述的合计处理具体包括:
每隔一段时间间隔进行某个采集点进行采集数据;
对采集的数据进行合计计算,得到该采集点的总额。
在第六种可能实现的方式中,所述的规格化处理具体包括:
对某个采集点在某个范围的值直接映射为1标识,则该采集点数据在正常范围内;
超过该范围映射为2标识,则该采集点数据超过正常范围;
低于该范围映射为0标识,则该采集点数据低于正常范围。
在第七种可能实现的方式中,所述的属性构造处理具体包括:
利用已有属性集构造出新的属性,根据单位时间用煤量和单位时间单位产品产量两个属性值,通过计算构造出单位产品能耗新属性。
在第八种可能实现的方式中,对数据进行规约处理包括:通过数据立方体聚集和维规约对原始数据进行处理。
在第九种可能实现的方式中,所述的数据立方体聚集包括对某一维度求和;所述的维规约包括删除原始数据的无关维度。
由以上方案可知,本发明通过中间数据库的设定保证企业数据的安全,并为数据处理提供环境支撑。通过对数据进行清洗、集成、转换、规约使得到的数据更加准确和可靠、可用性也更强,同时也减少了无效数据的上传量。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为一种采集、处理和上传企业能源计量数据的方法流程示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明中的技术方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
如图1所示,一种采集、处理和上传企业能源计量数据的方法,该方法包括以下步骤:
s1、在企业内网端设置中间数据库;
s2、将采集到的能源计量原始数据存储到中间数据库中;
s3、建立数据模型,对数据进行清洗、集成、转换、规约处理,得到有效数据;
s4、将处理后的数据上传到正式数据库。
s3中,对数据进行清洗包括对缺失值、重复值、异常值进行处理,具体包括:
通过对照已经设置的数据采集项名称、个数、种类和有效值范围对原始数据进行数据清洗;
将不满足要求的缺失值、重复值和异常值删除或插补。
对数据进行集成包括将企业中通过电力需求侧、数据采集器和opc接口三种不同来源的数据,采用基于中间件模型和数据仓库的方法将数据集成成统一的数据格式并存储到中间数据库中。
数据集成的传统方法是在多元、异构数据库顶层建立,数据仓库提供了另一种不同于上述传统方法的异构数据集成方式,数据仓库使用了update驱动的方法将来自多元异构数据库的数据提前进行处理和聚合,并将其存储在(另一个独立的)数据仓库中,数据仓库将数据复制、集成、注释、总结并重构到一个数据集市中,从而使得异构数据系统集成变得非常高效,企业的四种数据源的不同首先表现在数据异构性,数据异构性又包括系统异构性(数据源所依赖的应用系统和数据库管理系统等)和模式异构(数据存储模式的不同包括关系模式、对象模式、文档模式等几种),此外还有数据完整性、性能和权限等问题,通过点对点网状数据集成模式,将需要集成数据的不同数据直接直接建立接口,集成后向外统一提供接口。
s3中,对数据进行转换包括以下方法:
通过聚类方法和回归方法进行平滑处理;
通过对数据进行总结或合计操作进行合计处理;
通过将属性数据按比例投射到特定范围之中进行规格化处理;
通过已有属性集构造新属性的进行属性构造处理。
合计处理具体包括:每隔一段时间间隔进行某个采集点进行采集数据;对采集的数据进行合计计算,得到该采集点的总额。
规格化处理具体包括:对某个采集点在某个范围的值直接映射为1标识,该采集点数据在正常范围内;超过该范围映射为2标识,该采集点数据超过正常范围;低于该范围映射为0标识,该采集点数据低于正常范围。
属性构造处理具体包括:利用已有属性集构造出新的属性,根据单位时间用煤量和单位时间单位产品产量两个属性值,通过计算构造出单位产品能耗新属性。
s3中,对数据进行规约处理包括:通过数据立方体聚集和维规约对原始数据进行处理。数据立方体聚集包括对某一维度求和;维规约包括删除原始数据的无关维度,只用少数的关键特征来描述数据,一个计量能源数据采集量主要特征指标包含时间维度(数据采集时间、数据时间等)、空间维度(数据点名称及所在位置等)和值维度(用于表示其数值大小、数值范围等),通过数据规约的方法保留核心维度特征,删除其他无用维度特征,对原始数据进行处理。
以上所述仅是本发明的具体实施方式,使本领域技术人员能够理解或实现本发明。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
1.一种采集、处理和上传企业能源计量数据的方法,其特征是,该方法包括以下步骤:
在企业内网端设置中间数据库;
将采集到的能源计量原始数据存储到中间数据库中;
建立数据模型,对数据进行清洗、集成、转换、规约处理,得到有效数据;
将处理后的数据上传到正式数据库。
2.根据权利要求1所述的方法,其特征是,所述对数据进行清洗包括对缺失值、重复值、异常值进行处理,具体包括:
通过对照已经设置的数据采集项名称、个数、种类和有效值范围对原始数据进行数据清洗;
将不满足要求的缺失值、重复值和异常值删除或插补。
3.根据权利要求1所述的方法,其特征是,对数据进行集成包括将企业中通过电力需求侧、数据采集器和opc接口三种不同来源的数据,采用基于中间件模型和数据仓库的方法将数据集成成统一的数据格式并存储到中间数据库中。
4.根据权利要求3所述的方法,其特征是,数据仓库的使用方法包括:
数据仓库使用update驱动的方法将来自多元异构数据库的数据提前进行处理和聚合,并将其存储在另一个独立的数据仓库中,该独立的数据仓库将数据复制、集成、注释、总结并重构到一个数据集市中。
5.根据权利要求1所述的方法,其特征是,对数据进行转换包括以下方法:
通过聚类方法和回归方法进行平滑处理;
通过对数据进行总结或合计操作进行合计处理;
通过将属性数据按比例投射到特定范围之中进行规格化处理;
通过已有属性集构造新属性的进行属性构造处理。
6.根据权利要求5所述的方法,其特征是,所述的合计处理具体包括:
每隔一段时间间隔进行某个采集点进行采集数据;
对采集的数据进行合计计算,得到该采集点的总额。
7.根据权利要求5所述的方法,其特征是,所述的规格化处理具体包括:
对某个采集点在某个范围的值直接映射为1标识,该采集点数据在正常范围内;
超过该范围映射为2标识,该采集点数据超过正常范围;
低于该范围映射为0标识,该采集点数据低于正常范围。
8.根据权利要求5所述的方法,其特征是,所述的属性构造处理具体包括:
利用已有属性集构造出新的属性,根据单位时间用煤量和单位时间单位产品产量两个属性值,通过计算构造出单位产品能耗新属性。
9.根据权利要求1所述的方法,其特征是,对数据进行规约处理包括:通过数据立方体聚集和维规约对原始数据进行处理。
10.根据权利要求9所述的方法,其特征是,所述的数据立方体聚集包括对某一维度求和;所述的维规约包括删除原始数据的无关维度。
技术总结