本发明涉及大数据技术领域,特别涉及一种工业大数据的异常数据过滤方法及装置。
背景技术:
在工业生产中,会产生海量的工业大数据,其中大部分的数据都是无用数据,其中包括了数据噪声、错误数据等异常数据,这些数据基本上都是无用数据,这些无用数据如果不及时识别并去除,则会在应用工业大数据时,造成一定的影响,比如在利用工业大数据进行训练神经网络或者深度学习时,则会训练和学习造成很大的影响。而且,在对工业大数据存储时,如何这些数据不剔除,则会浪费掉宝贵的存储资源。
技术实现要素:
本发明目的在于提供一种工业大数据的异常数据过滤方法及装置,以解决现有技术中所存在的一个或多个技术问题,至少提供一种有益的选择或创造条件。
为解决上述技术问题所采用的技术方案:一方面,一种工业大数据的异常数据过滤方法,包括:
预先建立参量词条表;
获取工业大数据,并记为第一数据;
根据参量词条表,对第一数据进行搜索,将符合参量词条表中词条参量的数据挑选并剪切到中间数据表中,并根据所述词条参量做好分类;
通过预先设置的参量条件对中间数据表中的数据进行筛选,剔除异常数据;
将剔除异常数据的中间数据表中的数据复制回第一数据中。
通过预先建立参量词条表,通过参量词条表将容易产生异常数据的参量及其对应的数据挑选出来,并根据预先设置的参量条件,将挑选出来的数据进行筛选,剔除异常数据。从而实现对工业大数据的异常数据的过滤。
进一步,所述词条参量包括但不限于:温度、湿度、故障率、合格率、生产速度、生产效率。
进一步,当中间数据表中的数据复制回第一数据中后,对第一数据进行压缩处理。通过压缩处理,降低第一数据的数据量,从而方便存储。
进一步,在对第一数据进行压缩处理前,需要对第一数据通过b 树规范化为树形结构。通过将工业大数据规范化后,方便对数据进行查询,同时也可以方便对数据进行压缩。通过对工业大数据进行压缩处理,进一步节约存储空间。
进一步,所述通过预先设置的参量条件对中间数据表中的数据进行筛选,剔除异常数据的方法具体为:通过将参量条件定义为搜索条件,通过二分搜索算法对中间数据表中的数据进行搜索,将满足搜索条件的数据剔除。
另一方面,一种工业大数据的异常数据过滤装置,包括:
存储器,用于存储预先建立的参量词条表;
获取模块,用于获取工业大数据,并记为第一数据;
搜索模块,用于根据参量词条表,对第一数据进行搜索,将符合参量词条表中词条参量的数据挑选并剪切到中间数据表中,并根据所述词条参量做好分类;
筛选模块,用于通过预先设置的参量条件对中间数据表中的数据进行筛选,剔除异常数据;
复制模块,用于将剔除异常数据的中间数据表中的数据复制回第一数据中。
进一步,所述筛选模块内设有二分搜索算法。
本发明的有益效果:一方面,通过预先建立参量词条表,通过参量词条表将容易产生异常数据的参量及其对应的数据挑选出来,并根据预先设置的参量条件,将挑选出来的数据进行筛选,剔除异常数据。从而实现对工业大数据的异常数据的过滤。另一方面,由于工业大数据的异常数据过滤装置可以执行工业大数据的异常数据过滤方法,因此,其具有工业大数据的异常数据过滤方法的有益效果,这里就不重复描述了。
附图说明
下面结合附图和实施例对本发明做进一步的说明;
图1是工业大数据的异常数据过滤方法的步骤流程图;
图2是工业大数据的异常数据过滤装置的模块连接结构示意图。
具体实施方式
本部分将详细描述本发明的具体实施例,本发明之较佳实施例在附图中示出,附图的作用在于用图形补充说明书文字部分的描述,使人能够直观地、形象地理解本发明的每个技术特征和整体技术方案,但其不能理解为对本发明保护范围的限制。
在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
在本发明的描述中,如果具有“若干”之类的词汇描述,其含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。
本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
参照图1,一种工业大数据的异常数据过滤方法,包括:
步骤1、预先建立参量词条表;
步骤2、获取工业大数据,并记为第一数据;
步骤3、根据参量词条表,对第一数据进行搜索,将符合参量词条表中词条参量的数据挑选并剪切到中间数据表中,并根据所述词条参量做好分类;
步骤4、通过预先设置的参量条件对中间数据表中的数据进行筛选,剔除异常数据;
步骤5、将剔除异常数据的中间数据表中的数据复制回第一数据中。
具体的,为了准确的知道在工业大数据中哪些数据是属于异常数据,故需要建立参量词条表,其中,参量词条表记录着各种参量的词条,比如说:温度、湿度、故障率、合格率、生产速度、生产效率。这些参量词条所代表的数据容易存在异常数据。根据参量词条表,在第一数据中,将参量词条表中的词条参量所代表的数据挑选出来,并将其剪切到中间数据表中。中间数据表作为过渡,将挑选出来的数据进行暂存。数据被挑选出来后,通过词条参量对数据进行分类,从而使得数据跟词条参量一一对应起来,从而方便后续的异常数据剔除。预先设置好参量条件,比如说,大于某一阈值,或者小于某一阈值。将满足参量条件的数据筛选出来。具体筛选方法为:通过将参量条件定义为搜索条件,通过二分搜索算法对中间数据表中的数据进行搜索,将满足搜索条件的数据剔除。此时,中间数据表中的数据已经没有异常数据了,这时,将中间数据表中的数据复制回第一数据中。此时的第一数据则为过滤后的数据。
本发明通过预先建立参量词条表,通过参量词条表将容易产生异常数据的参量及其对应的数据挑选出来,并根据预先设置的参量条件,将挑选出来的数据进行筛选,剔除异常数据。从而实现对工业大数据的异常数据的过滤。
在一些优选的实施例中,当中间数据表中的数据复制回第一数据中后,对第一数据进行压缩处理。通过对第一数据进行压缩,则可以节约了存储空间。
在一些优选的实施例中,在对第一数据进行压缩处理前,需要对第一数据通过b 树规范化为树形结构。通过将工业大数据规范化后,方便对数据进行查询,同时也可以方便对数据进行压缩。通过对工业大数据进行压缩处理,进一步节约存储空间。
参考图2,另一方面,提供一种工业大数据的异常数据过滤装置,该装置用于执行工业大数据的异常数据过滤方法,其中,装置包括:
存储器,用于存储预先建立的参量词条表;
获取模块,用于获取工业大数据,并记为第一数据;
搜索模块,用于根据参量词条表,对第一数据进行搜索,将符合参量词条表中词条参量的数据挑选并剪切到中间数据表中,并根据所述词条参量做好分类;
筛选模块,用于通过预先设置的参量条件对中间数据表中的数据进行筛选,剔除异常数据;
复制模块,用于将剔除异常数据的中间数据表中的数据复制回第一数据中。
作为优化,所述筛选模块内设有二分搜索算法。
所述一种工业大数据的异常数据过滤装置可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述一种工业大数据的异常数据过滤装置,可运行的系统可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述例子仅仅是一种工业大数据的异常数据过滤装置的示例,并不构成对一种工业大数据的异常数据过滤装置的限定,可以包括比例子更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种工业大数据的异常数据过滤装置还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种工业大数据的异常数据过滤装置运行系统的控制中心,利用各种接口和线路连接整个一种工业大数据的异常数据过滤装置可运行系统的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种工业大数据的异常数据过滤装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
以上对本发明的较佳实施方式进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变型或替换,这些等同的变型或替换均包含在本申请权利要求所限定的范围内。
1.一种工业大数据的异常数据过滤方法,其特征在于:包括:
预先建立参量词条表;
获取工业大数据,并记为第一数据;
根据参量词条表,对第一数据进行搜索,将符合参量词条表中词条参量的数据挑选并剪切到中间数据表中,并根据所述词条参量做好分类;
通过预先设置的参量条件对中间数据表中的数据进行筛选,剔除异常数据;
将剔除异常数据的中间数据表中的数据复制回第一数据中。
2.根据权利要求1所述的一种工业大数据的异常数据过滤方法,其特征在于,所述词条参量包括但不限于:温度、湿度、故障率、合格率、生产速度、生产效率。
3.根据权利要求1所述的一种工业大数据的异常数据过滤方法,其特征在于,当中间数据表中的数据复制回第一数据中后,对第一数据进行压缩处理。
4.根据权利要求1所述的一种工业大数据的异常数据过滤方法,其特征在于,在对第一数据进行压缩处理前,需要对第一数据通过b 树规范化为树形结构。
5.根据权利要求1所述的一种工业大数据的异常数据过滤方法,其特征在于,所述通过预先设置的参量条件对中间数据表中的数据进行筛选,剔除异常数据的方法具体为:通过将参量条件定义为搜索条件,通过二分搜索算法对中间数据表中的数据进行搜索,将满足搜索条件的数据剔除。
6.一种工业大数据的异常数据过滤装置,其特征在于,包括:
存储器,用于存储预先建立的参量词条表;
获取模块,用于获取工业大数据,并记为第一数据;
搜索模块,用于根据参量词条表,对第一数据进行搜索,将符合参量词条表中词条参量的数据挑选并剪切到中间数据表中,并根据所述词条参量做好分类;
筛选模块,用于通过预先设置的参量条件对中间数据表中的数据进行筛选,剔除异常数据;
复制模块,用于将剔除异常数据的中间数据表中的数据复制回第一数据中。
7.根据权利要求6所述的一种工业大数据的异常数据过滤装置,其特征在于,所述筛选模块内设有二分搜索算法。
技术总结