本发明属于数据分类技术领域,具体涉及一种基于数学建模的数据分类方法和系统。
背景技术:
随着科技的进步,各行各业都逐渐向信息化、数据化的方向发展,同时数据也越来越重要。数据中通常都包含有大量的信息,通过解读数据,能够帮助人们找到解决问题的方法。
数据分类就是把具有某种共同属性或特征的数据归并在一起,通过其类别的属性或特征来对数据进行区别。为了实现数据共享和提高处理效率,必须遵循约定的分类原则和方法,按照信息的内涵、性质及管理的要求,将系统内所有信息按一定的结构体系分为不同的集合,从而使得每个信息在相应的分类体系中都有一个对应位置。换句话说,就是相同内容、相同性质的信息以及要求统一管理的信息集合在一起,而把相异的和需要分别管理的信息区分开来,然后确定各个集合之间的关系,形成一个有条理的分类系统。
数据分类调研分析的基础是数据,而数据的类型可以分为连续性的变量和分类变量。目前常用的数据分类方法就是把具有某种共同属性或特征的数据归并在一起,通过其类别的属性或特征来对数据进行区别。
数据分类的目的是方便对数据进行查找、统计和分析,以得到解决问题所需要的信息。但是只按照数据的属性对其进行简单的分类并不能方便对数据的查找,如某种数据具有多种属性,当查找该数据时需要对其属性逐一进行查找才能得到查找结果。
技术实现要素:
本发明的目的是提供一种基于数学建模的数据分类方法和系统,以解决现有技术中的数据分类方法在查找数据时工作效率低的问题。
为实现上述目的,本发明采用如下技术方案:
一种基于数学建模的数据分类方法,包括如下步骤:
(1)获取历史数据,对各历史数据进行编码,得到各历史数据的编码值;
将各历史数据的编码值按照大小进行排序;
将排序后的编码划分为多个连续的区间,每个区间的数据量相同,每个区间对应一个数据分类,得到数据分类的数学模型;
(2)获取检测数据并对其进行编码,得到检测数据的编码值;
(3)判断检测数据编码值所在的区间,将该区间对应的数据分为作为检测数据所属的数据分类;
对数据进行编码的方法为:
根据历史数据,获取各数据的属性以及属性的类型;
按照设定顺序对数据的属性进行排序,并根据各属性的类型对其赋值;
按照属性的排序对各属性的赋值进行排序,得到数据的编码值。
进一步的,所述设定顺序根据属性对数据的影响程度确定。
进一步的,将数据划分为多个区间后,根据各区间取值范围的大小得到其对应数据分类的重要程度;得到检测数据的数据分类后,根据其数据分类的重要程度得到其重要程度。
进一步的,得到数据的编码值后,对其进行归一化处理。
进一步的,所述步骤(3)中采用二分法判断检测数据所在的区间。
一种基于数据建模的数据分类系统,包括处理器和存储器,所述存储器上存储有用于在处理器上执行的计算机程序;所述处理器执行所述计算机程序时,实现如下控制步骤:
(1)获取历史数据,对各历史数据进行编码,得到各历史数据的编码值;
将各历史数据的编码值按照大小进行排序;
将排序后的编码划分为多个连续的区间,每个区间的数据量相同,每个区间对应一个数据分类,得到数据分类的数学模型;
(2)获取检测数据并对其进行编码,得到检测数据的编码值;
(3)判断检测数据编码值所在的区间,将该区间对应的数据分为作为检测数据所属的数据分类;
对数据进行编码的方法为:
根据历史数据,获取各数据的属性以及属性的类型;
按照设定顺序对数据的属性进行排序,并根据各属性的类型对其赋值;
按照属性的排序对各属性的赋值进行排序,得到数据的编码值。
进一步的,所述设定顺序根据属性对数据的影响程度确定。
进一步的,将数据划分为多个区间后,根据各区间取值范围的大小得到其对应数据分类的重要程度;得到检测数据的数据分类后,根据其数据分类的重要程度得到其重要程度。
进一步的,得到数据的编码值后,对其进行归一化处理。
进一步的,所述步骤(3)中采用二分法判断检测数据所在的区间。
本发明的有益效果:本发明所提供的技术方案,根据历史数据的属性建立用于数据分类的数学模型,然后结合检测数据的编码和所建立的数学模型对检测数据均匀分类。采用本发明所提供的方案对数据进行分类后,在查询时可快速查询到相应的数据,能够解决现有技术中分类方法在查找数据时工作效率低的问题。
附图说明
图1是本发明方法实施例中基于数学建模的数据分类方法的流程图。
具体实施方式
方法实施例:
本发明提供一种基于数学建模的数据分类方法,用于对数据进行分类,以解决现有技术中的数据分类方法在查找数据时工作效率低的问题。
本实施例所提供的基于数学建模的数据分类方法,其流程如图1所示,包括如下步骤:
(1)获取历史数据,根据历史数据建立数据分类的数学模型。
根据历史数据建立数据分类的数学模型的方法为:
对历史数据进行编码,得到各历史数据的编码值;
将历史数据的编码值按照大小进行排序;
将排序后的历史数据按照的编码值划分为多个连续的区间,每个区间内的数据量相同,每个区间对应一个数据分类,得到用于数据分类的数学模型。
如假设历史数据共有一万条数据,需要将其划分为十个数据分类,即需要将其划分为十个区间,则先得到各历史数据的编码值后,按照编码值从小到大的顺序将历史数据排序,然后按照编码值的大小将历史数据划分为十个连续的区间,每个区间包括一千条历史数据,并得到各区间的最大值和最小值。
(2)获取检测数据,对检测数据进行编码,得到检测数据的编码值。
(3)结合上述建立的数学模型和检测数据的编码值,得到检测数据的数据分类。
得到检测数据的分类的方法为:判断检测数据编码值所在的区间,将该区间对应的分类作为检测数据的数据分类。
检测数据编码值所在的区间,是指检测数据编码值大于该区间的最小编码值且小于该区间的最大编码值。
对数据进行编码的方法是:
首先确定数据的属性数量;
每个数据有多种属性,通过对历史数据分析得到;本实施例以数据有五种属性为例,分别为属性1、属性2、属性3、属性4和属性5;
然后根据历史数据确定各种属性的类型数量,并对各类型的属性进行编码;
属性的类型也是从历史数据分析归纳得到的,如对于属性1,在历史数据中其共有三种类型,分别为类型1、类型2和类型3,则属性1的编码有00、01、02、03共四种;
最后对各属性类型进行排序,根据各类型属性的编码得到数据的编码。
在对属性类型进行排序时,先获取各类型属性的重要程度,重要程度由工作人员根据其数据的影响程度确定;根据属性的重要程度获取其优先级,属性的重要程度越大,其优先级越高;然后按照优先级从大到小的顺序得到各类型属性的排序;最后将各属性的编码值按照相应属性类型的排序顺序进行排序,得到数据的编码。
如对于其中一个数据,其属性的优先级依次为属性1、属性2、属性3、属性4和属性5,且该数据属性1、属性2、属性3、属性4和属性5的编码值分别为01、02、03、00、03,则该数据的编码值为0102030003。
进一步的,步骤(3)中采用二分法查找到检测数据所在的区间。
进一步的,为了减少查询检测数据所在区间时的工作量,在得到数据的编码值后对其进行归一化处理,处理的方法为:
设得到的数据的编码值为n,在历史数据中,数据的编码值最大为nmax,最小为nmin,则进行归一化处理后该数据的编码值为:
m=(n-nmin)/(nmax-nmin)
进一步的,根据区间最大值和最小值之差得到各区间的数据密集度,并根据各区间的数据密集度得到其对应数据分类的重要程度,即区间的数据密集度越大,其对应数据分类的重要程度越大。判断出检测数据所属的数据分类后,将数据分类的重要程度作为其重要程度,从而得到各检测数据的重要程度。
系统实施例:
本实施例提供一种基于数学建模的数据分类系统,包括处理器和存储器,存储器上存储有用于在处理器执行的计算机程序,处理器执行该计算机程序时,实现如上述方法实施例所提供的基于数学建模的数据分类系统。
以上公开的本发明的实施例只是用于帮助阐明本发明的技术方案,并没有尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本发明的原理和实际应用,从而使所属技术领域人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。
本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
1.一种基于数学建模的数据分类方法,其特征在于,包括如下步骤:
(1)获取历史数据,对各历史数据进行编码,得到各历史数据的编码值;
将各历史数据的编码值按照大小进行排序;
将排序后的编码划分为多个连续的区间,每个区间的数据量相同,每个区间对应一个数据分类,得到数据分类的数学模型;
(2)获取检测数据并对其进行编码,得到检测数据的编码值;
(3)判断检测数据编码值所在的区间,将该区间对应的数据分为作为检测数据所属的数据分类;
对数据进行编码的方法为:
根据历史数据,获取各数据的属性以及属性的类型;
按照设定顺序对数据的属性进行排序,并根据各属性的类型对其赋值;
按照属性的排序对各属性的赋值进行排序,得到数据的编码值。
2.根据权利要求1所述的基于数学建模的数据分类方法,其特征在于,所述设定顺序根据属性对数据的影响程度确定。
3.根据权利要求1所述的基于数学建模的数据分类方法,其特征在于,将数据划分为多个区间后,根据各区间取值范围的大小得到其对应数据分类的重要程度;得到检测数据的数据分类后,根据其数据分类的重要程度得到其重要程度。
4.根据权利要求1所述的基于数据建模的数据分类方法,其特征在于,得到数据的编码值后,对其进行归一化处理。
5.根据权利要求1所述的基于数据建模的数据分类方法,其特征在于,所述步骤(3)中采用二分法判断检测数据所在的区间。
6.一种基于数据建模的数据分类系统,包括处理器和存储器,所述存储器上存储有用于在处理器上执行的计算机程序;其特征在于,所述处理器执行所述计算机程序时,实现如下控制步骤:
(1)获取历史数据,对各历史数据进行编码,得到各历史数据的编码值;
将各历史数据的编码值按照大小进行排序;
将排序后的编码划分为多个连续的区间,每个区间的数据量相同,每个区间对应一个数据分类,得到数据分类的数学模型;
(2)获取检测数据并对其进行编码,得到检测数据的编码值;
(3)判断检测数据编码值所在的区间,将该区间对应的数据分为作为检测数据所属的数据分类;
对数据进行编码的方法为:
根据历史数据,获取各数据的属性以及属性的类型;
按照设定顺序对数据的属性进行排序,并根据各属性的类型对其赋值;
按照属性的排序对各属性的赋值进行排序,得到数据的编码值。
7.根据权利要求6所述的基于数据建模的数据分类系统,其特征在于,所述设定顺序根据属性对数据的影响程度确定。
8.根据权利要求6所述的基于数据建模的数据分类系统,其特征在于,将数据划分为多个区间后,根据各区间取值范围的大小得到其对应数据分类的重要程度;得到检测数据的数据分类后,根据其数据分类的重要程度得到其重要程度。
9.根据权利要求6所述的基于数据建模的数据分类系统,其特征在于,得到数据的编码值后,对其进行归一化处理。
10.根据权利要求6所述的基于数据建模的数据分类系统,其特征在于,所述步骤(3)中采用二分法判断检测数据所在的区间。
技术总结