本发明涉及数据分类领域,尤其是涉及一种基于张量空间的数据分类方法及其应用。
背景技术:
:由于科技生产力水平的快速发展和遥感技术的探索学习,加上网络的普及,现在的我们可以比原来更容易更方便快捷的丰富数据,同时获取到的数据具有:(1)多样性,数据收集来自于不同的行业不同的领域,描述同一特征可能具有不同的属性;(2)数据具有复杂的属性,所以构成数据的维度也很高。(3)数据量大,随着移动互联网、物联网的普及和应用,我们能够收集到更多的数据,形成了数据量特别巨大的特点。一般分类的过程:首先在给定数据集中找出一组对象的共同特征,从而建立分类模型,然后利用建立的分类模型进行分类,将待分类数据集映射到其中一个类别上。在分类模型建立过程中,通常把数据集划分成训练样本数据集和测试样本数据集,所有的样本均具有一个已知的类别标识。分类算法通过分析测试样本数据集,建立对应的特征,测试模型的分类准确率,如果得到较高的准确率,则该分类模型可用于将来的数据集进行分类操作。目前的分类方法主要存在以下不足:无法详细的描述数据的特征,由于数据类别多、数据量大、特征多且维度高,在降维时容易损失重要特征;又如特征信息不能完全描述影像特征,存在许多不相关的特征,浪费了存储空间和计算资源;最近的深度学习虽然已经达到较高的分类准确度,但存在计算性能低、耗时不适合实际生产。为了解决上述分类方法存在的不足,本发明给出一种基于张量空间的数据分类方法和系统,其优势主要体现在:(1)丰富的特征表达,高阶张量能够表达特征复杂维度高的数据;(2)具有不变性,张量能为一个物理量或几何量提供在不同坐标系下的统一表述,从而能更加体现事物的本质特征。技术实现要素:本发明提供了一种基于张量空间的数据分类方法,用以解决上述
背景技术:
中存在的计算性能低、特征维度高、特征表达不全等问题。为了实现上述目标,本发明一种基于张量空间分类方法的技术方法的具体步骤如下:step1、获取待处理的数据集,将所需处理的据集分为训练集和测试集;step2、将上述训练集转化为训练数据文件x=(x1,x2,…,xm),xi表示数据集中的第i个样本,m是样本的个数,每个样本有n个属性,即属性是用于区分该类别与其他类别的一种特征;step3、使用基于熵的离散化方法对数据集x的属性进行离散化处理(该技术是现有技术),计算每个属性的取值范围di=(min,max],其中min表示属性取值的最小值,max表示属性取值的最大值,该取值范围是左开右闭区间;step4、针对数据集x不同类别的样本构建张量其中j表示类别,i1,i2,…in表示样本的阶,1个属性对应1个阶;step5、采用step3和step4同样的方法构建测试集中测试样本ttest的张量,得到测试样本的张量step6、将测试样本张量和训练样本张量进行对比,选择满足属性(匹配属性范围内)最多的作为最后的类别。本发明还提供一种基于张量空间的数据分类方法在uci中的wine数据集上的应用,每个训练样本具有13种属性,分别为:酒精alcohol,苹果酸malicacid,灰ash,灰分的碱度alcalinityofash,镁magnesium,总酚totalphenols,黄酮类化合物flavanoids,非黄烷类酚类nonflavanoidphenols,原花色素proanthocyanins,颜色强度colorintensity,色调hue,稀释葡萄酒的0280/0d315-od280/od315ofdilutedwines,脯氨酸proline。进一步的,该wine数据集共有178个样本,分为3类,其中第1类有59个样本,第2类有71个样本,第3类有48个样本。本发明与现有技术相比,具有的有益效果是:本发明提供的基于张量空间分类方法,通过基于熵的离散化方法对数据文件进行离散化,计算每个属性的取值范围;对数据集x构建张量;获取测试样本并按照同样方法进行离散化,构建张量;通过对比测试样本张量与训练样本张量进行对比,最终选择匹配属性最多的作为类别判定标准。本发明具有比其他方法明显的优势:(1)具有不变性,张量能为一个物理量或几何量提供在不同坐标系下的统一表述,从而能更加体现事物的本质特征;(2)丰富的特征表达,高阶张量能够表达属性复制的数据集。附图说明为了更清楚地说明本发明实施例的技术方案,下面结合附图和实施例对本发明进一步说明。图1为本发明遥感影像场景分类方法流程简图;图2为本发明与其他方法准确率对比柱形图。具体实施方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明的实施例的详细描述并非旨在限制要求包含的本发明的范围,而是仅仅表示本发明的选定实施例。应注意到:相似的符号在下面附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。请参照图1,图1为本发明所提供的高维数据分类方法流程简图。本实施例尤其适用于高维数据的分类,且本发明实施例在张量场环境开发执行。step1、本实施案例使用uci中的wine数据集,该数据集包含了三种酒中的13种不同成分的数量。13种成分(属性)分别为:alcohol(酒精),malicacid(苹果酸),ash(灰),alcalinityofash(灰分的碱度),magnesium(镁),totalphenols(总酚),flavanoids(黄酮类化合物),nonflavanoidphenols(非黄烷类酚类),proanthocyanins(原花色素),colorintensity(颜色强度),hue(色调),od280/od315ofdilutedwines(稀释葡萄酒的0280/0d315),proline(脯氨酸)。数据集的每行代表一种酒的样本,共有178个样本;一共有14列,其中,第一个属性是类标识符,分别是1/2/3来表示,代表葡萄酒的三个分类。其中第1类有59个样本,第2类有71个样本,第3类有48个样本。step2、使用matlab语言进行编程将数据集分成互斥的两个集合,其中取数据集中任意70%的数据用于训练分类模型,剩下30%的数据作为测试集用来验证分类模型的准确率。step3、将训练数据集表示为x=(x1,x2,…,xm),xi=(p1,p2,…,p13),(i=1,2,…,m),xi表示数据集中的第i个样本,每个样本有n(本发明专利使用的数据集n=13)个属性,即xi=(p1,p2,…,p13)。在本发明中所述的属性,指的是13种成分(属性)分别为:alcohol(酒精),malicacid(苹果酸),ash(灰),alcalinityofash(灰分的碱度),magnesium(镁),totalphenols(总酚),flavanoids(黄酮类化合物),nonflavanoidphenols(非黄烷类酚类),proanthocyanins(原花色素),colorintensity(颜色强度),hue(色调),od280/od315ofdilutedwines(稀释葡萄酒的0280/0d315),proline(脯氨酸)。step4、使用基于熵的离散化方法对数据集x的属性进行离散化处理(该技术是现有技术),计算每个属性的取值范围di=(min,max],其中min表示属性取值的最小值,max表示属性取值的最大值,该取值范围是左开右闭区间。具体的,如表1所示,该数据集有3个类别,每个类别的13种属性离散化都不一样,本发明列举了离散化属性值(部分)。表1离散化属性值step5、构建张量:训练样本的每个属性对应张量的一个阶ii(i=1,2,…13),则每个类别的训练样本xj都能在高维线性空间构造出一个张量step6、对于测试集中测试样本ttest,重复step4-step5,得到测试样本的张量step7、将测试样本张量和训练样本张量进行对比,选择满足属性(匹配属性范围内)最多的作为最后的类别。具体的,得到其每个阶为i1=(13.35,13.40,i2=(1.46,1.61],i3=(2.89,2.95],...,与训练样本张量对比,发现满足类别1,则将测试样本判定为类别1。下表为本发明方法与常用分类方法的准确度对比,如表2所示。表2本发明方法与其他方法进行准确度对比分类方法分类准确率(单位:%)朴素贝叶斯86.62knn70.79svm49.23本发明方法96.77请结合图2,图2为在数据集上的准确率柱形图,从图2中我们可以很容易发现本发明方法具有明显的优势。以上所述仅为本发明的部分实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种改变。凡在本发明的精神和原则之内,所做的任何改变、等价替换或改进等,均应包含在本发明的包含范围之内。当前第1页1 2 3 
技术特征:1.一种基于张量空间的数据分类方法,其特征在于,包括如下步骤:
step1、获取待处理的数据集,将所需处理的据集分为训练集和测试集;
step2、将上述训练集转化为训练数据文件x=(x1,x2,…,xm),xi表示数据集中的第i个样本,m是样本的个数,每个样本有n个属性,即属性是用于区分该类别与其他类别的一种特征;
step3、使用基于熵的离散化方法对数据集x的属性进行离散化处理,计算每个属性的取值范围di=(min,max],其中min表示属性取值的最小值,max表示属性取值的最大值,该取值范围是左开右闭区间;
step4、针对数据集x不同类别的训练样本构建张量其中j表示训练样本的类别,i1,i2,…in表示样本的阶,1个属性对应1个阶;
step5、采用step3和step4同样的方法构建测试集中测试样本ttest的张量,得到测试样本的张量
step6、将测试样本张量和训练样本张量进行对比,匹配属性范围内最多的训练样本,将该训练样本对应的类别作为测试样本最终的类别。
2.一种基于张量空间的数据分类方法在uci中的wine数据集上的应用,其特征在于:每个训练样本具有13种属性,分别为:酒精alcohol,苹果酸malicacid,灰ash,灰分的碱度alcalinityofash,镁magnesium,总酚totalphenols,黄酮类化合物flavanoids,非黄烷类酚类nonflavanoidphenols,原花色素proanthocyanins,颜色强度colorintensity,色调hue,稀释葡萄酒的0280/0d315-od280/od315ofdilutedwines,脯氨酸proline。
3.如权利要求2所述的一种基于张量空间的数据分类方法在uci中的wine数据集上的应用,其特征在于:该wine数据集共有178个样本,分为3类,其中第1类有59个样本,第2类有71个样本,第3类有48个样本。
技术总结本发明公开了一种基于张量空间的数据分类方法及其应用,通过基于熵的离散化方法对数据文件进行离散化,计算每个属性的取值范围;对数据集X构建张量;获取测试样本并按照同样方法进行离散化,构建张量;通过对比测试样本张量与训练样本张量进行对比,最终选择匹配属性最多的作为类别判定标准。本发明具有比其他方法明显的优势:(1)具有不变性,张量能为一个物理量或几何量提供在不同坐标系下的统一表述,从而能更加体现事物的本质特征;(2)丰富的特征表达,高阶张量能够表达属性复制的数据集。
技术研发人员:徐承俊;朱国宾;舒静倩
受保护的技术使用者:武汉大学
技术研发日:2020.01.06
技术公布日:2020.06.05