模糊数据聚类方法、装置、设备和存储介质与流程

专利2022-06-30  56

本申请涉及数据挖掘
技术领域
:,尤其涉及模糊数据聚类方法、装置、设备和存储介质。
背景技术
::随着现代信息技术的发展,人们希望有效地对大规模数据网络进行分析和处理。然而时间和空间的相对高复杂性以及物理内存的不足,使得传统的聚类方法无法处理。因此,对大规模数据网络进行分析和处理的模糊数据聚类方法一直是相关人员的研究热点。现有的模糊数据聚类方法主要有:序贯法、抽样法、分布法等。上述方法虽然都取得了一定的效果,但是在对大规模、分布广泛、增长迅速的数据进行处理的时候,都存在效率比较低下的问题。技术实现要素:有鉴于此,本申请提供了模糊数据聚类方法、装置、设备和存储介质,解决了现有的模糊数据聚类方法效率低下的技术问题。本申请第一方面提供了一种模糊数据聚类方法,包括:对存储在每个网络数据块中的簇节点的局部网络数据进行多曲面映射的模糊数据聚类,形成局部聚类结果;集中所有局部聚类结果的中间结果,对所述所有中间结果进行分析合并,形成网络中所有簇节点的临时聚类信息和所有聚类转换的类映射表;根据所述所有簇节点的临时聚类信息确定所述所有簇节点的最终状态;根据所述所有簇节点的最终状态和类别的映射表确定所述所有簇节点的聚类结果。可选地,对存储在每个网络数据块中的簇节点的局部网络数据进行多曲面映射的模糊数据聚类,形成局部聚类结果,具体包括:将网络数据划分为多个数据块,通过将数据处理过程转移到数据存储端的方法,对存储数据节点进行聚类分析;将整个局部网络的数据全部读入内存,并按照多类型关系数据聚类的模糊方法进行初步聚类,形成局部聚类结果;将局部全局信息集替换为多个局部网络信息集,使所述多个局部网络信息集能够处理海量数据;将所述局部聚类结果提交给分布式模型。可选地,所述集中所有局部聚类结果的中间结果,对所述所有中间结果进行分析合并,形成网络中所有簇节点的临时聚类信息和所有聚类转换的类映射表具体包括:将一组待分析的簇节点和每个分布映射任务得到的聚类分析结果作为输入,通过社区号合并和替换簇节点合并来执行结果合并,输出每个簇节点所属的临时社区号,以及所述临时社区号和最终社区号的映射表。可选地,所述根据所述所有簇节点的临时聚类信息确定所述所有簇节点的最终状态具体包括:根据最终输出的最终社区号的映射表,识别所述所有簇节点的最终状态,得到所述所有簇节点的最终社区划分结果。本申请第二方面提供了一种模糊数据聚类装置,包括:局部聚类模块,用于对存储在每个网络数据块中的簇节点的局部网络数据进行多曲面映射的模糊数据聚类,形成局部聚类结果;合并模块,用于集中所有局部聚类结果的中间结果,对所述所有中间结果进行分析合并,形成网络中所有簇节点的临时聚类信息和所有聚类转换的类映射表;状态模块,用于根据所述所有簇节点的临时聚类信息确定所述所有簇节点的最终状态;全局聚类模块,用于根据所述所有簇节点的最终状态和类别的映射表确定所述所有簇节点的聚类结果。可选地,所述局部聚类模块包括:数据块子单元,用于将网络数据划分为多个数据块,通过将数据处理过程转移到数据存储端的方法,对存储数据节点进行聚类分析;初始聚类单元,将整个局部网络的数据全部读入内存,并按照多类型关系数据聚类的模糊方法进行初步聚类,形成局部聚类结果;信息集合单元,将局部全局信息集替换为多个局部网络信息集,使所述多个局部网络信息集能够处理海量数据;分布式单元,用于将所述局部聚类结果提交给分布式模型。可选地,所述合并模块具体用于:将一组待分析的簇节点和每个分布映射任务得到的聚类分析结果作为输入,通过社区号合并和替换簇节点合并来执行结果合并,输出每个簇节点所属的临时社区号,以及所述临时社区号和最终社区号的映射表。可选地,所述状态单元具体用于:根据最终输出的最终社区号的映射表,识别所述所有簇节点的最终状态,得到所述所有簇节点的最终社区划分结果。本申请第三方面提供了一种模糊数据聚类设备,所述设备包括处理器以及存储器:所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;所述处理器用于根据所述程序代码中的指令执行第一方面所述的模糊数据聚类方法。本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行第一方面所述的模糊数据聚类方法。从以上技术方案可以看出,本申请具有以下优点:本申请中,提供了一种模糊数据聚类方法,包括:对存储在每个网络数据块中的簇节点的局部网络数据进行多曲面映射的模糊数据聚类,形成局部聚类结果;集中所有局部聚类结果的中间结果,对所述所有中间结果进行分析合并,形成网络中所有簇节点的临时聚类信息和所有聚类转换的类映射表;根据所述所有簇节点的临时聚类信息确定所述所有簇节点的最终状态;根据所述所有簇节点的最终状态和类别的映射表确定所述所有簇节点的聚类结果。本申请提供了一种模糊数据聚类方法,通过基于朗克尔拓扑空间的多曲面映射模糊数据聚类,使用了地图内部的合并技术并针对大规模数据下的聚类分析问题,设计了合理的群体策略,具有良好的可扩展性和容错性,能够满足数据量快速增长的需要,从而解决了现有模糊数据聚类方法效率比较低下的问题。附图说明图1为本申请的一种模糊数据聚类方法的一个实施例的流程示意图;图2为本申请的一种模糊数据聚类方法的另一个实施例的流程示意图;图3为本申请的一种模糊数据聚类装置的结构示意图。具体实施方式为了使本
技术领域
:的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本申请实施例提供的模糊数据聚类方法、装置、设备和存储介质,解决了现有的模糊数据聚类方法效率比较低下的技术问题。本申请实施例第一方面提供了一种模糊数据聚类方法的一个实施例。为了便于理解,请参阅图1,本申请的一种模糊数据聚类方法的一个实施例的流程示意图,包括:100,对存储在每个网络数据块中的簇节点的局部网络数据进行多曲面映射的模糊数据聚类,形成局部聚类结果;需要说明的是,多曲面映射的局部网络聚类是指多个数据块的聚类。数据量为m的网络g={v,e}以边缘的形式存储在分布式文件系统中。将网络数据划分为多个数据块,每个数据块的数据量为m<o(m1-θ)(θ>0)。执行冗余存储,每个数据块是整个网络的一部分。其中,每个局域网称为gi={vi,ei}。为了充分利用朗克尔拓扑空间的优势,最大限度地减少本地网络的传输量,采用将数据处理过程转移到数据存储端的方法,对存储数据节点进行聚类分析。为了对网络数据进行聚类,充分利用各节点的处理能力,采用图内合并的策略,而不是使用传统的合并器进行统一的聚类分析。整个局部网络gi的数据全部读入内存,形成局部聚类结果。同时,将局部全局信息集替换为多个局部网络信息集,使算法能够处理海量数据。同时,它还可以有效地减少网络中数据的传输。最后,将由此形成的局部聚类结果提交给分布式模型。可以理解的是,为了识别噪声点并为类别合并提供信息,将多曲面映射的最终输出模糊数据聚类结果设计为两类。如果节点v满足v∈corei(v),则只需提交该节点及其所属的社区;如果满足则不仅输出节点v的状态应为非核心节点,还应同时输出所有邻居信息。200,集中所有局部聚类结果的中间结果,对所有中间结果进行分析合并,形成网络中所有簇节点的临时聚类信息和所有聚类转换的类映射表;需要说明的是,利用社区数进行合并,实现结果的合并。其中,输入是一组待分析的节点和每个映射任务得到的聚类分析结果。最终输出是每个节点v所属的临时社区号,以及临时社区号和最终社区号的映射表。可以理解的是,对节点状态的识别和变化进行处理,并利用合并策略修复状态变化对整个社区分析结果的影响,从而保证整体算法的正确性和算法的分布性。300,根据所有簇节点的临时聚类信息确定所有簇节点的最终状态;需要说明的是,最终结果判断是对合并后节点的状态进行判断,确定节点的最终社区。经过上述朗克尔拓扑空间过程,得到了所有节点和临时社区到最终社区的临时社区划分结果的映射表。最后,需要完成的任务是识别节点的最终状态,得到所有节点的最终社区划分结果。这两个步骤高度相关。因此,它们同时在映射任务中完成。可以理解的是,将网络数据分成若干数据块进行聚类,然后将聚类结果进行合并。最后确定合并后节点的状态,对节点的最终社区进行判断,得到最终的社区状态。本实施例中,通过对存储在每个网络数据块中的簇节点的局部网络数据进行多曲面映射的模糊数据聚类,形成局部聚类结果;然后集中所有中间结果,对所有中间结果进行分析合并,形成网络中所有节点的临时聚类信息和所有聚类转换的类映射表;然后根据节点的临时聚类信息确定节点的最终状态。方法采用基于朗克尔拓扑空间的多曲面映射模糊数据聚类,使用了地图内部的合并技术并针对大规模数据下的聚类分析问题,设计了合理的群体策略,具有良好的可扩展性和容错性,能够满足数据量快速增长的需要,从而解决了现有模糊数据聚类方法效率比较低下的问题。以上为本申请实施例提供的一种模糊数据聚类方法的实施例,为了便于说明,本申请实施例还提供了一种模糊数据聚类方法的应用例。400,根据所有簇节点的最终状态和类别的映射表确定所有簇节点的聚类结果。本实施例中的一种模糊数据聚类方法的应用例,先进行如下定义:定义网络g={v,e},其中v代表一组节点;e代表节点之间的一组边;节点代表系统中的一个元素,边代表元素之间的关系。复杂网络是具有大量节点和复杂结构的网络。许多复杂网络的一个重要特征是社区结构。整个网络可以看作是由几个社区组成的。社区内的节点连接紧密,节点之间的连接相对稀疏。v和w代表网络g中的两个顶点;代表顶点的结构;c代表v的非空集合v;ε代表大于0小于1的十进制数;μ代表大于1的整数;p代表满足ε和μ条件的簇。无论方向如何,节点的邻域关系都被用来描述节点的结构特征,定义如下:定义1:结构相似性σ(v,w)代表顶点v和w之间的相似性。如果网络中的某个节点与其相邻节点在结构上相似,则它们之间的相似性很大;另一方面,相似性很小。定义2:邻域nε(v)表示与顶点v的相似度不小于μ的一组邻域。如果一个节点有多个相似性不小于ε的邻居节点,那么它就是社区的核心节点。定义3:核心点coreε,μ(v)表示节点是具有ε相似性和个数μ的核心节点,如果v中的任何节点v至少有多个相似性大于或等于ε的邻居节点,则该节点v是核心节点。定义4:中间点hubε,μ(v)的取值有两种情况:(1)v不属于任何社区:(2)v连接到不同的社区:对于已经被适当划分为社区的网络clusterε,μ(p),如果v中的节点v不属于任何社区并且邻居的数目不少于10,另外,邻居分布在至少两个社区中,则在参数ε和μ下,节点v被称为中间节点。定义5:异常值outlierε,μ(v)的取值有两种情况:(1)v不属于任何社区:(2)v连接到同一社区或没有社区:对于已正确划分为社区的网络clusterε,μ(p),如果v中的节点v不属于任何社区且邻居数目不少于10个,或者如果邻居分布在同一社区或没有邻居,则在参数ε和μ下,节点v被称为异常值。详细步骤如下:步骤s1、首先将网络数据划分为多个数据块,采用如下映射任务实现了局域网gi的聚类:algorithm1lnc(v,e,ε,μ)begin1.initializethelocalnetworkgi2.whilev∈vdo3.ifv∈core(v)4.createanewclusterci(j)(j=1,2,l),ci(j)={v},5.queue=queueunε(v,i)6.endif7.whilevm∈queuedo8.ci(j)=ci(j)u{vm}9.ifvm∈corei(v)10.queue=queueunε(v,i)11.endif12.endwhile13.endwhile14.outputthelocalclusteringresultpend。将网络g的信息e划分为n个局部网络,其中t表示大于或等于1的整数;corei(v)表示该节点为第i局部网络中的核心节点v为核心节点;ci(j)表示第i多曲面映射模糊数据聚类结果中该节点集的第j社区集;c(v)表示每个局部网络中节点v的社区集;ci(v)代表最终聚类结果形成的第j个社区集;nε(v,i)代表在第i个局部网络中节点相似度不小于ε的邻居集;numε(v)代表集合中的节点数。步骤s2、对于网络g,每个本地网络的本地聚类结果的合并方法如下:algorithm2lcma(p,v,ε,μ)begin1.whilev∈vdo2.thesettobemergedisasthefollowingsv=c(v)3.ifi,v∈corei(v)4.v∈coreε(v)5.elsedeterminewhethervcanmeetthecondition(2)ofthecvdt6.endif7.ifv∈coreε(v)8.calculateandobtainthenε(v)9.sv=svu(v∈nε(v))10.endif11.endwhile12.s=susv13.whiles∈sdo14.ift∈sandtis=φ15.s=sut16.endif17.mapallthetemporarycommunitiesinthestoafinalcommunity18.endwhile19.outputvandthenumberpofthetemporarycommunitytowhichitisaffiliatedto20.outputthefinalcommunitymappingtablesend。为了更具体地解释lcma算法中临时社区的合并过程,给出了一个简单的例子。假设网络g中存在点集v={v1,v2,v3,v4},将网络划分为本地网络g1,g2,g3,其中v1={v1,v2,v4},v2={v1,v3,v5},v3={v5,v6},临时社区合并过程是通过对每个局部网络中的节点进行多曲面映射的模糊数据聚类,形成了四个临时社区,分别是:c1(1)={v4},c1(2)={v1,v2},c2(1)={v1,v3,v5}和c3(1)={v5,v6}。另外,v1是局域网g1中的核心节点,v1也是局域网g2中的非核心节点。在本地网络g2和g3中,v5都是非核心节点。但是,每个局域网中的v5邻居信息经过合并后可以满足numε(v5)≥μ。v1是本地网络g1中的核心节点,满足核心节点判断定理1,即可得到v1∈coreε(v)。节点v5满足核心节点判定定理2,从而可以得到v5∈coreε(v)。对于临时社区c1(2)ic2(1)={v1}和v1∈coreε(v),根据局部聚类合并定理,c1(2)和c2(1)可以合并。以同样的方式,c2(1)和c3(1)也可以合并。因此,c1(2),c2(1)和c3(1)被合并到一个最终的社区c(2)中。定理1:确定核心节点的定理对于目标节点v∈v,当网络中的节点满足以下两个条件之一时,节点v是最终网络中的核心节点。(1)其中,o<i≤n。(2)对于局部网络中所有相似性大于或等于阈值ε的节点v的邻居节点,采用并集进行计算,能得到满足条件numε(v)≥μ的最终邻居节点。证明:当节点v的分析结果满足条件(1)时,假设v∈corei(v),其中o<i≤n,v∈v。根据核心节点的定义,在第i局域网中,numε(v)≥μ。在整个网络中,numε(v)满足不等式表达式,从而numε(v)≥μ。因此,节点v是最终网络中的核心节点。当节点v满足条件(2)时,根据核心节点的定义,可以知道节点v是最终网络中的核心节点。定理2:局部聚类并定理如果两个类别都包含相同的核心节点,那么这两个类别应该合并成一个类别。证明:假设v∈cm(i),v∈cn(j),v∈coreε(v),建立最终的簇集c(k)∈cn(j)。由于v∈coreε(v),节点v的最终状态是核心节点。由于核心节点相似度大于阈值ε的邻居集落在与核心节点相同的类别中,所以第m个本地网络中的v的相邻集合满足并且以这种方式,可得到因此,cm(i)和cn(j)应该合并成一个类别。步骤s3、最终的状态判断方法如下:algorithm3frj(p’,v,s)begin1.initializep’,s2.whilev∈vdo3.ifvisanisolatedpoint4.ifv∈hub(v)5.labelvashub6.elselabelvasoutlier7.endif8.endif9.endwhile10.outputthefinalclusterinformationend。为了便于理解,请参阅图2,本申请的一种模糊数据聚类方法的另一个实施例的流程示意图。进一步地,对存储在每个网络数据块中的簇节点的局部网络数据进行多曲面映射的模糊数据聚类,形成局部聚类结果,具体包括:110,将网络数据划分为多个数据块,通过将数据处理过程转移到数据存储端的方法,对存储数据节点进行聚类分析;120,将整个局部网络的数据全部读入内存,并按照多类型关系数据聚类的模糊方法进行初步聚类,形成局部聚类结果;130,将局部全局信息集替换为多个局部网络信息集,使多个局部网络信息集能够处理海量数据;140,将局部聚类结果提交给分布式模型。需要说明的是,对存储在每个网络数据块中的簇节点的局部网络数据进行多曲面映射的模糊数据聚类,形成局部聚类结果,具体包括:将网络数据划分为多个数据块,通过将数据处理过程转移到数据存储端的方法,对存储数据节点进行聚类分析;将整个局部网络的数据全部读入内存,并按照多类型关系数据聚类的模糊方法进行初步聚类,形成局部聚类结果;将局部全局信息集替换为多个局部网络信息集,使多个局部网络信息集能够处理海量数据;将局部聚类结果提交给分布式模型。进一步地,集中所有局部聚类结果的中间结果,对所有中间结果进行分析合并,形成网络中所有簇节点的临时聚类信息和所有聚类转换的类映射表具体包括:将一组待分析的簇节点和每个分布映射任务得到的聚类分析结果作为输入,通过社区号合并和替换簇节点合并来执行结果合并,输出每个簇节点所属的临时社区号,以及临时社区号和最终社区号的映射表。需要说明的是,将一组待分析的簇节点和每个分布映射任务得到的聚类分析结果作为输入,通过社区号合并和替换簇节点合并来执行结果合并,输出每个簇节点所属的临时社区号,以及临时社区号和最终社区号的映射表。进一步地,根据所有簇节点的临时聚类信息确定所有簇节点的最终状态具体包括:根据最终输出的最终社区号的映射表,识别所有簇节点的最终状态,得到所有簇节点的最终社区划分结果。需要说明的是,根据最终输出的最终社区号的映射表,识别所有簇节点的最终状态,得到所有簇节点的最终社区划分结果。为了便于理解,请参见图3,为本申请提供的一种模糊数据聚类装置的结构示意图。本申请实施例第二方面提供了一种模糊数据聚类装置的实施例。本申请第二方面提供了一种模糊数据聚类装置,包括:局部聚类模块10,用于对存储在每个网络数据块中的簇节点的局部网络数据进行多曲面映射的模糊数据聚类,形成局部聚类结果;合并模块20,用于集中所有局部聚类结果的中间结果,对所有中间结果进行分析合并,形成网络中所有簇节点的临时聚类信息和所有聚类转换的类映射表;状态模块30,用于根据所有簇节点的临时聚类信息确定所有簇节点的最终状态;全局聚类模块40,用于根据所有簇节点的最终状态和类别的映射表确定所有簇节点的聚类结果。进一步地,局部聚类模块包括:数据块子单元,用于将网络数据划分为多个数据块,通过将数据处理过程转移到数据存储端的方法,对存储数据节点进行聚类分析;初始聚类单元,将整个局部网络的数据全部读入内存,并按照多类型关系数据聚类的模糊方法进行初步聚类,形成局部聚类结果;信息集合单元,将局部全局信息集替换为多个局部网络信息集,使多个局部网络信息集能够处理海量数据;分布式单元,用于将局部聚类结果提交给分布式模型。进一步地,合并模块具体用于:将一组待分析的簇节点和每个分布映射任务得到的聚类分析结果作为输入,通过社区号合并和替换簇节点合并来执行结果合并,输出每个簇节点所属的临时社区号,以及临时社区号和最终社区号的映射表。进一步地,状态单元具体用于:根据最终输出的最终社区号的映射表,识别所有簇节点的最终状态,得到所有簇节点的最终社区划分结果。本申请第三方面提供了一种模糊数据聚类设备,设备包括处理器以及存储器:存储器用于存储程序代码,并将程序代码传输给处理器;处理器用于根据程序代码中的指令执行上述实施例的模糊数据聚类方法。本申请第四方面提供了一种计算机可读存储介质,计算机可读存储介质用于存储程序代码,程序代码用于执行上述实施例的模糊数据聚类方法。本申请的说明书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。应当理解,在本申请中,“至少一个(项)”是指一个或者多个,“多个”是指两个或两个以上。“和/或”,用于描述关联对象的关联关系,表示可以存在三种关系,例如,“a和/或b”可以表示:只存在a,只存在b以及同时存在a和b三种情况,其中a,b可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达,是指这些项中的任意组合,包括单项(个)或复数项(个)的任意组合。例如,a,b或c中的至少一项(个),可以表示:a,b,c,“a和b”,“a和c”,“b和c”,或“a和b和c”,其中a,b,c可以是单个,也可以是多个。在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(英文全称:read-onlymemory,英文缩写:rom)、随机存取存储器(英文全称:randomaccessmemory,英文缩写:ram)、磁碟或者光盘等各种可以存储程序代码的介质。以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。当前第1页1 2 3 当前第1页1 2 3 
技术特征:

1.一种模糊数据聚类方法,其特征在于,包括:

对存储在每个网络数据块中的簇节点的局部网络数据进行多曲面映射的模糊数据聚类,形成局部聚类结果;

集中所有局部聚类结果的中间结果,对所述所有中间结果进行分析合并,形成网络中所有簇节点的临时聚类信息和所有聚类转换的类映射表;

根据所述所有簇节点的临时聚类信息确定所述所有簇节点的最终状态;

根据所述所有簇节点的最终状态和类别的映射表确定所述所有簇节点的聚类结果。

2.根据权利要求1所述的模糊数据聚类方法,其特征在于,对存储在每个网络数据块中的簇节点的局部网络数据进行多曲面映射的模糊数据聚类,形成局部聚类结果,具体包括:

将网络数据划分为多个数据块,通过将数据处理过程转移到数据存储端的方法,对存储数据节点进行聚类分析;

将整个局部网络的数据全部读入内存,并按照多类型关系数据聚类的模糊方法进行初步聚类,形成局部聚类结果;

将局部全局信息集替换为多个局部网络信息集,使所述多个局部网络信息集能够处理海量数据;

将所述局部聚类结果提交给分布式模型。

3.根据权利要求1所述的模糊数据聚类方法,其特征在于,所述集中所有局部聚类结果的中间结果,对所述所有中间结果进行分析合并,形成网络中所有簇节点的临时聚类信息和所有聚类转换的类映射表具体包括:

将一组待分析的簇节点和每个分布映射任务得到的聚类分析结果作为输入,通过社区号合并和替换簇节点合并来执行结果合并,输出每个簇节点所属的临时社区号,以及所述临时社区号和最终社区号的映射表。

4.根据权利要求1所述的模糊数据聚类方法,其特征在于,所述根据所述所有簇节点的临时聚类信息确定所述所有簇节点的最终状态具体包括:

根据最终输出的最终社区号的映射表,识别所述所有簇节点的最终状态,得到所述所有簇节点的最终社区划分结果。

5.一种模糊数据聚类装置,其特征在于,包括:

局部聚类模块,用于对存储在每个网络数据块中的簇节点的局部网络数据进行多曲面映射的模糊数据聚类,形成局部聚类结果;

合并模块,用于集中所有局部聚类结果的中间结果,对所述所有中间结果进行分析合并,形成网络中所有簇节点的临时聚类信息和所有聚类转换的类映射表;

状态模块,用于根据所述所有簇节点的临时聚类信息确定所述所有簇节点的最终状态;

全局聚类模块,用于根据所述所有簇节点的最终状态和类别的映射表确定所述所有簇节点的聚类结果。

6.根据权利要求5所述的模糊数据聚类装置,其特征在于,所述局部聚类模块包括:

数据块子单元,用于将网络数据划分为多个数据块,通过将数据处理过程转移到数据存储端的方法,对存储数据节点进行聚类分析;

初始聚类单元,将整个局部网络的数据全部读入内存,并按照多类型关系数据聚类的模糊方法进行初步聚类,形成局部聚类结果;

信息集合单元,将局部全局信息集替换为多个局部网络信息集,使所述多个局部网络信息集能够处理海量数据;

分布式单元,用于将所述局部聚类结果提交给分布式模型。

7.根据权利要求5所述的模糊数据聚类装置,其特征在于,所述合并模块具体用于:

将一组待分析的簇节点和每个分布映射任务得到的聚类分析结果作为输入,通过社区号合并和替换簇节点合并来执行结果合并,输出每个簇节点所属的临时社区号,以及所述临时社区号和最终社区号的映射表。

8.根据权利要求5所述的模糊数据聚类装置,其特征在于,所述状态单元具体用于:

根据最终输出的最终社区号的映射表,识别所述所有簇节点的最终状态,得到所述所有簇节点的最终社区划分结果。

9.一种模糊数据聚类设备,其特征在于,所述设备包括处理器以及存储器:

所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;

所述处理器用于根据所述程序代码中的指令执行权利要求1-4任一项所述的模糊数据聚类方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序代码,所述程序代码用于执行权利要求1-4任一项所述的模糊数据聚类方法。

技术总结
本申请公开了一种模糊数据聚类方法、装置、设备和存储介质,方法包括:对存储在每个网络数据块中的簇节点的局部网络数据进行多曲面映射的模糊数据聚类,形成局部聚类结果;集中所有局部聚类结果的中间结果,对所有中间结果进行分析合并,形成网络中所有簇节点的临时聚类信息和所有聚类转换的类映射表;根据所有簇节点的临时聚类信息确定所有簇节点的最终状态;根据所有簇节点的最终状态和类别的映射表确定所有簇节点的聚类结果。本申请解决了现有模糊数据聚类方法效率比较低下的问题。

技术研发人员:王世安
受保护的技术使用者:广州工程技术职业学院
技术研发日:2020.01.13
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-57027.html

最新回复(0)