一种伴随分析的时间片划分方法及系统与流程

专利2022-06-29  65


本发明涉及数据分析领域,特别涉及一种伴随分析的时间片划分方法及系统。



背景技术:

数据挖掘是一个热门的专业,而时空轨迹的挖掘作为其中一个重要的分支有着举足轻重的地位。时空轨迹是移动对象的位置和时间的记录序列。作为一种重要的时空对象数据类型,时空轨迹的应用涵盖了人类行为、交通物流等诸多方面。通过对各种时空轨迹数据进行分析,可以得到时空轨迹数据中的相似性异常特征,有助于发现其中有意义的轨迹模式。伴随模式是时空轨迹模式中的一种,在交通管理,资源分配等领域有着重要的应用。

伴随分析的基础是将分析对象置于相同的时间片段与空间区域内,即处于同时同地的人或者物可判定为“伴随”。判定伴随的过程比较成熟的方法是使用关联规则算法,找寻频繁项,频繁共同出现的多个分析对象即为相互伴随。伴随分析的基础是确定时间与空间单位,进而分析人员、车辆等要素在同一时间与空间环境中同时出现的情况。空间单位往往比较明确,比如一家酒店、一家网吧、一个房间、一辆车、一艘船等等。时间因为其连续性难以进行明确的划分,因此时间片划分是伴随分析问题中的一个难点。

传统的时间片划分方法主要有两种:一种是等距划分,一种是滑动窗口。等距划分,即按照等时间间隔划分时间片,时间片等长且不存在重合。这种算法易于实现,但较为粗糙,会将原本比较靠近的数据分隔开,比较死板机械。滑动窗口,滑动窗口即能够根据指定的单位长度来框住时间序列,从而计算框内的统计指标。相当于一个长度指定的滑块正在刻度尺上面滑动,每滑动一个单位即得到一个时间片。这种方法避免了数据遗漏,但因此加入了大量时间片重叠,造成大量冗余。



技术实现要素:

本发明的目的在于:提供了一种伴随分析的时间片划分方法及系统,解决了

本发明采用的技术方案如下:

一种伴随分析的时间片划分方法,包括以下步骤:

s1、将时间序列数据进行数值化处理;

s2、选择至少一种linkage建立层次聚类模型;

s3、设置层次聚类模型的终止时间阈值;

s4、使用层次聚类模型对步骤s1处理得到的数据进行训练得到时间序列数据的聚类分片。

所述步骤s2中的linkage包括wardlinkage、completelinkage、averagelinkage、singlelinkage中的至少一种。

本方案提出一种基于层次聚类法的伴随分析时间片划分算法。时间因为其连续性难以进行明确的划分,因此时间片划分是伴随分析问题中的一个难点。本文方法采用无监督的机器学习算法划分时间片,方便高效。该方法不需预设分片数量,可使用时间距离阈值控制分片效果,同时提供多种计算模式,算法灵活、可控,高度贴合实战需求,满足多种实战场景。

所述步骤s2中选择至少一种linkage建立层次聚类模型的方法包括以下步骤:

s201、分析步骤s1中的时间序列数据时间点的分布;

s202、抽取出时间序列数据中分布与整体分布不同的数据;

s203、为步骤s202抽取出的数据选择linkage建立层次聚类模型,为其它未抽取出的数据选择linkage建立层次聚类模型;

s204、将步骤s203建立的层次聚类模型进行组合得到包括至少一种linkage的层次聚类模型。

所述步骤s3中设置层次聚类模型的终止时间阈值方法包括以下步骤:

s301、判断伴随分析需要分析的问题类型;

s302、读取步骤s2选择的linkage类型;

s303、根据需要分析的问题类型及选择的linkage类型从外部数据库中读取对应的终止时间阈值。

还包括步骤:s5、设置不同的linkage和终止时间阈值重复步骤s2-s4,筛选出最佳的层次聚类模型参数。

一种伴随分析的时间片划分系统,包括:

存储器,用于存储可执行指令;

多核处理器,用于执行所述存储器中存储的可执行指令,实现如上述的一种伴随分析的时间片划分方法。

综上所述,由于采用了上述技术方案,本发明的有益效果是:

1.本发明一种伴随分析的时间片划分方法及系统,利用层次聚类法解决公安伴随分析中的时间片划分问题。很好地解决了原有等距划分、滑动窗口方法所存在的信息遗漏和数据冗余等问题,比原有方法更加贴合业务需求,实现灵活、可控,高效的时间片划分;

2.本发明一种伴随分析的时间片划分方法及系统,不需提前指定聚类数、可通过自定义距离阈值控制聚类大小;

3.本发明一种伴随分析的时间片划分方法及系统,时间片不存在数据冗余;

4.本发明一种伴随分析的时间片划分方法及系统,有多种距离计算模式可供选择,以处理不同的业务场景。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,其中:

图1是本发明的技术路线图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚,下面将结合图1对本发明作进一步地详细描述,所描述的实施例不应视为对本发明的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本发明实施例的目的,不是旨在限制本发明。

对本发明实施例进行进一步详细说明之前,对本发明实施例中涉及的名词和术语进行说明,本发明实施例中涉及的名词和术语适用于如下的解释。

伴随分析:若多个分析对象在同一时空出现,则称它们“相互伴随”。公安业务中经常遇到对于车辆伴随、人员伴随、同行同住等问题的研究分析。

时间片:指一个时间单元,意同时间段。用于将一个时间片中的数据作为一个单元分析,如对一个时间片中的对象进行伴随分析。

层次聚类法:层次聚类方法对给定的数据集进行层次的分解,直至达到终止条件。该方法会将数据对象组成一棵聚类数。按照计算策略的不同可分为:

凝聚的层次聚类:一种自下而上的策略,首先将每个对象作为一个类,然后合并这些原子类为越来越大的类,直至达到终止条件。

分裂的层次聚类:采用自上而下的策略,首先将所有对象置于一个类中,然后逐渐细分为越来越小的类,直至达到终止条件。

无监督学习:研究样本缺乏先验知识,训练集中的样本类别标记未知。在不依托样本标记情况下进行的机器学习称为无监督学习。

关联规则:是反映一个事物与其他事物之间的相互依存性和关联性,是数据挖掘的一个重要技术,用于从大量数据中挖掘出有价值的数据项之间的相关关系。

meanshift:该算法的目的是在平滑的样本密度中发现斑点。它是一种基于质心的算法,其工作原理是将候选质心更新为给定区域内点的平均值。然后在后处理阶段过滤这些候选体,以消除重复,完成聚类。

dbscan:是一种基于密度的聚类算法,它将集群视为由低密度区域分隔的高密度区域。因此可以发现任意形状的集群。

实施例1

如图1所示,一种伴随分析的时间片划分方法,包括以下步骤:

s1、将时间序列数据进行数值化处理;

s2、选择至少一种linkage建立层次聚类模型;

s3、设置层次聚类模型的终止时间阈值;

s4、使用层次聚类模型对步骤s1处理得到的数据进行训练得到时间序列数据的聚类分片。

实施例2

本实施例在实施例1的基础上,所述步骤s2中的linkage包括wardlinkage、completelinkage、averagelinkage、singlelinkage中的至少一种。

所述步骤s2中选择至少一种linkage建立层次聚类模型的方法包括以下步骤:

s201、分析步骤s1中的时间序列数据时间点的分布;

s202、抽取出时间序列数据中分布与整体分布不同的数据;

s203、为步骤s202抽取出的数据选择linkage建立层次聚类模型,为其它未抽取出的数据选择linkage建立层次聚类模型;

s204、将步骤s203建立的层次聚类模型进行组合得到包括至少一种linkage的层次聚类模型。

实施例3

本实施例在实施例1的基础上,所述步骤s3中设置层次聚类模型的终止时间阈值方法包括以下步骤:

s301、判断伴随分析需要分析的问题类型;

s302、读取步骤s2选择的linkage类型;

s303、根据需要分析的问题类型及选择的linkage类型从外部数据库中读取对应的终止时间阈值。

实施例4

本实施例在实施例1的基础上还包括步骤:s5、设置不同的linkage和终止时间阈值重复步骤s2-s4,筛选出最佳的层次聚类模型参数。

实施例5

一种伴随分析的时间片划分系统,包括:

存储器,用于存储可执行指令;

多核处理器,用于执行所述存储器中存储的可执行指令,实现如上述的一种伴随分析的时间片划分方法。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本发明各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。


技术特征:

1.一种伴随分析的时间片划分方法,其特征在于:包括以下步骤:

s1、将时间序列数据进行数值化处理;

s2、选择至少一种linkage建立层次聚类模型;

s3、设置层次聚类模型的终止时间阈值;

s4、使用层次聚类模型对步骤s1处理得到的数据进行训练得到时间序列数据的聚类分片。

2.根据权利要求1所述的一种伴随分析的时间片划分方法,其特征在于:所述步骤s2中的linkage包括wardlinkage、completelinkage、averagelinkage、singlelinkage中的至少一种。

3.根据权利要求2所述的一种伴随分析的时间片划分方法,其特征在于:所述步骤s2中选择至少一种linkage建立层次聚类模型的方法包括以下步骤:

s201、分析步骤s1中的时间序列数据时间点的分布;

s202、抽取出时间序列数据中分布与整体分布不同的数据;

s203、为步骤s202抽取出的数据选择linkage建立层次聚类模型,为其它未抽取出的数据选择linkage建立层次聚类模型;

s204、将步骤s203建立的层次聚类模型进行组合得到包括至少一种linkage的层次聚类模型。

4.根据权利要求1所述的一种伴随分析的时间片划分方法,其特征在于:所述步骤s3中设置层次聚类模型的终止时间阈值方法包括以下步骤:

s301、判断伴随分析需要分析的问题类型;

s302、读取步骤s2选择的linkage类型;

s303、根据需要分析的问题类型及选择的linkage类型从外部数据库中读取对应的终止时间阈值。

5.根据权利要求1所述的一种伴随分析的时间片划分方法,其特征在于:还包括步骤:

s5、设置不同的linkage和终止时间阈值重复步骤s2-s4,筛选出最佳的层次聚类模型参数。

6.一种伴随分析的时间片划分系统,其特征在于:包括:

存储器,用于存储可执行指令;

多核处理器,用于执行所述存储器中存储的可执行指令,实现如权利要求1所述的一种伴随分析的时间片划分方法。

技术总结
本发明公开了一种伴随分析的时间片划分方法及系统,提出一种基于层次聚类法的伴随分析时间片划分算法。时间因为其连续性难以进行明确的划分,因此时间片划分是伴随分析问题中的一个难点。本文方法采用无监督的机器学习算法划分时间片,方便高效。该方法不需预设分片数量,可使用时间距离阈值控制分片效果,同时提供多种计算模式,算法灵活、可控,高度贴合实战需求,满足多种实战场景。

技术研发人员:张艳清;查文宇;王纯斌;王伟才;殷腾蛟;潘小东
受保护的技术使用者:成都四方伟业软件股份有限公司
技术研发日:2020.04.28
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-52828.html

最新回复(0)