本发明涉及大数据处理技术领域,尤其涉及一种时间序列大数据的稀疏化方法及系统。
背景技术:
时间序列大数据是一类主要的大数据,在智慧城市、交通、金融和生产制造领域有着广泛的应用。时间序列大数据具有实时性、大而稀疏性、随机性和序贯性等特点,其处理需要耗费大量的计算和存储资源,因此,时间序列大数据的稀疏化方法具有重要的意义。
相关的数据(非大数据)稀疏化方法主要包括:(1)剪枝法:该类方法采用最小二乘支持向量机对数据建模,对较小的支持向量值对应的支持向量进行剪裁,处理过程需要反复迭代,计算复杂度较高,且稀疏化是对支持向量而非数据样本。(2)最大熵法:该类方法通过估计样本集的概率密度函数,从整个数据集中寻找并选择具有较大信息熵的数据子集,从而实现稀疏化,但是难以处理较大的数据集。
技术实现要素:
本发明的目的是提供一种时间序列大数据的稀疏化方法及系统,显著地降低了大数据处理的时间复杂度和存储复杂度,更减少了大数据的噪声污染影响,并解决了时间序列大数据的大而稀疏问题。
本发明的目的是通过以下技术方案实现的:
一种时间序列大数据的稀疏化方法,包括:
采集时间序列大数据;
将采集到的时间序列大数据视为原始的时序信号进行多尺度的正交小波变换;
使用软阈值方法对多尺度的正交小波变换的结果进行去噪处理;
通过小波逆变换对去噪结果进行重构处理,获得重构的时序信号;
根据重构的时序信号与原始的时序信号之间的差距,来确定各个数据点的重要性,保留重要性满足要求的数据点作为稀疏化结果。
一种时间序列大数据的稀疏化系统,用于实现前述的方法,该系统包括:
数据采集模块,用于采集时间序列大数据;
稀疏化处理模块,用于将采集到的时间序列大数据视为原始的时序信号进行多尺度的正交小波变换;使用软阈值方法对多尺度的正交小波变换的结果进行去噪处理;通过小波逆变换对去噪结果进行重构处理,获得重构的时序信号;根据重构的时序信号与原始的时序信号之间的差距,来确定各个数据点的重要性,保留重要性满足要求的数据点作为稀疏化结果。
由上述本发明提供的技术方案可以看出,通过小波分解和软阈值法去噪,减少了噪声污染对时间序列大数据的影响,提高了稀疏化方法的鲁棒性;进一步,通过小波重构获取时间序列大数据表征的时序信号,并根据该时序信号进行大数据集的数据重要性判断与选择,使得该方法具有物理意义;另外,本发明的系统通过与数据采集系统交互实现稀疏化控制方案的,更好地适用流式大数据的在线稀疏化应用要求。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。
图1为本发明实施例提供的一种时间序列大数据的稀疏化方法的流程图;
图2为本发明实施例提供的误差阈值e形成的管道示意图;
图3为本发明实施例提供的一种时间序列大数据的稀疏化系统的示意图。
具体实施方式
下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明的保护范围。
本发明实施例提供了一种时间序列大数据的稀疏化方法,将时间序列大数据视为时序信号,通过小波分解与软阈值滤波,对时间序列大数据进行去噪处理,进一步根据小波重构后的时序信号,对时间序列大数据的数据进行重要性判断和选择,从而实现时间序列大数据的稀疏化,该方法较好地刻画了时间序列大数据集与各个数据的复杂关系,适应不同分布的时间序列大数据的稀疏化处理。如图1所示,该方法主要包括如下步骤:
步骤1、采集时间序列大数据。
本发明实施例中,可以通过有线或者无线网络从外部系统采集时间序列大数据,根据应用需求时间序列大数据可以是实时交通流量、股票数据、电网数据、或者气象数据等。
步骤2、将采集到的时间序列大数据视为时序信号f(t)进行多尺度的正交小波变换。
本发明实施例中,时间序列大数据可以利用数据集{f(ti),yi}表示,i=1,2,…,l,l为数据总数,f(ti)为原始的时序信号,ti为变量(即,时刻),yi为对f(ti)进行采集所获得的时间序列数据。其中f(ti)∈r,yi∈r,r表示整数集,当然,f(ti)、yi可以为多维信号,f(ti)∈rn,yi∈rn。设时间序列大数据集对应的时序信号为f(t),则符合采样定理,f(t)有有限的长度l,且被加性噪声δi污染。对应f(ti)的时间序列数据yi表示为:
yi=f(ti) δi
其中{δi}独立于f(ti)。
为了消除噪声污染并保留尽可能少的数据,实现时间序列大数据的稀疏化,首先对噪声信号进行多尺度的正交小波变换,公式为:
其中,ψj,kti为正交小波基,其顶部横线为共轭符号,j,k∈z,z为整数域,j表示对时序信号进行伸缩的尺度因子,k为位移因子,r表示整数集,wtf(j,k)表示尺度为j,位移为k的小波变换系数。
可以将上述正交小波变换进行如下简化:设置向量
步骤3、使用软阈值方法对多尺度的正交小波变换的结果进行去噪处理。
相关的非线性阈值函数表示为:
ηt(wtf(j,k))=sgn(wtf(j,k))×max(|wtf(j,k)|-t,0)
其中,阈值
步骤4、通过小波逆变换对去噪结果进行重构处理,获得重构的时序信号。
本发明实施例中,通过小波逆变换重构采集数据,获得重构的时序序号,记为
步骤5、根据重构的时序信号与原始的时序信号之间的差距,来确定各个数据点的重要性,保留重要性满足要求的数据点作为稀疏化结果。
本发明实施例中,记第i个数据点重构的时序信号、原始的时序信号分别表示为
如图2所示,通过误差阈值e形成了一个管道,可以决定移除数据点的数量。图2中,移除比例为30%,圆形符号表示将被移除的数据点,星形符号表示保留的数据点,实线为稀疏化后得到的估计曲线,虚线表示误差阈值e形成的管道。
通过上述方案得到的稀疏化的数据,显著降低了数据处理计算和存储复杂度,可以提供回归方法如非线性回归、非参数回归、神经网络、支持向量机等方法用于模型构建;也可以通过相应的平台进行结果数据展示;形成相应的时序曲线。以前文提到的实时交通流量、股票数据、电网数据、或者气象数据为例,最终绘制的时序曲线可以更准确反应各时段交通流量、股票走势、用电量变化情况、温度变化状况等。
为了验证本发明实施例上述方案的有效性,分别采用服从三种典型分布包括sinc,gauss2和endo的时间序列大数据被采用,数据流大小均为1g,并分别采用高斯白噪声和student-t分布的噪声对上述大数据集添加噪声,以验证本方法的稀疏化和鲁棒性能。小波基采用daubechies基函数,分解层次(即尺度因子j)为5,误差阈值e分别采用0、0.028、0.002、0.0012和0.004,稀疏化采用归一化误差:|yi-yi'|>e|ymax-ymin|,采用本方法对三个时间序列大数据集进行稀疏化,参与对比的是suykens’algorithm方案,该方案提出了一种最小二乘支持向量机回归的稀疏化策略,其方法是通过设定阈值α*,忽略在训练后|αi|<α*的那些样本点,经过反复迭代,实现稀疏化处理。
评价指标分别采用平均绝对误差mae和均方根误差rmse。
其中,y为验证样本;
实验结果如图1所示。
表1噪声污染的sinc、gauss2和mackey-glass函数稀疏化结果
实验结果显示,在时间序列大数据叠加了噪声时,本方法也能够具有较好稀疏化性能、鲁棒性和噪声抑制能力。
本发明另一实施例还提供一种时间序列大数据的稀疏化系统,该系统主要用于实现前述实施例所述的方法,如图3所示,该系统包括:
数据采集模块11,用于采集时间序列大数据.
稀疏化处理模块12,用于将采集到的时间序列大数据视为原始的时序信号进行多尺度的正交小波变换;使用软阈值方法对多尺度的正交小波变换的结果进行去噪处理;通过小波逆变换对去噪结果进行重构处理,获得重构的时序信号;根据重构的时序信号与原始的时序信号之间的差距,来确定各个数据点的重要性,保留重要性满足要求的数据点作为稀疏化结果。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例可以通过软件实现,也可以借助软件加必要的通用硬件平台的方式来实现。基于这样的理解,上述实施例的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将系统的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明披露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
1.一种时间序列大数据的稀疏化方法,其特征在于,包括:
采集时间序列大数据;
将采集到的时间序列大数据视为原始的时序信号进行多尺度的正交小波变换;
使用软阈值方法对多尺度的正交小波变换的结果进行去噪处理;
通过小波逆变换对去噪结果进行重构处理,获得重构的时序信号;
根据重构的时序信号与原始的时序信号之间的差距,来确定各个数据点的重要性,保留重要性满足要求的数据点作为稀疏化结果。
2.根据权利要求1所述的一种时间序列大数据的稀疏化方法,其特征在于,所采集的时间序列大数据至少包括:实时交通流量、电网数据、以及气象数据。
3.根据权利要求1所述的一种时间序列大数据的稀疏化方法,其特征在于,
时间序列大数据利用数据集{f(ti),yi}表示,i=1,2,…,l,l为数据总数,f(ti)为原始的时序信号,ti为时刻,yi为对f(ti)进行采集所获得的时间序列数据,其中ti∈r,yi∈r,r表示整数集;
对应f(xi)的时间序列数据yi表示为:
yi=f(xi) δi
其中,δi表示加性噪声。
4.根据权利要求1或3所述的一种时间序列大数据的稀疏化方法,其特征在于,多尺度的正交小波变换的公式为:
其中,ψj,kti为正交小波基,其顶部横线为共轭符号,j,k∈z,z为整数域,j表示对时序信号进行伸缩的尺度因子,k为位移因子,r表示整数集,wtf(j,k)表示尺度为j,位移为k的小波变换系数,f(ti)为时序信号,ti为时刻。
5.根据权利要求1所述的一种时间序列大数据的稀疏化方法,其特征在于,使用软阈值方法对正交小波变换的结果进行去噪处理表示为:
ηt(wtf(j,k))=sgn(wtf(j,k))×max(|wtf(j,k)|-t,0)
其中,阈值
6.根据权利要求1所述的一种时间序列大数据的稀疏化方法,其特征在于,通过小波逆变换对去噪结果进行重构处理,获得重构的时序信号表示为:
其中,ηt(wtf(j,k))表示采用非线性软阈值函数对正交小波变换的结果进行去噪处理后得到的结果;ψj,kti为正交小波基,j表示对时序信号进行伸缩的尺度因子,k为位移因子,
7.根据权利要求1所述的一种时间序列大数据的稀疏化方法,其特征在于,所述根据重构的时序信号与原始的时序信号之间的差距,来确定各个数据点的重要性,保留重要性满足要求的数据点作为稀疏化结果包括:
第i个数据点重构的时序信号、原始的时序信号分别表示为
判断是否满足误差函数:|yi-yi'|>e|ymax-ymin|
若是,则不满足重要性要求,将移除相应数据点;若否,则认为相关数据点的重要性满足要求,并保留;
其中,δi表示加性噪声,e为设定的误差阈值,ymax和ymin分别为{yi}i中的最大值和最小值。
8.一种时间序列大数据的稀疏化系统,其特征在于,用于实现权利要求1-6任一项所述的方法,该系统包括:
数据采集模块,用于采集时间序列大数据;
稀疏化处理模块,用于将采集到的时间序列大数据视为原始的时序信号进行多尺度的正交小波变换;使用软阈值方法对多尺度的正交小波变换的结果进行去噪处理;通过小波逆变换对去噪结果进行重构处理,获得重构的时序信号;根据重构的时序信号与原始的时序信号之间的差距,来确定各个数据点的重要性,保留重要性满足要求的数据点作为稀疏化结果。
技术总结