本发明涉及大数据数据分类技术领域,具体而言,涉及一种基于时序特征学习的数据流分类方法及装置。
背景技术:
随着大数据技术的不断发展,各类服务器面临的数据处理需求日益增多,这对服务器的数据处理能力提出了新的挑战。服务器在进行海量数据的处理时,数据分类是一个常见的步骤。通过对海量数据进行分类,能够提高服务器的数据处理效率并节省时间成本。然而,随着数据规模的扩大以及数据种类的增加,服务器难以高效地应对大数据的数据流分类需求。
技术实现要素:
为了改善上述问题,本发明提供了一种基于时序特征学习的数据流分类方法及装置。
本发明实施例的第一方面,提供了一种基于时序特征学习的数据流分类方法,包括:
依次将获取到的待分类数据流导入缓存;
根据所述缓存的剩余存储容量按照第一设定方式或者第二设定方式提取所述缓存中的待分类数据流的时序特征;
将每个时序特征输入预先训练完成的lstm神经网络进行识别,得到每个时序特征的识别标签;
将所述缓存中与所述识别标签对应的待分类数据流存入与所述识别标签对应的数据存储区,并将所述识别标签对应的待分类数据流从所述缓存中删除。
优选地,根据所述缓存的剩余存储容量按照第一设定方式或者第二设定方式提取所述缓存中的待分类数据流的时序特征,包括:
若所述剩余存储容量大于或等于设定容量,按照第一设定方式提取所述缓存中的待分类数量流的时序特征,则确定所述缓存中的待分类数据流所占用的目标存储容量与所述缓存的额定存储容量的比值;
根据所述比值启动多个预设的特征提取线程;
采用启动的所述特征提取线程对所述待分类数据流进行特征提取,得到所述待分类数据流对应的时序特征。
优选地,根据所述缓存的剩余存储容量按照第一设定方式或者第二设定方式提取所述缓存中的待分类数据流的时序特征,包括:
若所述剩余存储容量小于设定容量,按照第二设定方式提取所述缓存中的待分类数量流的时序特征,启动预设的多个特征提取线程中的每个特征提取线程,对所述待分类数据流进行特征提取,得到所述待分类数据流对应的时序特征。
优选地,对所述待分类数据流进行特征提取,得到所述待分类数据流对应的时序特征,包括:
通过所述特征提取线程解析所述待分类数据流,得到所述待分类数据流的第一数据字节序列和第二数据字节序列;
确定所述第一数据字节序列中用于表征所述第一数据字节序列的起点的第一字节以及用于表征所述第一数据字节序列的终点的第二字节;
获取所述第一字节对应的第一时刻以及所述第二字节对应的第二时刻;其中,所述第一时刻是接收到所述第一字节的时刻,所述第二时刻是接收到所述第二字节的时刻;
获取将所述第一字节导入所述缓存的第三时刻以及将所述第二字节导入所述缓存的第四时刻;
根据所述第一时刻和所述第二时刻确定第一时段并根据所述第三时刻和所述第四时刻确定第二时段;
确定所述第一数据字节序列中的每个第一字节分段标识在所述第一时段中的第一相对位置以及所述第二数据字节序列中的每个第二字节分段标识在所述第二时段中的第二相对位置;
按照所述特征提取线程所分配的特征权重对所述第一字节、所述第二字节、所述第一时刻、所述第二时刻、所述第三时刻、所述第四时刻、每个第一字节分段标识、每个第一相对位置、每个第二字节分段标识以及每个第二相对位置进行排序得到排序序列;
根据所述排序序列确定所述待分类数据流对应的时序特征。
优选地,将每个时序特征输入预先训练完成的lstm神经网络进行识别,得到每个时序特征的识别标签,包括:
通过所述lstm神经网络判断每个时序特征中的第一目标向量值的第一向量权重与该时序特征中的第二目标向量值的第二向量权重的差值是否超过设定阈值;
若是,删除该时序特征中的所述第一目标向量;
若否,保留该时序特征中的所述第一目标向量;
通过所述lstm神经网络确定每个时序特征的向量值加权和;
确定每个向量值加权和落入的数值区间,该数值区间为预设的多个数值区间的其中之一;
根据所述数值区间所配对的区间标识得到所述向量值加权和对应的时序特征的识别标签。
本发明实施例的第二方面,提供了一种基于时序特征学习的数据流分类装置,包括:
数据缓存模块,用于依次将获取到的待分类数据流导入缓存;
特征提取模块,用于根据所述缓存的剩余存储容量按照第一设定方式或者第二设定方式提取所述缓存中的待分类数据流的时序特征;
特征识别模块,用于将每个时序特征输入预先训练完成的lstm神经网络进行识别,得到每个时序特征的识别标签;
缓存清理模块,用于将所述缓存中与所述识别标签对应的待分类数据流存入与所述识别标签对应的数据存储区,并将所述识别标签对应的待分类数据流从所述缓存中删除。
优选地,所述特征提取模块,具体用于:
若所述剩余存储容量大于或等于设定容量,按照第一设定方式提取所述缓存中的待分类数量流的时序特征,则确定所述缓存中的待分类数据流所占用的目标存储容量与所述缓存的额定存储容量的比值;
根据所述比值启动多个预设的特征提取线程;
采用启动的所述特征提取线程对所述待分类数据流进行特征提取,得到所述待分类数据流对应的时序特征。
优选地,所述特征提取模块,具体用于:
若所述剩余存储容量小于设定容量,按照第二设定方式提取所述缓存中的待分类数量流的时序特征,启动预设的多个特征提取线程中的每个特征提取线程,对所述待分类数据流进行特征提取,得到所述待分类数据流对应的时序特征。
优选地,所述特征提取模块,进一步用于:
通过所述特征提取线程解析所述待分类数据流,得到所述待分类数据流的第一数据字节序列和第二数据字节序列;
确定所述第一数据字节序列中用于表征所述第一数据字节序列的起点的第一字节以及用于表征所述第一数据字节序列的终点的第二字节;
获取所述第一字节对应的第一时刻以及所述第二字节对应的第二时刻;其中,所述第一时刻是接收到所述第一字节的时刻,所述第二时刻是接收到所述第二字节的时刻;
获取将所述第一字节导入所述缓存的第三时刻以及将所述第二字节导入所述缓存的第四时刻;
根据所述第一时刻和所述第二时刻确定第一时段并根据所述第三时刻和所述第四时刻确定第二时段;
确定所述第一数据字节序列中的每个第一字节分段标识在所述第一时段中的第一相对位置以及所述第二数据字节序列中的每个第二字节分段标识在所述第二时段中的第二相对位置;
按照所述特征提取线程所分配的特征权重对所述第一字节、所述第二字节、所述第一时刻、所述第二时刻、所述第三时刻、所述第四时刻、每个第一字节分段标识、每个第一相对位置、每个第二字节分段标识以及每个第二相对位置进行排序得到排序序列;
根据所述排序序列确定所述待分类数据流对应的时序特征。
优选地,所述特征识别模块,具体用于:
通过所述lstm神经网络判断每个时序特征中的第一目标向量值的第一向量权重与该时序特征中的第二目标向量值的第二向量权重的差值是否超过设定阈值;
若是,删除该时序特征中的所述第一目标向量;
若否,保留该时序特征中的所述第一目标向量;
通过所述lstm神经网络确定每个时序特征的向量值加权和;
确定每个向量值加权和落入的数值区间,该数值区间为预设的多个数值区间的其中之一;
根据所述数值区间所配对的区间标识得到所述向量值加权和对应的时序特征的识别标签。
有益效果
当缓存中的待分类数据流的数量较少时,可以采用开启部分特征提取线程的第一设定方式提取所述缓存中的待分类数据流的时序特征。这样,可以为lstm神经网络对应的识别线程分配较多的时间片资源,从而减少确定识别标签的耗时,进而及时地对待检测数据流进行分类。
当缓存中的待分类数据流的数量较多时,可以采用开启全部特征提取线程的第二设定方式提取所述缓存中的待分类数据流的时序特征。通过开启全部特征提取线程,能够确保对缓存中的每个待分类数据流进行时序特征提取,避免遗漏对缓存中的部分待分类数据流的时序特征提取。这样,能够确保通过lstm神经网络对获取到的所有待分类数据流进行分类。
通过将存储到数据存储区的待分类数据流从缓存中删除,能够释放缓存的存储容量,从而使得缓存能够为新的待分类数据流预留存储空间,避免新的待分类数据流在缓存过程中丢失。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例所提供的一种基于时序特征学习的数据流分类方法的流程图。
图2为本发明实施例所提供的一种基于时序特征学习的数据流分类装置的流程图。
具体实施方式
下面将参照附图更详细地描述本发明公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互组合。
请参阅图1,为本发明实施例所提供的一种基于时序特征学习的数据流分类方法的流程图,所述方法具体可以包括以下步骤所描述的内容。
步骤110,依次将获取到的待分类数据流导入缓存。
步骤120,根据所述缓存的剩余存储容量按照第一设定方式或者第二设定方式提取所述缓存中的待分类数据流的时序特征。
在本发明实施例中,在本实施例中,时序特征可以以多维向量的形式进行表示。
步骤130,将每个时序特征输入预先训练完成的lstm神经网络进行识别,得到每个时序特征的识别标签。
在本申请实施例中,lstm(longshort-termmemory)神经网络(也称为长短记忆人工神经网络)是一种特殊的循环神经网络,能够解决常见的循环神经网络存在的长期依赖问题。在应用lstm神经网络时,可以预先通过训练集对lstm神经网络进行训练,使得lstm神经网络具有识别出每个时序特征的识别标签的逻辑。
步骤140,将所述缓存中与所述识别标签对应的待分类数据流存入与所述识别标签对应的数据存储区,并将所述识别标签对应的待分类数据流从所述缓存中删除。
可以理解,从缓存中删除待分类数据流之后,可以将释放缓存的存储容量,这样可以使得缓存不断接收新的待分类数据流,从而实现对数据流的持续不间断处理。
通过步骤110-步骤140所描述的内容,当缓存中的待分类数据流的数量较少时,可以采用开启部分特征提取线程的第一设定方式提取所述缓存中的待分类数据流的时序特征。这样,可以为lstm神经网络对应的识别线程分配较多的时间片资源,从而减少确定识别标签的耗时,进而及时地对待检测数据流进行分类。
当缓存中的待分类数据流的数量较多时,可以采用开启全部特征提取线程的第二设定方式提取所述缓存中的待分类数据流的时序特征。通过开启全部特征提取线程,能够确保对缓存中的每个待分类数据流进行时序特征提取,避免遗漏对缓存中的部分待分类数据流的时序特征提取。这样,能够确保通过lstm神经网络对获取到的所有待分类数据流进行分类。
通过将存储到数据存储区的待分类数据流从缓存中删除,能够释放缓存的存储容量,从而使得缓存能够为新的待分类数据流预留存储空间,避免新的待分类数据流在缓存过程中丢失。
在一种可替换的实施方式中,根据所述缓存的剩余存储容量按照第一设定方式或者第二设定方式提取所述缓存中的待分类数据流的时序特征的步骤,具体可以通过以下两种方式实现。当然,在具体实施时,并不限于以下两种方式。
(1)若所述剩余存储容量大于或等于设定容量,则采用第一设定方式。
(2)若所述剩余存储容量小于设定容量,则采用第二设备方式。
在本实施例中,设定容量可以是用于表征缓存处于高负荷状态的阈值。例如,设定容量可以为缓存的额定存储容量的x%(x为整数)。
在一个更为具体的实施方式中,当采用第一设定方式进行时序特征提取时,首先确定所述缓存中的待分类数据流所占用的目标存储容量与所述缓存的额定存储容量的比值,其次根据所述比值启动多个预设的特征提取线程,最后采用启动的所述特征提取线程对所述待分类数据流进行特征提取,得到所述待分类数据流对应的时序特征。
在第一设定方式中,在本实施例中,以比值为y为例进行说明,预设的特征提取线程的数量可以为n个,n为正整数。则目标数量可以是大于等于n*y的最小整数。又例如,当y=0.3,n=7时,目标数量是大于等于7*0.3=2.1的最小整数,则目标数量可以为3。
在本实施例中,采用所述特征提取线程对所述待分类数据流进行特征提取可以理解为同时开启多个特征提取线程对多个待分类数据流进行并行处理。
在另一个更为具体的实施方式中,当采用第二设定方式进行时序特征提取时,可以启动预设的多个特征提取线程中的每个特征提取线程,对所述待分类数据流进行特征提取,得到所述待分类数据流对应的时序特征。
可以理解,根据剩余存储容量与设定容量的大小关系采用不同设定方式对待分类数据流进行特征提取,能够确保特征提取的效率,减少特征提取的耗时,也能够确保特征提取的完整性,避免特征提取的遗漏。
在上述基础上,对所述待分类数据流进行特征提取,得到所述待分类数据流对应的时序特征的步骤,进一步可以包括以下步骤所描述的内容。
步骤121,通过所述特征提取线程解析所述待分类数据流,得到所述待分类数据流的第一数据字节序列和第二数据字节序列。
在步骤121中,所述第一数据字节序列是获取到所述待分类数据流时的所述待分类数据流对应的数据字节序列,所述第二数据字节序列是位于所述缓存中的待分类数据流对应的数据字节序列。可以理解,第一数据字节序列和第二数据字节序列中的字节分段情况不同。
在具体实施时,可以在启动特征提取线程后,分别将待分类数据流d1和待分类数据流d2在特征提取线程中进行加载,进而确定出待分类数据流d1对应的第一数据字节序列以及待分类数据流d2对应的第二数据字节序列。
可以理解,待分类数据流d1没有位于缓存中而待分类数据流d2位于缓存中,这两段数据流本质上是同一个数据流,但是为了适应缓存对应的数据结构,会将导入缓存的数据流的数据字节序列进行适当调整。
在确定第一数据字节序列和第二数据字节序列时,可以分别确定出第一数据字节序列中的每个字节以及字节之间的第一字节分段标识以及第二数据字节序列中的每个字节以及字节之间的第二字节分段标识。可以理解,第一字节分段标识在第一数据字节序列中的位置与第二字节分段标识在第二数据字节序列中的位置不同。
步骤122,确定所述第一数据字节序列中用于表征所述第一数据字节序列的起点的第一字节以及用于表征所述第一数据字节序列的终点的第二字节。
步骤123,获取所述第一字节对应的第一时刻以及所述第二字节对应的第二时刻。
在步骤123中,所述第一时刻是接收到所述第一字节的时刻,所述第二时刻是接收到所述第二字节的时刻。
步骤124,获取将所述第一字节导入所述缓存的第三时刻以及将所述第二字节导入所述缓存的第四时刻。
步骤125,根据所述第一时刻和所述第二时刻确定第一时段并根据所述第三时刻和所述第四时刻确定第二时段。
步骤126,确定所述第一数据字节序列中的每个第一字节分段标识在所述第一时段中的第一相对位置以及所述第二数据字节序列中的每个第二字节分段标识在所述第二时段中的第二相对位置。
在步骤126中,相对位置可以通过小数进行表示。例如,第一时段为00:00:00~00:00:30,某个第一字节分段标识在第一时段中对应的时刻为00:00:06,则该第一字节分段标识在第一时段中对应的第一相对位置为6/30=0.2。可以理解,第一相对位置和第二相对位置均进行了归一化处理,第一相对位置和第二相对位置可以是0~1之间的小数。
步骤127,按照所述特征提取线程所分配的特征权重对所述第一字节、所述第二字节、所述第一时刻、所述第二时刻、所述第三时刻、所述第四时刻、每个第一字节分段标识、每个第一相对位置、每个第二字节分段标识以及每个第二相对位置进行排序得到排序序列。
在步骤127中,特征权重用于表征所述第一字节、所述第二字节、所述第一时刻、所述第二时刻、所述第三时刻、所述第四时刻、每个第一字节分段标识、每个第一相对位置、每个第二字节分段标识以及每个第二相对位置对待分类数据流的分类结果的影响程度,特征权重越大则影响程度越强,特征权重越小则影响程度越弱。可以理解,排序序列可以作为确定时序特征的向量值的顺序的参考。
步骤128,根据所述排序序列确定所述待分类数据流对应的时序特征。
在具体实施时,可以通过排序序列中的每个元素进行归一化处理而得到时序特征。这样,便于后续lstm神经网络对时序特征进行快速识别。
进一步地,步骤130所描述的将每个时序特征输入预先训练完成的lstm神经网络进行识别,得到每个时序特征的识别标签的步骤,具体可以通过以下子步骤所描述的方法实现。
步骤131,通过所述lstm神经网络判断每个时序特征中的第一目标向量值的第一向量权重与该时序特征中的第二目标向量值的第二向量权重的差值是否超过设定阈值。
在本实施例中,第一目标向量值可以是第一字节、第二字节、第一字节分段标识以及第二字节分段标识对应的向量值,第二目标向量值可以是第一时刻、第二时刻、第三时刻、第四时刻、第一相对位置和第二相对位置对应的向量值。进一步地,向量权重用于表征向量值与时序的关联性。可以理解,向量权重越大,对应的向量值与时序的关联性越大。
例如,第二目标向量值所表征的第一时刻、第二时刻、第三时刻、第四时刻、第一相对位置和第二相对位置均是与时间和时序相关的,因此,第二目标向量值对应的向量权重普遍大于第一目标向量值对应的向量权重。
进一步地,为了避免对一些与时序存在高关联性的第一目标向量值的遗漏,需要对第一目标向量值的第一向量权重进行分析。又例如,第二向量权重可以是第二目标向量值对应的最小向量权重。
进一步地,若第一向量权重与第二向量权重的差值超过设定阈值,则判定第一向量权重对应的第一目标向量值与时序的相关性较弱,为了减少时序特征对lstm神经网络的噪声影响,可以将第一目标向量值删除。
步骤132,若是,删除该时序特征中的所述第一目标向量;若否,保留该时序特征中的所述第一目标向量。
步骤133,通过所述lstm神经网络确定每个时序特征的向量值加权和。
在本实施例中,加权和可以根据每个时序特征中的向量值以及向量值对应的向量权重确定。
步骤134,确定每个向量值加权和落入的数值区间,该数值区间为预设的多个数值区间的其中之一。
在具体实施时,预设有多个数值区间,每个数据区间预先分配有区间标识。可以理解,数值区间和数值区间对应的区间标识可以通过预先对lstm神经网络进行训练得到,对lstm神经网络的训练过程在此不作更多说明。
步骤135,根据所述数值区间所配对的区间标识得到所述向量值加权和对应的时序特征的识别标签。
可以理解,通过确定向量值加权和落入的数值区间的区间标识,可以快速、准确地确定每个时序特征的识别标签。
请结合参阅图2,为本发明实施例提供的一种基于时序特征学习的数据流分类装置100的功能模块示意图,所述数据流分类装置100包括数据缓存模块101、特征提取模块102、特征识别模块103和缓存清理模块104。
所述数据缓存模块101,用于依次将获取到的待分类数据流导入缓存。
所述特征提取模块102,用于根据所述缓存的剩余存储容量按照第一设定方式或者第二设定方式提取所述缓存中的待分类数据流的时序特征。
所述特征识别模块103,用于将每个时序特征输入预先训练完成的lstm神经网络进行识别,得到每个时序特征的识别标签。
所述缓存清理模块104,用于将所述缓存中与所述识别标签对应的待分类数据流存入与所述识别标签对应的数据存储区,并将所述识别标签对应的待分类数据流从所述缓存中删除。
优选地,所述特征提取模块102,具体用于:
若所述剩余存储容量大于或等于设定容量,按照第一设定方式提取所述缓存中的待分类数量流的时序特征,则确定所述缓存中的待分类数据流所占用的目标存储容量与所述缓存的额定存储容量的比值;
根据所述比值启动多个预设的特征提取线程;
采用启动的所述特征提取线程对所述待分类数据流进行特征提取,得到所述待分类数据流对应的时序特征。
优选地,所述特征提取模块102,具体用于:
若所述剩余存储容量小于设定容量,按照第二设定方式提取所述缓存中的待分类数量流的时序特征,启动预设的多个特征提取线程中的每个特征提取线程,对所述待分类数据流进行特征提取,得到所述待分类数据流对应的时序特征。
优选地,所述特征提取模块102,进一步用于:
通过所述特征提取线程解析所述待分类数据流,得到所述待分类数据流的第一数据字节序列和第二数据字节序列;
确定所述第一数据字节序列中用于表征所述第一数据字节序列的起点的第一字节以及用于表征所述第一数据字节序列的终点的第二字节;
获取所述第一字节对应的第一时刻以及所述第二字节对应的第二时刻;其中,所述第一时刻是接收到所述第一字节的时刻,所述第二时刻是接收到所述第二字节的时刻;
获取将所述第一字节导入所述缓存的第三时刻以及将所述第二字节导入所述缓存的第四时刻;
根据所述第一时刻和所述第二时刻确定第一时段并根据所述第三时刻和所述第四时刻确定第二时段;
确定所述第一数据字节序列中的每个第一字节分段标识在所述第一时段中的第一相对位置以及所述第二数据字节序列中的每个第二字节分段标识在所述第二时段中的第二相对位置;
按照所述特征提取线程所分配的特征权重对所述第一字节、所述第二字节、所述第一时刻、所述第二时刻、所述第三时刻、所述第四时刻、每个第一字节分段标识、每个第一相对位置、每个第二字节分段标识以及每个第二相对位置进行排序得到排序序列;
根据所述排序序列确定所述待分类数据流对应的时序特征。
优选地,所述特征识别模块103,具体用于:
通过所述lstm神经网络判断每个时序特征中的第一目标向量值的第一向量权重与该时序特征中的第二目标向量值的第二向量权重的差值是否超过设定阈值;
若是,删除该时序特征中的所述第一目标向量;
若否,保留该时序特征中的所述第一目标向量;
通过所述lstm神经网络确定每个时序特征的向量值加权和;
确定每个向量值加权和落入的数值区间,该数值区间为预设的多个数值区间的其中之一;
根据所述数值区间所配对的区间标识得到所述向量值加权和对应的时序特征的识别标签。
可以理解,关于数据缓存模块101、特征提取模块102、特征识别模块103和缓存清理模块104的说明请参阅上述对步骤110-步骤140的说明,在此不作更多说明。
综上,在应用上述的方法和装置时,当缓存中的待分类数据流的数量较少时,可以采用开启部分特征提取线程的第一设定方式提取所述缓存中的待分类数据流的时序特征。这样,可以为lstm神经网络对应的识别线程分配较多的时间片资源,从而减少确定识别标签的耗时,进而及时地对待检测数据流进行分类。
当缓存中的待分类数据流的数量较多时,可以采用开启全部特征提取线程的第二设定方式提取所述缓存中的待分类数据流的时序特征。通过开启全部特征提取线程,能够确保对缓存中的每个待分类数据流进行时序特征提取,避免遗漏对缓存中的部分待分类数据流的时序特征提取。这样,能够确保通过lstm神经网络对获取到的所有待分类数据流进行分类。
通过将存储到数据存储区的待分类数据流从缓存中删除,能够释放缓存的存储容量,从而使得缓存能够为新的待分类数据流预留存储空间,避免新的待分类数据流在缓存过程中丢失。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
1.一种基于时序特征学习的数据流分类方法,其特征在于,包括:
依次将获取到的待分类数据流导入缓存;
根据所述缓存的剩余存储容量按照第一设定方式或者第二设定方式提取所述缓存中的待分类数据流的时序特征;
将每个时序特征输入预先训练完成的lstm神经网络进行识别,得到每个时序特征的识别标签;
将所述缓存中与所述识别标签对应的待分类数据流存入与所述识别标签对应的数据存储区,并将所述识别标签对应的待分类数据流从所述缓存中删除;
其中:
按照所述第一设定方式提取所述缓存中的待分类数据流的时序特征,具体包括:若所述剩余存储容量大于或等于设定容量,按照第一设定方式提取所述缓存中的待分类数量流的时序特征,则确定所述缓存中的待分类数据流所占用的目标存储容量与所述缓存的额定存储容量的比值;根据所述比值启动多个预设的特征提取线程;采用启动的所述特征提取线程对所述待分类数据流进行特征提取,得到所述待分类数据流对应的时序特征;
按照所述第二设定方式提取所述缓存中的待分类数据流的时序特征,具体包括:若所述剩余存储容量小于设定容量,按照第二设定方式提取所述缓存中的待分类数量流的时序特征,启动预设的多个特征提取线程中的每个特征提取线程,对所述待分类数据流进行特征提取,得到所述待分类数据流对应的时序特征。
2.如权利要求1所述的数据流分类方法,其特征在于,对所述待分类数据流进行特征提取,得到所述待分类数据流对应的时序特征,包括:
通过所述特征提取线程解析所述待分类数据流,得到所述待分类数据流的第一数据字节序列和第二数据字节序列;
确定所述第一数据字节序列中用于表征所述第一数据字节序列的起点的第一字节以及用于表征所述第一数据字节序列的终点的第二字节;
获取所述第一字节对应的第一时刻以及所述第二字节对应的第二时刻;其中,所述第一时刻是接收到所述第一字节的时刻,所述第二时刻是接收到所述第二字节的时刻;
获取将所述第一字节导入所述缓存的第三时刻以及将所述第二字节导入所述缓存的第四时刻;
根据所述第一时刻和所述第二时刻确定第一时段并根据所述第三时刻和所述第四时刻确定第二时段;
确定所述第一数据字节序列中的每个第一字节分段标识在所述第一时段中的第一相对位置以及所述第二数据字节序列中的每个第二字节分段标识在所述第二时段中的第二相对位置;
按照所述特征提取线程所分配的特征权重对所述第一字节、所述第二字节、所述第一时刻、所述第二时刻、所述第三时刻、所述第四时刻、每个第一字节分段标识、每个第一相对位置、每个第二字节分段标识以及每个第二相对位置进行排序得到排序序列;
根据所述排序序列确定所述待分类数据流对应的时序特征。
3.如权利要求2所述的数据流分类方法,其特征在于,将每个时序特征输入预先训练完成的lstm神经网络进行识别,得到每个时序特征的识别标签,包括:
通过所述lstm神经网络判断每个时序特征中的第一目标向量值的第一向量权重与该时序特征中的第二目标向量值的第二向量权重的差值是否超过设定阈值;
若是,删除该时序特征中的所述第一目标向量;
若否,保留该时序特征中的所述第一目标向量;
通过所述lstm神经网络确定每个时序特征的向量值加权和;
确定每个向量值加权和落入的数值区间,该数值区间为预设的多个数值区间的其中之一;
根据所述数值区间所配对的区间标识得到所述向量值加权和对应的时序特征的识别标签。
4.一种基于时序特征学习的数据流分类装置,其特征在于,包括:
数据缓存模块,用于依次将获取到的待分类数据流导入缓存;
特征提取模块,用于根据所述缓存的剩余存储容量按照第一设定方式或者第二设定方式提取所述缓存中的待分类数据流的时序特征;
特征识别模块,用于将每个时序特征输入预先训练完成的lstm神经网络进行识别,得到每个时序特征的识别标签;
缓存清理模块,用于将所述缓存中与所述识别标签对应的待分类数据流存入与所述识别标签对应的数据存储区,并将所述识别标签对应的待分类数据流从所述缓存中删除;
其中,所述特征提取模块,具体用于:
若所述剩余存储容量大于或等于设定容量,按照第一设定方式提取所述缓存中的待分类数量流的时序特征,则确定所述缓存中的待分类数据流所占用的目标存储容量与所述缓存的额定存储容量的比值;根据所述比值启动多个预设的特征提取线程;采用启动的所述特征提取线程对所述待分类数据流进行特征提取,得到所述待分类数据流对应的时序特征;
若所述剩余存储容量小于设定容量,按照第二设定方式提取所述缓存中的待分类数量流的时序特征,启动预设的多个特征提取线程中的每个特征提取线程,对所述待分类数据流进行特征提取,得到所述待分类数据流对应的时序特征。
5.如权利要求4所述的数据流分类装置,其特征在于,所述特征提取模块,进一步用于:
通过所述特征提取线程解析所述待分类数据流,得到所述待分类数据流的第一数据字节序列和第二数据字节序列;
确定所述第一数据字节序列中用于表征所述第一数据字节序列的起点的第一字节以及用于表征所述第一数据字节序列的终点的第二字节;
获取所述第一字节对应的第一时刻以及所述第二字节对应的第二时刻;其中,所述第一时刻是接收到所述第一字节的时刻,所述第二时刻是接收到所述第二字节的时刻;
获取将所述第一字节导入所述缓存的第三时刻以及将所述第二字节导入所述缓存的第四时刻;
根据所述第一时刻和所述第二时刻确定第一时段并根据所述第三时刻和所述第四时刻确定第二时段;
确定所述第一数据字节序列中的每个第一字节分段标识在所述第一时段中的第一相对位置以及所述第二数据字节序列中的每个第二字节分段标识在所述第二时段中的第二相对位置;
按照所述特征提取线程所分配的特征权重对所述第一字节、所述第二字节、所述第一时刻、所述第二时刻、所述第三时刻、所述第四时刻、每个第一字节分段标识、每个第一相对位置、每个第二字节分段标识以及每个第二相对位置进行排序得到排序序列;
根据所述排序序列确定所述待分类数据流对应的时序特征。
6.如权利要求4所述的数据流分类装置,其特征在于,所述特征识别模块,具体用于:
通过所述lstm神经网络判断每个时序特征中的第一目标向量值的第一向量权重与该时序特征中的第二目标向量值的第二向量权重的差值是否超过设定阈值;
若是,删除该时序特征中的所述第一目标向量;
若否,保留该时序特征中的所述第一目标向量;
通过所述lstm神经网络确定每个时序特征的向量值加权和;
确定每个向量值加权和落入的数值区间,该数值区间为预设的多个数值区间的其中之一;
根据所述数值区间所配对的区间标识得到所述向量值加权和对应的时序特征的识别标签。
技术总结