一种基于Token的多类别异常检测方法与流程

专利2022-06-29  56


本发明属于预测数据数字化领域,尤其是涉及一种于token的多类别异常检测方法。



背景技术:

在现有机器异常监测、预测性维护等应用中,相比于图像数字识别等公共数据和影像数据而言,这些复杂操作数据数字化过程精度要求高,耗时长。对这些仅具有少量高质量数据的学习模型的构建并得到精度较高的识别精度,现在仍然是一个巨大的挑战。

另外,重复性数据中的训练时间窗口的选择对最后结果有很大的影响,为了减弱或消除此类影响,我们引入了nlp语言里的token的概念,将连续的给入数据离散化,并使整体模型对输入数据有一定的容错性,降低了对实际数据的质量要求。

现有的二进制交叉熵损失函数不足以预测目标值为-1到1之间的三种概率分布差异度程度,使用二元分类解决三元分类问题时,需要在最后输出层进行相应的变化,由以前的一个node变为三个,激活函数可以选择softmax或者sigmoid,前者的精度最高但是不能输出概率,后者可以输出近似概率,但是精度较低。一般是将两者结合,输出两组[softmaxx3,sigmodx3],然后将他们两个各自的损失函数合并到一起,也就是6个node,2个损失函数,针对小规模数据集合,基本上不能发挥作用。

本发明提出一种新型的三元交叉熵函数来解决这种需要三种概率分布图的特殊问题。



技术实现要素:

为了克服现有技术的不足,本发明提供一种可以预测三种概率分布,计算参数量减小,训练样本数量要求少,模型复杂度小的基于token的多类别异常检测方法。

本发明解决其技术问题所采用的技术方案是:一种基于token的多类别异常检测方法,包括以下步骤:

1)获取待分析的数据源;

2)判断数据源为连续数字类型数据源或连续文字类型数据源;

3)判断为连续数字类型数据源,采用meanshift算法将连续数字类型数据源分为n组,每组数据视为一个token,利用自然语言处理中的tokenize方法进行嵌入,得到token映射值;判断为连续文字类型数据源,直接利用自然语言处理中的tokenize方法进行嵌入,得到token映射值;

4)构建基于神经网络的深度学习网络模型,其包括cnn层、rnn层、lstm层、mpl层和三元交叉熵损失函数层;

5)将步骤3)中得到的多组token的数据特征接入步骤4)中深度学习网络模型进行训练,输出层经激活函数得到目标的预测值;

6)将预测值和实际标签比较构造形成三元交叉熵损失函数,利用该三元交叉熵损失函数优化输出层;

7)完成深度学习网络模型的构建,利用该模型输出近似值以判断得出结果。

进一步的,所述步骤3)中利用自然语言处理中的tokenize方法进行嵌入得到token映射值的算法表达式为

进一步的,所述步骤5)中激活函数表达式为

进一步的,所述步骤6)中三元交叉熵损失函数公式为其中yk∈{-1,0,1},为第k段预测结果,n表示数据的样本数量,n为正整数且n≥1。

进一步的,对于不平衡数据,给异常类标签和非异常类标签分别进行加权,用类别平均损失,先计算每一类的个数cm,得到一个平均权重值m∈{-1,0,1},之后将其乘到三元交叉熵损失函数里,

本发明最后输出仅需要一个node,一个损失函数,既输出了近似概率,又提高了精度,适用于小数据模型;将连续数字类型离散化,使其可以使用nlp的预处理方法,又让其具有一定的容错性,将各种数据统一到一个预处理方法之下,简化了流程,提高了效率,又通过三元损失函数,降低了网络复杂度和对数据集合的大小要求,还提高了精度。

本发明的有益效果是:1)通过降低决策空间复杂度的方式降低模型复杂度;2)减低训练样本的数量要求;3)同时输出两种异常标签的近似概率;4)支持测试集小数据量的模型构建,对三元分类的问题,最后输出层计算参数量减小66.6%;5)处理不平衡数据更高效。

附图说明

图1为本发明的流程框图。

图2为本发明与二元交叉熵损失函数的输出层拓扑结构比对。

具体实施方式

为了使本技术领域的人员更好的理解本发明方案,下面将结合本发明实施例中的附图,对发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。

一种基于token的多类别异常检测方法,包括以下步骤:

1)获取待分析的数据源;

2)训练数据集、测试数据集数据源向量化

机器异常的数据源类型为数字类型,如声音,震动,温度,传感器,还有网络安全里路由器,服务器等的logfile记录,采用meanshift算法将数据分为n组,每组视为一个token,数据与token之间对应关系为多个或者至少一个对应一个token,即非线性映射关系。

为了解决重复数据的训练时间窗口选取问题和多维度数据合成问题,并且允许整体模型有一定的容错性,我们引入非监督算法将连续数字类型数据源分组之后再使用nlp语言中的tokenize方法进行嵌入,算法表达式如下:

其中为待测数据通过meanshift算法得到数据组,再经过tokennize得到的映射值。

即工业上连续数据会分布在实数集合里,这个分布可以通过meanshift这类算法找到相应的集中值,根据给入的数据点距离每个集中值的大小,可以大体判断他们在空间里的相对位置(不是绝对位置),从而达到容错的效果。

如果数据源为连续文字类型数据源,如语音、文本数据等,因为其每段语义数据特征数量过大,无法单纯地使用定量来划分数据特征,所以将数据离散化,直接得到数据耳朵token映射值。

2)构建基于神经网络的深度学习网络模型

所述基于神经网络的深度学习模型结构类型包含,cnn(卷积神经网络层),rnn(回归神经网络层),lstm(长短记忆网络层),mpl(感知网层)等等,和新定义的三元交叉熵损失函数层。

将提取得到的每组token的数据特征接入神经网络,最后输出层以tanh激活函数,使用本发明定义的三元交叉熵损失函数进行优化,得到所述目标的预测值。

其中激活函数表达式为:

其中损失函数使用三元交叉熵函数用于测量预测值与实际标签之间的差别。

每个训练集合包括n个数据点,将预测值和实际标签比较构造一个三元交叉熵损失函数ternaryloss,所述三元交叉熵损失函数公式为如下:

其中:

标签分类:yk∈{-1,0,1},

其中为第k段预测结果,n表示数据的样本数量,n为正整数且n≥1。需要说明的是,yk为第k段信息的待测数据,为-1,0和1;为预测结果的概率介于-1和1之间。

输出层经过多次优化后,完成深度学习网络模型的构建,利用该深度学习网络模型输出近似值,再加以判断得出最终结果,如输出近似值为0.98,则判断最终结果为 1,如输出近似值为-0.88,则判断最终结果为-1,如输出近似值为0.02,则判断最终结果为0。

本发明对负向概率也进行预测,相应的,正向概率和负向概率同时得出。

其中数据不平衡的处理方法,给每一类进行加权,用类别平均损失,先计算每一类的个数cm,得到一个平均权重值m∈{-1,0,1},之后将其乘到ternaryloss里:

本发明可应用于医学和化学检测领域,以-1、0、 1分别代表预测结果为阴性、中性或阳性;也可以应用于人体健康数据评估领域,以-1、0、 1分别代表评估结果为过度疲劳、正常或体能充沛;还可以应用于投资资产评估领域,以-1、0、 1分别代表评估结果为未达预期、正常或超出预期;应用于机器生产线领域,以-1、0、 1分别代表评估结果为产能过剩、正常或超负荷生产;应用于金融交易领域,以-1、0、 1分别代表预测结果为卖出、持有或买入。

上述具体实施方式用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。


技术特征:

1.一种基于token的多类别异常检测方法,其特征在于包括以下步骤:

1)获取待分析的数据源;

2)判断数据源为连续数字类型数据源或连续文字类型数据源;

3)判断为连续数字类型数据源,采用meanshift算法将连续数字类型数据源分为n组,每组数据视为一个token,利用自然语言处理中的tokenize方法进行嵌入,得到token映射值;判断为连续文字类型数据源,直接利用自然语言处理中的tokenize方法进行嵌入,得到token映射值;

4)构建基于神经网络的深度学习网络模型,其包括cnn层、rnn层、lstm层、mpl层和三元交叉熵损失函数层;

5)将步骤3)中得到的多组token的数据特征接入步骤4)中深度学习网络模型进行训练,输出层经激活函数得到目标的预测值;

6)将预测值和实际标签比较构造形成三元交叉熵损失函数,利用该三元交叉熵损失函数优化输出层;

7)完成深度学习网络模型的构建,利用该模型输出近似值以判断得出结果。

2.根据权利要求1所述的基于token的多类别异常检测方法,其特征在于:所述步骤3)中利用自然语言处理中的tokenize方法进行嵌入得到token映射值的算法表达式为

3.根据权利要求1所述的基于token的多类别异常检测方法,其特征在于:所述步骤5)中激活函数表达式为

4.根据权利要求1所述的基于token的多类别异常检测方法,其特征在于:所述步骤6)中三元交叉熵损失函数公式为其中yk∈{-1,0,1),为第k段预测结果,n表示数据的样本数量,n为正整数且n≥1。

5.根据权利要求4所述的基于token的多类别异常检测方法,其特征在于:对于不平衡数据,给异常类标签和非异常类标签分别进行加权,用类别平均损失,先计算每一类的个数cm,得到一个平均权重值m∈{-1,0,1),之后将其乘到三元交叉熵损失函数里,

技术总结
本发明公开了一种基于Token的多类别异常检测方法,包括以下步骤:1)获取数据源;2)判断数据源为连续数字类型数据源或连续文字类型数据源;3)判断为连续数字类型数据源,将连续数字类型数据源分为n组,得到token映射值;判断为连续文字类型数据源,直接得到token映射值;4)构建深度学习网络模型;5)将多组token的数据特征接入深度学习网络模型进行训练,输出层经激活函数得到目标的预测值;6)将预测值和实际标签比较构造形成三元交叉熵损失函数,利用该三元交叉熵损失函数优化输出层;7)利用深度学习网络模型输出近似值以判断得出结果。本发明通过降低决策空间复杂度的方式降低模型复杂度,减低训练样本的数量要求,计算参数量小。

技术研发人员:郎翊东;卢龙飞
受保护的技术使用者:杭州朗阳科技有限公司
技术研发日:2020.01.13
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-52972.html

最新回复(0)