一种工业网络入侵检测的大数据分析的方法与流程

专利2022-06-30  58


本发明涉及工业控制计算机、网络安全、大数据、网络管理和自动控制的
技术领域
,尤其涉及到一种工业网络入侵检测的大数据分析的方法。
背景技术
:工业企业的安全生产历来是保障各项工作有序开展的前提,也是考核各级领导干部的否决指标。工业网络及安全运维体系是各类工业企业安全生产工作的重要组成部分。保障工业网络高效稳定地运行,是工业企业一切市场经营活动和正常运作的基础。然而,当前保障工业网络高效稳定地运行的安全信息和事件管理(securityinformationandeventmanagementsiem)系统/或安全运维管理系统,只能向工业网络事件响应小组(cyberincidentresponseteamscirt)发送告警,为了定位告警,cirt需要从海量的日志信息中来发现网络攻击的线索,好像大海捞针。技术实现要素:为了解决上述技术问题,本发明提供了一种工业网络入侵检测的大数据分析的方法,采用多元大数据分析技术,能够给出与被检测出的异常攻击相关的原始日志信息,并通过所述原始日志信息能够实现异常攻击过程的“回放”,为工业网络事件响应小组cirt及时定位异常攻击提供了便利和依据。一种工业网络入侵检测的大数据分析的方法,其特征在于,所述方法,包括如下步骤:(1)解析;(2)融合;(3)检测;(4)预诊断;(5)反解析;所述解析,将来自结构化和非结构化源的原始数据转化为定量特征;所述融合,将不同数据源的特征组合成一个数据流;所述检测,及时发现异常;所述预诊断,发现与异常相关的特征;所述反解析,利用检测和预诊断信息,识别与异常相关的原始数据记录,并提交给工业网络事件响应小组cirt;进一步地,所述与异常相关的原始数据记录,能够实现异常攻击过程的“回放”。本发明的技术效果在于:在本发明中,提供了一种工业网络入侵检测的大数据分析的方法,其特征在于,所述方法,包括步骤:(1)解析;(2)融合;(3)检测;(4)预诊断;(5)反解析。通过本发明,缩短了工业网络事件响应小组排除故障的时间,也降低了工业网络事件响应小组排除故障的难度。附图说明图1是一种工业网络入侵检测的大数据分析的方法步骤的简化示意图;图2是一种工业网络入侵检测的大数据分析的方法步骤的详细示意图。具体实施方式下面是根据附图和实例对本发明的进一步详细说明:由于数据成为现代服务业创造价值的基本资产,入侵检测已成为许多企业的优先事项。根据美国威瑞森电信verizon年度数据泄露调查报告(databreachinvestigationreportdbir),2018年有数万起针对民营企业和国有企业的网络攻击。其中94%的网络攻击具有经济动机,包括工业间谍活动。这些网络攻击显示出高度的复杂性,包括被称为高级持久威胁(advancedpersistentthreatsapt)网络攻击在内。dbir报告的一个警告是平均的网络攻击时间和平均的网络攻击准备时间之间的比率。前者以分钟级别,后者以周甚至月级别。这意味着网络攻击者有足够的时间提升权限和进行任何其他必要的恶意活动来访问和过滤受保护的数据。平均而言,每次网络攻击都会有上千万的个人注册信息被盗,对企业形象造成巨大影响。这种情况推动了入侵检测的市场,特别是所谓的安全信息和事件管理(securityinformationandeventmanagementsiem)系统/或安全运维管理系统。siem/或安全运维管理系统旨在收集和分析来自通过网络部署的各种传感器设备、服务器和通信设备等的数据,最终目标是检测和分析安全事件,并向安全运维服务人员发送告警。在最近的一份报告中,gartner估计2018年网络安全事件的相关成本为1000亿美元,这意味着与上一年相比增加了8.9%。报告预测,与预防手段相比,随着在检测和应对方面的努力越来越大,趋势将发生变化。随着这一趋势的出现,企业投入更多的经济和人力资源进行安全事件检测,建立了所谓的工业网络事件响应小组(cyberincidentresponseteamscirt)。cirt投入大量资源分析潜在事件。这方面的一个主要限制是缺乏安全专业人员,特别是高级别的安全专业人员更加缺乏。将这一不足与信息泄露的网络攻击的扩散结合起来,显然需要有有效的工具和机制来协助对安全事件的侦查、分析和定位,以便使cirt在检测、定位和排除apt等网络攻击中更加及时和有效。在已有技术中,多元分析已被公认为是一种在多个领域进行安全异常检测的杰出方法,包括工业网络安全监控。在工业加工领域,特别是在化学和生物技术工业中,最先进的安全异常检测多变量方法被称为多变量统计过程控制(multivariatestatisticalprocesscontrolmspc),已经发展了30多年。在这个工作中,介绍了一种被称为多元统计网络监控(multivariatestatisticalnetworkmonitoringmsnm)的方法,它是mspc在网络安全领域的扩展,而且还扩展了多变量方法,将网络流量数据与安全数据源(如ids或防火墙日志)结合起来,以便在安全事件检测中有效地集成不同的源。本申请提供了一种多元大数据分析方法,它是一种基于5个步骤的完整的入侵检测和安全分析方法,可以有效地处理网络安全中大量的异构数据源。当发现异常攻击时,多元大数据分析能够输出与之相关的原始日志信息,继而,这些可以呈现给工业网络事件响应小组cirt,以阐明异常的根本原因。与诸如已有技术msnm等的其他机器学习方法相比,多元大数据分析的这种能力是一种创新。这种创新使之能够通过被输出的与异常攻击相关的原始日志信息实现异常攻击过程的“回放”,为工业网络事件响应小组cirt及时定位异常攻击提供了便利和依据。在本申请的一个实施例中,多元大数据分析采用的软件包fcparser,是一个用于解析结构化和非结构化日志的python工具;另一方面,利用多元大数据分析所述的软件包工具箱,可以对大数据流进行多变量建模和数据可视化分析。结合这两个软件包,在多元大数据分析的5个步骤中,阐明了本申请能够准确地识别与大数据中检测到的安全异常相关的原始信息。这使得多元大数据分析成为一个完美的工具,可以深入到网络安全环境中大量的不同信息源中。本申请的方法,如图1所示,所包括的5个步骤如下:1)解析:将来自结构化和非结构化源的原始数据转化为定量特征;2)融合:将不同数据源的特征组合成一个数据流;3)检测:及时发现异常;4)预诊断:发现与异常相关的特征;5)反解析:利用检测和预诊断信息,识别与异常相关的原始数据记录,并提交给工业网络事件响应小组cirt。鉴于白盒,这些步骤是可能的,一种探索性特征的主成分分析(principalcomponentanalysispca)为核心的msnm方法。下面详细讨论本申请的5个步骤,如图2所示,并在表1中进行了总结。注意所有这些步骤都可以完全自动化。表1:本申请5个步骤的输入和输出步骤输入输出步骤1:解析原始数据流每个原始数据的特征流步骤2:融合每个原始数据的特征流单个特征流步骤3:检测单个特征流异常攻击的时间戳步骤4:预诊断单个特征流的异常攻击&时间戳异常攻击的特征步骤5:反解析异常攻击的原始数据流&时间戳&特征异常攻击的原始日志步骤1:解析网络捕获的信息通常以系统日志或网络跟踪的形式呈现,不能直接用于为异常检测而提供的典型工具。因此,为了生成可用于数据建模的定量特征,需要进行某种的特征工程和解析。在pca异常检测的背景下,建议使用从netflow记录获得的计数器。本申请首先将这个定义推广到考虑多个数据源,提出了特征作为计数器的方法:本质上是数据计数与多元分析的结合。每个特征能都包含给定事件在给定时间窗口内发生的次数。适当特征的示例包括日志中给定字的计数或netflow文件中具有给定目标端口的通信流的数量。这个一般定义使得以适当的方式将大多数信息源集成到异常检测模型中成为可能。这种解析方法也被用于x-pack中的异常检测,x-pack是弹性堆栈的专有对等物,广泛用于分析大数据流。解析步骤由多元大数据分析的软件包fcparser执行,是一个用于解析结构化和非结构化日志的python工具。对于感兴趣的每个特征,在配置文件中定义了相应的正则表达式。为了在给定的采样间隔内获取特征的特定值,将对该间隔的原始数据运行相应的正则表达式,解析器将记录匹配的数目。解析步骤中包含的特定特征的选择是在数据域专家知识指导下以手动方式进行的过程,尽管在解析步骤有一个能够自动地抽取所考虑的重要特征的提取过程是可取的。在本申请中描述的步骤4和步骤5中,描述了如何应用手动选择的功能。在这5个步骤中,解析步骤对数据进行了最有效的压缩,这是多元大数据分析应用于大数据的重要原因。因此,多元大数据分析方法在入侵检测中的适用性是基于这样一种想法:能够识别出解析信息中与安全相关的异常,并复原与此类异常相关的原始数据,进而实现异常攻击过程的“回放”。步骤2:融合这一步骤也可以称谓聚合。在上一步骤中,为每个不同的数据源定义了一组特征。由于源的不同动态或为了方便起见,可以选择不同的采样率。因此,要组合来自不同来源的特征,需要将这些特征拉伸/压缩到公共采样率。然后,简单地附加不同源的特征信息,产生高维的特征数据流。融合步骤也在fcparser中完成。特征信息作为计数器和融合过程的结合特别适合于后续的多元分析。它产生的高维特征向量需要用降维技术(如pca)进行分析。此外,计数及其相关性易于解释。将证明,步骤4和随后的步骤5得益于特征的定义,以便更好地描述发生的异常。这在大多数异常检测方案中是相反的,在这些方案中,大维度被视为一个问题点,有时甚至被称为诅咒。步骤3:检测msnm的核心是pca。pca应用于数据集,其中m个变量或特征被测量为n个观测值。pca的目的是在m维特征空间中找到最大方差的子空间。将原始特征线性变换为主成分(principalcomponentpc)。这些是的特征向量,通常用于数学期望,有时也在自动缩放后,即将变量规格化为单位方差。pca遵循以下表达式:=(1)其中a表示pc的数量,是na得分矩阵(scorematrix),是ma负荷矩阵(loadingsmatrix),是nm残差矩阵(residualsmatrix)。中的列通常被规范化为单位向量,因此pca转换实际上将中的方差分割为由分数表示的结构部分和由表示的剩余部分。对于msnm异常的检测,定义了一对统计量:由分数计算的d统计量(d-st),以及压缩残差的q统计量(q-st)。因此,利用主成分和这些统计量,能够将监测高维多元数据流的问题转化为监测一对统计量的更简单的问题。在新的采样时间间隔后,计算特征的新观测值。随后,相应的得分向量计算如下:=(2)式中,是1a向量,具有相应的分数,而对应于残差:=(3)观测n的d-st和q-st可由以下方程计算:=(4)=(5)其中表示定标数据中分数的协方差矩阵。将和值与定标数据的统计值进行对比,以识别异常。工业网络事件响应小组cirt的很大一部分工作是分析与潜在事故相关的数据。如果有明确的被检测出的异常攻击的原始日志信息,同样数量的人员可以定位和排除更多的事故/或故障/或异常攻击/或告警。因此,msnm在入侵检测中的实际应用中,本申请更关心的是与异常攻击相关的原始日志信息,或者说,本申请更关心的是异常攻击的“回放”功能,而不是应该被识别为异常和不应该被识别的二分性。为了将d-st和q-st合并为一个分数,在此根据以下等式定义第n个观测值的tscore:=/ (1-)/(6)其中和分别是定标数据的d-st和q-st的控制上限,以99%的百分位数计算,是组合的加权因子,随后讨论该值。msnm遵循工业领域的先验理论,建立了两个应用阶段或模式。在探索模式或第一阶段,pca应用于数据块,以发现该块中的异常。在机器学习模式或阶段ii中,从数据块定标pca以建立正态模型,然后将其应用于新的输入数据以发现异常事件。第一阶段致力于网络优化、故障排除和态势感知:基本上是为了检测、理解和解决msnm系统首次部署时已经影响到网络的任何安全相关问题和错误配置。这些问题是mspc参数变化的所谓特殊原因,因为它们导致从被监测系统收集的数据出现不必要的变化。第一阶段是通过检测和诊断数据中的异常值来实现的。当出现需要技术人员解决的问题时,诊断是必要的。例如,如果确定网关防火墙中阻塞的通信量过多,这可能是网络攻击尝试被外围安全措施正确阻止的结果,因此不需要应用进一步的操作。或者,这可能是防火墙配置错误的结果,需要修复。在第一阶段的迭代过程中,异常值被孤立隔离和诊断,相应的问题被识别和解决。当只剩下不显著的异常值时,为了在正常运行条件(normaloperationconditionsnoc)或统计控制下考察网络,将进入第二阶段。在第二阶段,异常检测器用于识别输入数据中的异常,通常是实时的。有时很难确定什么应该被理解为异常值,什么不应该被理解,因此何时停止第一阶段。建议遵循的实际方法是在监测统计的bi图或tscore的条形图中寻找异常值。在这些图中,异常值很容易被识别。如果没有发现异常值,就开始第二阶段。否则,如果检测到的任何异常值反映了实际的配置/安全问题,则需要解决此问题,并通过测量来自网络的新流量重新启动第一阶段。如果没有异常点识别出实际问题,仍然需要检查异常点是否污染了pca模型。为了达到这个目的,可以比较模型中每一个pc捕捉到的有和没有异常值的方差量。如果变化不大,可以进行第二阶段。否则,将丢弃异常值,并使用剩余的数据重新启动第一阶段。应注意,tscore的计算,特别是公式(6)中的加权参数,在两个阶段中是不同的。在第一阶段,检查的异常值数据也是用于模型定标的数据(相当于阈值)。因此,异常值与模型方差密切相关,即期望异常值位于模型的高方差方向。在这种情况下,可以将设置为模型捕获的方差百分比。因此,将更多的权重放在捕获更多方差的部分,这取决于情况,可以是模型部分或剩余部分。然而,在第二阶段,这不是设置的适当方式,因为异常值不是用于拟合模型的数据的一部分,因此它们可能在空间的任何潜在方向上与其它数据分离。接下来,在第二阶段,使用等于pc的的数量和变量m的数量之间的比率。本申请中的多元分析是使用多元大数据分析工具箱进行的,它提供了一套多元异常检测工具。当数据增长超过某个卷时,可以使用工具箱的大数据扩展。这种扩展的基本原理是pca这样的多元模型可以迭代计算,这种方法可以扩展到任何数据大小,并且完全可并行化。利用mm维数的叉积矩阵的特征分解(eigendecompositioned)可以识别pca的加载向量。当数据输入系统时,这个矩阵可以以迭代的、增量的方式计算,这样x、n中的行数就不再是一个限制。为了可视化大量观测的统计数据,使用了多元图的聚类版本。多元大数据分析工具箱的大数据模块包括两个计算核:迭代核和指数加权移动平均(exponentiallyweightedmovingaverageewma)核。两种算法都解决了模型的核外计算和相应的聚类问题。本申请采用迭代核来计算模型。步骤4:预诊断一旦发出异常信号,或者说,一旦步骤3检测到异常攻击,将执行预诊断步骤以识别与之相关的特征。这些信息对于第一次猜测异常的根本原因非常有用。特征信息的异常可以通过运用图形或类似的工具来研判。其中,最直接但最有效的方法被命名为单变量平方法(univariate-squaredus),如下所示:=(7)因此,在d-st和/或q-st图中检测到异常,然后用us进行预诊断。输出是一个1m向量,其中每个元素包含对应特征对所研究异常的贡献。这些贡献无论是积极的还是消极的,都具有重大意义。多元大数据分析工具箱中包含了对正常大小数据和大数据的计算。步骤5:反解析多元大数据分析方法的最后一步是提取与异常攻击相关联的原始信息中的特定日志,并通过所述特定日志能够实现异常攻击过程的“回放”功能。为了实现这一点,本申请同时使用了来自步骤3的检测模块和步骤4的预诊断模块的信息。前者提供异常的时间戳,后者使用式(7)提供与异常相关的主要特征信息(例如,攻击发生的时间/或时间戳timestamps、源ip、源端口、目标ip、目标端口、攻击类型、…)。本步骤的反解析包括有选择性地还原解析过程,从而获得与异常相关的原始日志,并因此实现异常攻击过程的“回放”功能。为此,所选时间戳中的原始日志与预诊断特征相匹配,并按它们匹配的特征数进行排序。根据数据集和检测到的异常情况,在步骤5的反解析中提取的信息量可能仍然太大,无法进行目视检查。因此,用户定义的阈值被设置为限制检索到的数据量。本步骤的反解析过程,如算法1所示。在这个算法中,fcparser将再次使用步骤1的解析中使用的相同配置文件,其中定义了与特性相关联的正则表达式。在算法1中,详细描述了反解析的过程。首先,算法遍历不同数据源对应的所有输入文件,查找给定时间戳t中发生的数据记录,并获得日志l的选择。然后,算法遍历l中的所有日志行,并分配一个名为fscore的分数。日志行的fscore是该日志行中出现的预诊断特征(f)的数目。此度量使算法1能够有效地按重要性对日志行进行排序。然后,在第二个循环中,执行提取。在每次迭代中,算法提取fscore等于n的所有日志行,其中n初始化为f中的特征数,这样,首先提取包含所有特征f的日志行。如果日志行的数目不超过阈值,则特征n的数目减少一个,并且重复该过程。对每个数据源执行此操作,直到达到阈值或n达到0。以上所述仅为本发明的较佳实施例,并非用来限定本发明的实施范围;凡是依本发明所作的等效变化与修改,都被视为本发明的专利范围所涵盖。当前第1页1 2 3 
技术特征:

1.一种工业网络入侵检测的大数据分析的方法,其特征在于,所述方法,包括如下步骤:

(1)解析;

(2)融合;

(3)检测;

(4)预诊断;

(5)反解析;

所述解析,将来自结构化和非结构化源的原始数据转化为定量特征;

所述融合,将不同数据源的特征组合成一个数据流;

所述检测,及时发现异常;

所述预诊断,发现与异常相关的特征;

所述反解析,利用检测和预诊断信息,识别与异常相关的原始数据记录,并提交给工业网络事件响应小组cirt;

所述与异常相关的原始数据记录,能够实现异常攻击过程的“回放”。

技术总结
本发明公开了一种工业网络入侵检测的大数据分析的方法,其特征在于,所述方法,包括步骤:(1)解析;(2)融合;(3)检测;(4)预诊断;(5)反解析。通过本发明,缩短了工业网络事件响应小组排除故障的时间,也降低了工业网络事件响应小组排除故障的难度。

技术研发人员:不公告发明人
受保护的技术使用者:南京联成科技发展股份有限公司
技术研发日:2019.12.31
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-55952.html

最新回复(0)