文件恶意评分方法、装置、设备及计算机可读存储介质与流程

专利2022-06-29  63


本发明涉及信息安全领域,尤其涉及一种文件恶意评分方法、装置、设备及计算机可读存储介质。



背景技术:

随着互联网的快速发展,互联网上的各种应用逐渐融入到各行各业中,但是互联网在给人们带来便利的同时,也带来了许多安全问题。黑客利用广泛应用的web服务作为传播恶意web文件的平台,非法破坏、窃取各种用户信息,使得企业和用户蒙受很大的损失。因此,如何有效检测web恶意文件,防止其大量传播,保证web信息系统安全,成为亟待解决的安全问题之一。

但是,传统的恶意软件检测大多基于hash、规则或者控制数据流匹配。并且,引入机器学习后,仍然是对软件自身内容或行为进行特征提取从而用机器学习方法进行对恶意文件的分类。因此,现有的恶意文件检测方法普遍容易对抗,对加壳和混淆软件的分析较为困难,或者,对于变种病毒的检测会滞后,导致现有的恶意文件检测方法对加壳和混淆软件以及变种病毒的检测能力较差。

上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。



技术实现要素:

本发明的主要目的在于提供一种文件恶意评分方法、装置、设备及计算机可读存储介质,旨在解决现有的恶意文件检测方法对恶意文件的检测能力较差的技术问题。

为实现上述目的,本发明提供一种文件恶意评分方法,所述文件恶意评分方法包括以下步骤:

获取被检测文件对应的文件流水数据;

基于所述文件流水数据以及第一预设算法,确定所述被检测文件的文件关联图;

基于所述文件关联图以及第二预设算法,确定所述被检测文件中未知文件的文件恶意评分。

可选地,所述第二预设算法包括社团发现算法以及扩散算法,所述基于所述文件关联图以及第二预设算法,确定所述被检测文件中未知文件的文件恶意评分的步骤包括:

基于所述文件关联图以及所述社团发现算法,确定所述被检测文件中未知文件的第一恶意评分;

基于所述文件关联图以及所述扩散算法,确定所述被检测文件中未知文件的第二恶意评分;

基于所述第一恶意评分以及所述第二恶意评分,确定所述被检测文件中未知文件的文件恶意评分。

可选地,所述基于所述第一恶意评分以及所述第二恶意评分,确定所述被检测文件中未知文件的文件恶意评分的步骤包括:

基于所述第一恶意评分以及所述第二恶意评分以及第三预设算法,确定所述被检测文件中未知文件的文件恶意评分。

可选地,所述基于所述文件关联图以及所述社团发现算法,确定所述被检测文件中未知文件的第一恶意评分的步骤包括:

基于所述文件关联图以及所述社团发现算法,将被检测文件划分成文件社团,以得到多个文件社团;

基于各个文件社团,确定各个文件社团的社团恶意评分,并将所述社团恶意评分作为所述被检测文件中未知文件的第一恶意评分,其中,各个文件社团中包含所述未知文件的子未知文件。

可选地,所述基于各个文件社团,确定各个文件社团的社团恶意评分,并将所述社团恶意评分作为所述被检测文件中未知文件的第一恶意评分的步骤包括:

基于各个文件社团,确定各个文件社团中的恶意文件数量;

基于所恶意文件数量,确定各个文件社团的社团恶意评分,并将所述社团恶意评分作为所述被检测文件中未知文件的第一恶意评分。

可选地,所述基于所述文件流水数据以及第一预设算法,确定所述被检测文件的文件关联图的步骤包括:

获取所述文件流水数据中的文件标识和主机标识;

基于所述文件标识以及所述主机标识,确定所述被检测文件对应的主机列表;

基于所述主机列表以及所述第一预设算法,确定所述被检测文件的文件关联图。

可选地,所述基于所述主机列表以及所述第一预设算法,确定所述被检测文件的文件关联图的步骤包括:

基于所述主机列表以及所述第一预设算法,将主机列表相似的所述被检测文件分配至文件集合,得到多个文件集合;

确定多个文件集合为被检测文件的文件关联图。

此外,为实现上述目的,本发明还提供一种文件恶意评分装置,所述文件恶意评分装置包括:

获取模块,用于获取被检测文件对应的文件流水数据;

第一确定模块,用于基于所述文件流水数据以及第一预设算法,确定所述被检测文件的文件关联图;

第二确定模块,用于基于所述文件关联图以及第二预设算法,确定所述被检测文件中未知文件的文件恶意评分。

此外,为实现上述目的,本发明还提供一种文件恶意评分设备,所述文件恶意评分设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文件恶意评分程序,所述文件恶意评分程序被所述处理器执行时实现如上述的文件恶意评分方法的步骤。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有文件恶意评分程序,所述文件恶意评分程序被处理器执行时实现如上述的文件恶意评分方法的步骤。

本发明通过获取被检测文件对应的文件流水数据;基于所述文件流水数据以及第一预设算法,确定所述被检测文件的文件关联图;基于所述文件关联图以及第二预设算法,确定所述被检测文件中未知文件的文件恶意评分,由于文件流水数据中包含各文件的主机列表数据,因此利用文件流水数据建立文件关联图,即利用文件与外部事物的关联关系建立文件关联图,并且运行图传播算法判定或者提取图上特征等,即从文件内容之外的维度衡量文件恶意性等,提高了对恶意文件的检测能力,同时,对文件关联图应用多种第二预设算法,增加了对未知文件的恶意性评分的可靠性以及可信度,从而更好地识别恶意性文件。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的文件恶意评分设备结构示意图;

图2为本发明文件恶意评分方法第一实施例的流程示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

如图1所示,图1是本发明实施例方案涉及的硬件运行环境的文件恶意评分设备结构示意图。

本发明实施例文件恶意评分设备可以是pc,也可以是智能手机、平板电脑、便携计算机等具有显示功能的可移动式终端设备。

如图1所示,该文件恶意评分设备可以包括:处理器1001,例如cpu,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地,文件恶意评分设备还可以包括摄像头、rf(radiofrequency,射频)电路,传感器、音频电路、wifi模块等等。

本领域技术人员可以理解,图1中示出的文件恶意评分设备结构并不构成对文件恶意评分设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及文件恶意评分程序。

在图1所示的文件恶意评分设备中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端(用户端),与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的文件恶意评分程序。

在本实施例中,文件恶意评分设备包括:存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的文件恶意评分程序,其中,处理器1001调用存储器1005中存储的文件恶意评分程序时,并执行以下操作:

获取被检测文件对应的文件流水数据;

基于所述文件流水数据以及第一预设算法,确定所述被检测文件的文件关联图;

基于所述文件关联图以及第二预设算法,确定所述被检测文件中未知文件的文件恶意评分。

进一步地,处理器1001可以调用存储器1005中存储的文件恶意评分程序,还执行以下操作:

基于所述文件关联图以及所述社团发现算法,确定所述被检测文件中未知文件的第一恶意评分;

基于所述文件关联图以及所述扩散算法,确定所述被检测文件中未知文件的第二恶意评分;

基于所述第一恶意评分以及所述第二恶意评分,确定所述被检测文件中未知文件的文件恶意评分。

进一步地,处理器1001可以调用存储器1005中存储的文件恶意评分程序,还执行以下操作:

基于所述第一恶意评分以及所述第二恶意评分以及第三预设算法,确定所述被检测文件中未知文件的文件恶意评分。

进一步地,处理器1001可以调用存储器1005中存储的文件恶意评分程序,还执行以下操作:

基于所述文件关联图以及所述社团发现算法,将被检测文件划分成文件社团,以得到多个文件社团;

基于各个文件社团,确定各个文件社团的社团恶意评分,并将所述社团恶意评分作为所述被检测文件中未知文件的第一恶意评分,其中,各个文件社团中包含所述未知文件的子未知文件。

进一步地,处理器1001可以调用存储器1005中存储的文件恶意评分程序,还执行以下操作:

基于各个文件社团,确定各个文件社团中的恶意文件数量;

基于所恶意文件数量,确定各个文件社团的社团恶意评分,并将所述社团恶意评分作为所述被检测文件中未知文件的第一恶意评分。

进一步地,处理器1001可以调用存储器1005中存储的文件恶意评分程序,还执行以下操作:

获取所述文件流水数据中的文件标识和主机标识;

基于所述文件标识以及所述主机标识,确定所述被检测文件对应的主机列表;

基于所述主机列表以及所述第一预设算法,确定所述被检测文件的文件关联图。

进一步地,处理器1001可以调用存储器1005中存储的文件恶意评分程序,还执行以下操作:

基于所述主机列表以及所述第一预设算法,将主机列表相似的所述被检测文件分配至文件集合,得到多个文件集合;

确定多个文件集合为被检测文件的文件关联图。

本发明还提供一种文件恶意评分方法,参照图2,图2为本发明文件恶意评分方法第一实施例的流程示意图,在本实施例中,该文件恶意评分方法包括如下步骤:

现有的恶意软件检测大多基于hash、规则或者控制数据流匹配。引入机器学习后,仍然是对软件自身内容或行为进行特征提取从而用机器学习方法进行分类。这些方法普遍易对抗,比如对加壳和混淆软件的分析较为困难;并且时效性差,对于变种病毒的检测会滞后。针对这些问题的一个改进方案是利用文件与外部事物的关联关系建立文件关联关系图谱,运行图传播算法判定或者提取图上特征等,即从文件内容之外的维度衡量文件恶意性等。这类方法的主要依据是恶意文件有一定的聚集性,如其多聚集在价值高(感染可获利较多)或免疫低(较容易感染从而被利用)的主机上。根据恶意文件的这种聚集性,本发明设计了一种采用文件主机关联关系构图并运行多种图算法来进行恶意文件判定的方法。

本发明需要的数据基础是“主机-文件”流水数据,即文件流水数据,指某一文件存在于某一机器的流水数据;通过该流水数据,可以获得一个文件对应的主机集合;计算主机集合的相似性可以得到文件之间的相似性,此相似性便可用于连边构图;在所得的文件关系图上运用各类图算法,即可推测文件的恶意性,即对文件进行恶意评分。

步骤s10,获取被检测文件对应的文件流水数据;

一实施例中,通过扫描计算机系统或者其它智能系统,采集被检测文件的文件流水数据。其中,被检测文件包括白文件、未知文件以及黑文件,黑文件即恶意文件,是指能够在计算机系统或者其他智能系统运行并进行恶意操作的文件,黑文件为被检测文件中已知的恶意文件,并携带黑文件的文件标识。其中,计算机系统并不仅限于个人电脑或者是服务器,还包括其他利用计算机工作的系统;其他智能系统包括但不限于手机操作系统、可穿戴设备操作系统以及智能机器人操作系统等。白文件则与黑文件相反,白文件为被检测文件中已知的安全文件,白文件携带白文件的文件标识。进一步地,文件流水数据为某一文件存在于某一机器的流水数据,每一条文件流水数据由主机标识和文件标识两部分组成。根据文件流水数据中的文件标识,确定被检测文件中的白文件、黑文件以及未知文件,也就是说,由于文件流水数据中包含文件标识,因此文件关联图中的黑文件与白文件均已知。

步骤s20,基于所述文件流水数据以及第一预设算法,确定所述被检测文件的文件关联图;

一实施例中,根据文件流水数据可以获得文件及文件对应的主机列表,即一个文件标识和其对应的主机标识集合,从而根据所获得的主机列表计算文件之间的相似性。计算文件相似性,此步可以选用计算集合相似性的经典算法来计算每个文件两两之间相似度,即计算主机列表的相似度,比如可以选用杰卡德距离计算集合相似性。但是,在计算相似性的过程中,往往文件数量巨大,两两计算的复杂度很高,则将文件流水数据输入至第一预设算法中,将主机列表相似的文件较大概率分配到一个“桶”中,构建一个二分图,所构建的二分图即为被检测文件的文件关联图。其中,第一预设算法可以是lsh(locality-sensitivehashing,局部敏感哈希)等算法。在文件关联图中,将文件和桶作为节点,文件存在于桶中则有一条边。可以理解的是,相同的文件可存在于不同的“桶”中,例如,若文件a、文件b及文件c相似性较高,则文件a、文件b及文件c被分配至一个“桶”中,并且若文件a、文件c、文件d和文件e相似性较高,则文件a、文件c、文件d和文件e被分配至另一个“桶”。

步骤s30,基于所述文件关联图以及第二预设算法,确定所述被检测文件中未知文件的文件恶意评分。

一实施例中,在获得文件关联图后,在文件关联图中应用不同的第二预设算法,对被检测文件中未知文件的进行文件恶意性的评分。第二预设算法包括社团发现算法或扩散算法或者结合社团发现算法和扩散算法。具体地,当第二预设算法为社团发现算法时,在文件关联图上应用多种不同的社团发现算法,各社团发现算法对被检测文件中未知文件进行文件恶意打分,得到被检测文件中未知文件的多个恶意性评分,对多个恶意性评分通过机器学习或者加权平均等方式进行综合评分,最终确定被检测文件中未知文件的文件恶意评分。当第二预设算法为扩散算法时,在文件关联图上应用多个不同的扩散算法,各扩散算法直接对被检测文件中未知文件进行文件恶意打分,得到被检测文件中未知文件的多个恶意性评分,对多个恶意性评分通过机器学习或者加权平均等方式进行综合评分,最终确定被检测文件中未知文件的文件恶意评分。当第二预设算法为结合社团发现算法和扩散算法时,各社团发现算法和各扩散算法分别对被检测文件中未知文件进行文件恶意打分,得到被检测文件中未知文件的多个恶意性评分,对多个恶意性评分通过机器学习或者加权平均等方式进行综合评分,最终确定被检测文件中未知文件的文件恶意评分。在文件关联图上应用多种第二预设算法,对被测文件中未知文件进行恶意性评分,增加了对未知文件的恶意性评分的可靠性以及可信度,从而更好地识别恶意性文件。

本实施例提出的文件恶意评分方法,通过获取被检测文件对应的文件流水数据;以及,基于所述文件流水数据以及第一预设算法,确定所述被检测文件的文件关联图;以及,基于所述文件关联图以及第二预设算法,确定所述被检测文件中未知文件的文件恶意评分,由于文件流水数据中包含各文件的主机列表数据,因此利用文件流水数据建立文件关联图,即利用文件与外部事物的关联关系建立文件关联图,并且运行图传播算法判定或者提取图上特征等,即从文件内容之外的维度衡量文件恶意性等,提高了对恶意文件的检测能力,同时,对文件关联图应用多种第二预设算法,增加了对未知文件的恶意性评分的可靠性以及可信度,从而更好地识别恶意性文件。

基于第一实施例,提出本发明文件恶意评分方法的第二实施例,在本实施例中,步骤s30包括:

步骤a,基于所述文件关联图以及所述社团发现算法,确定所述被检测文件中未知文件的第一恶意评分;

步骤b,基于所述文件关联图以及所述扩散算法,确定所述被检测文件中未知文件的第二恶意评分;

步骤c,基于所述第一恶意评分以及所述第二恶意评分,确定所述被检测文件中未知文件的文件恶意评分。

一实施例中,第二预设算法包括社团发现算法以及扩散算法,即当第二预设算法为结合社团发现算法和扩散算法时,在文件关联图上应用多种不同的社团发现算法,各社团发现算法先将被检测文件划分成不同的文件社团,然后通过文件社团内文件情况进行恶意性判定(恶意性打分),从而得到被检测文件中未知文件的多个恶意性评分,将多个恶意性评分作为被检测文件中未知文件的第一恶意评分,第一恶意评分包括多个恶意性评分,且第一恶意评分与各个社团发现算法一一对应,也就是说,应用每种社团发现算法都可以计算得到对于未知文件的一种恶意评分结果(即第一恶意评分)。

除了在文件关联图上应用社团发现算法之外,还在文件关联图上应用多种扩散算法,由已知的黑文件出发,根据文件关联图上离黑文件越近的文件恶意性打分越高的原则,对未知文件进行恶意性评价,各扩散算法直接对被检测文件中未知文件进行文件恶意打分,得到被检测文件中未知文件的多个恶意性评分,即第二恶意评分,也就是说,第二恶意评分包括多个恶意性评分,且第二恶意评分与各个社团发现算法一一对应,也就是说,应用每种扩散算法都可以计算得到对于未知文件的一种恶意评分结果(即第二恶意评分)。其中,扩散算法包括置信度传播(beliefpropagation)或者个性化佩奇排名(personalizedpagerank)等扩散算法,由于文件流水数据中包含文件标识,因此文件关联图中的黑文件与白文件均已知,从而诸如置信度传播(beliefpropagation)或者个性化佩奇排名(personalizedpagerank)等扩散算法可以从已知恶意文件推测未知文件恶意程度(恶意性评分)。上述过程中,所提及的用已知黑文件对未知文件进行评分的方法,依然适用于使用已知的非黑文件对于未知文件进行评分。

对于在文件关联图中应用多个扩散算法得到的第一恶意评分,以及对于在文件关联图中应用多个社团发现算法得到的第二恶意评分,对多个第一恶意评分以及多个第二恶意评分通过机器学习或者加权平均等预设方式进行综合评分,最终确定被检测文件中未知文件的文件恶意评分。例如,对于a未知文件,若关于三个社团发现算法和两个扩散算法,在文件关联图中应用三个社团发现算法得到对于a未知文件的第一恶意评分包括恶意评分a、恶意评分b以及恶意评分c,并且在文件关联图中应用两个扩散算法得到对于a未知文件的第二恶意评分包括恶意评分d以及恶意评分e,那么对于所得到的恶意评分a、恶意评分b、恶意评分c、恶意评分d以及恶意评分e,进行加权平均,得到a未知文件的文件恶意评分为(k1a k2b k3c k4d k5e)/5。在本实施例中,社团发现算法和扩散算法的数量不作限定。

进一步地,一实施例中,所述基于所述第一恶意评分以及所述第二恶意评分,确定所述被检测文件中未知文件的文件恶意评分的步骤包括:

步骤d,基于所述第一恶意评分以及所述第二恶意评分以及第三预设算法,确定所述被检测文件中未知文件的文件恶意评分。

一实施例中,第三预设算法可以是机器学习或者加权平均等预设算法,对于在文件关联图中应用多个扩散算法得到的第一恶意评分,以及对于在文件关联图中应用多个社团发现算法得到的第二恶意评分,对多个第一恶意评分以及多个第二恶意评分通过第三预设算法如机器学习或者加权平均等预设方式进行综合评分,最终确定被检测文件中未知文件的文件恶意评分。例如,对于a未知文件,若关于三个社团发现算法和两个扩散算法,在文件关联图中应用三个社团发现算法得到对于a未知文件的第一恶意评分包括恶意评分a、恶意评分b以及恶意评分c,并且在文件关联图中应用两个扩散算法得到对于a未知文件的第二恶意评分包括恶意评分d以及恶意评分e,那么对于所得到的恶意评分a、恶意评分b、恶意评分c、恶意评分d以及恶意评分e,进行加权平均,得到a未知文件的文件恶意评分为(k1a k2b k3c k4d k5e)/5。

进一步地,一实施例中,所述基于所述文件关联图以及所述社团发现算法,确定所述被检测文件中未知文件的第一恶意评分的步骤包括:

步骤e,基于所述文件关联图以及所述社团发现算法,将被检测文件划分成文件社团,以得到多个文件社团;

步骤f,基于各个文件社团,确定各个文件社团的社团恶意评分,并将所述社团恶意评分作为所述被检测文件中未知文件的第一恶意评分,其中,各个文件社团中包含所述未知文件的子未知文件。

一实施例中,在文件关联图上应用多种不同的社团发现算法,对于其中一种社团发现算法,该社团发现算法先将被检测文件划分成不同的文件社团,然后通过文件社团内文件情况进行恶意性判定(恶意性打分),得到文件社团中未知文件的社团恶意评分,对于每个文件社团可以求得一个社团恶意评分,因此对于各个文件社团,可以求得多个社团恶意评分,最后将多个社团恶意评分作为被检测文件中未知文件的第一恶意评分。其中,社团恶意评分与各个文件社团一一对应,第一恶意评分与各个社团发现算法一一对应。

进一步地,一实施例中,所述基于各个文件社团,确定各个文件社团的社团恶意评分,并将所述社团恶意评分作为所述被检测文件中未知文件的第一恶意评分的步骤包括:

步骤g,基于各个文件社团,确定各个文件社团中的恶意文件数量;

步骤h,基于所恶意文件数量,确定各个文件社团的社团恶意评分,并将所述社团恶意评分作为所述被检测文件中未知文件的第一恶意评分。

一实施例中,在文件关联图上应用多种不同的社团发现算法,对于其中一种社团发现算法,该社团发现算法先将被检测文件划分成不同的文件社团,然后通过文件社团内恶意文件的数量对该文件社团进行恶意性判定(恶意性打分),得到该文件社团的社团恶意评分,该社团恶意评分为该文件社团中所有未知文件的恶意性评分。对于每个文件社团可以求得一个社团恶意评分,因此对于各个文件社团,可以求得多个社团恶意评分,最后将多个社团恶意评分作为被检测文件中未知文件的第一恶意评分。

本实施例提出的文件恶意评分方法,通过基于所述文件关联图以及所述社团发现算法,确定所述被检测文件中未知文件的第一恶意评分;以及,基于所述文件关联图以及所述扩散算法,确定所述被检测文件中未知文件的第二恶意评分;以及,基于所述第一恶意评分以及所述第二恶意评分,确定所述被检测文件中未知文件的文件恶意评分,对文件关联图应用多种第二预设算法,增加了对未知文件的恶意性评分的可靠性以及可信度,可以更好地识别恶意性文件。

基于第一实施例,提出本发明文件恶意评分方法的第三实施例,在本实施例中,步骤s20包括:

步骤i,获取所述文件流水数据中的文件标识和主机标识;

步骤j,基于所述文件标识以及所述主机标识,确定所述被检测文件对应的主机列表;

步骤k,基于所述主机列表以及所述第一预设算法,确定所述被检测文件的文件关联图。

一实施例中,文件流水数据为某一文件存在于某一机器的流水数据,每一条文件流水数据由主机标识和文件标识两部分组成。在采集到文件流水数据后,通过获取文件流水数据中的文件标识和主机标识获得一文件及对应的主机列表,即一个文件标识和其对应的主机标识集合。

进一步地,一实施例中,所述基于所述文件流水数据以及第一预设算法,确定所述被检测文件的文件关联图的步骤包括:

步骤m,基于所述主机列表以及所述第一预设算法,将主机列表相似的所述被检测文件分配至文件集合,得到多个文件集合;

步骤n,确定多个文件集合为被检测文件的文件关联图。

一实施例中,获得主机列表后,基于被测文件文件的主机列表将主机列表相似的文件较大概率分配到一个“桶”中,这个“桶”即为文件集合,从而将被测文件分成多个文件集合。多个文件集合则构成一个二分图,所构建的二分图即为被检测文件的文件关联图。其中,第一预设算法可以是lsh(locality-sensitivehashing,局部敏感哈希)等算法。在文件关联图中,将文件和桶作为节点,文件存在于桶中则有一条边。可以理解的是,相同的文件可存在于不同的“桶”中,例如,若文件a、文件b及文件c相似性较高,则文件a、文件b及文件c被分配至一个“桶”中,并且若文件a、文件c、文件d和文件e相似性较高,则文件a、文件c、文件d和文件e被分配至另一个“桶”。

本实施例提出的文件恶意评分方法,通过获取所述文件流水数据中的文件标识和主机标识;以及,基于所述文件标识以及所述主机标识,确定所述被检测文件对应的主机列表;以及,基于所述主机列表以及所述第一预设算法,确定所述被检测文件的文件关联图,由于文件流水数据中包含各文件的主机列表数据,因此利用文件流水数据建立文件关联图,即利用文件与外部事物的关联关系建立文件关联图,并且运行图传播算法判定或者提取图上特征等,即从文件内容之外的维度衡量文件恶意性等,提高了对恶意文件的检测能力,同时,对文件关联图应用多种第二预设算法,增加了对未知文件的恶意性评分的可靠性以及可信度,从而更好地识别恶意性文件。

此外,本发明实施例还提出一种文件恶意评分装置,所述文件恶意评分装置包括:

获取模块,用于获取被检测文件对应的文件流水数据;

第一确定模块,用于基于所述文件流水数据以及第一预设算法,确定所述被检测文件的文件关联图;

第二确定模块,用于基于所述文件关联图以及第二预设算法,确定所述被检测文件中未知文件的文件恶意评分。

可选地,所述第二确定模块,还用于:

基于所述文件关联图以及所述社团发现算法,确定所述被检测文件中未知文件的第一恶意评分;

基于所述文件关联图以及所述扩散算法,确定所述被检测文件中未知文件的第二恶意评分;

基于所述第一恶意评分以及所述第二恶意评分,确定所述被检测文件中未知文件的文件恶意评分。

可选地,所述第二确定模块,还用于:

基于所述第一恶意评分以及所述第二恶意评分以及第三预设算法,确定所述被检测文件中未知文件的文件恶意评分。

可选地,所述第二确定模块,还用于:

基于所述文件关联图以及所述社团发现算法,将被检测文件划分成文件社团,以得到多个文件社团;

基于各个文件社团,确定各个文件社团的社团恶意评分,并将所述社团恶意评分作为所述被检测文件中未知文件的第一恶意评分,其中,各个文件社团中包含所述未知文件的子未知文件。

可选地,所述第二确定模块,还用于:

基于各个文件社团,确定各个文件社团中的恶意文件数量;

基于所恶意文件数量,确定各个文件社团的社团恶意评分,并将所述社团恶意评分作为所述被检测文件中未知文件的第一恶意评分。

可选地,所述第一确定模块,还用于:

获取所述文件流水数据中的文件标识和主机标识;

基于所述文件标识以及所述主机标识,确定所述被检测文件对应的主机列表;

基于所述主机列表以及所述第一预设算法,确定所述被检测文件的文件关联图。

可选地,所述第一确定模块,还用于:

基于所述主机列表以及所述第一预设算法,将主机列表相似的所述被检测文件分配至文件集合,得到多个文件集合;

确定多个文件集合为被检测文件的文件关联图。

此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有文件恶意评分程序,所述文件恶意评分程序被处理器执行时实现如上述中任一项所述的文件恶意评分方法的步骤。

本发明计算机可读存储介质具体实施例与上述文件恶意评分方法的各实施例基本相同,在此不再详细赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。


技术特征:

1.一种文件恶意评分方法,其特征在于,所述文件恶意评分方法包括以下步骤:

获取被检测文件对应的文件流水数据;

基于所述文件流水数据以及第一预设算法,确定所述被检测文件的文件关联图;

基于所述文件关联图以及第二预设算法,确定所述被检测文件中未知文件的文件恶意评分。

2.如权利要求1所述的文件恶意评分方法,其特征在于,所述第二预设算法包括社团发现算法以及扩散算法,所述基于所述文件关联图以及第二预设算法,确定所述被检测文件中未知文件的文件恶意评分的步骤包括:

基于所述文件关联图以及所述社团发现算法,确定所述被检测文件中未知文件的第一恶意评分;

基于所述文件关联图以及所述扩散算法,确定所述被检测文件中未知文件的第二恶意评分;

基于所述第一恶意评分以及所述第二恶意评分,确定所述被检测文件中未知文件的文件恶意评分。

3.如权利要求2所述的文件恶意评分方法,其特征在于,所述基于所述第一恶意评分以及所述第二恶意评分,确定所述被检测文件中未知文件的文件恶意评分的步骤包括:

基于所述第一恶意评分以及所述第二恶意评分以及第三预设算法,确定所述被检测文件中未知文件的文件恶意评分。

4.如权利要求2所述的文件恶意评分方法,其特征在于,所述基于所述文件关联图以及所述社团发现算法,确定所述被检测文件中未知文件的第一恶意评分的步骤包括:

基于所述文件关联图以及所述社团发现算法,将被检测文件划分成文件社团,以得到多个文件社团;

基于各个文件社团,确定各个文件社团的社团恶意评分,并将所述社团恶意评分作为所述被检测文件中未知文件的第一恶意评分,其中,各个文件社团中包含所述未知文件的子未知文件。

5.如权利要求4所述的文件恶意评分方法,其特征在于,所述基于各个文件社团,确定各个文件社团的社团恶意评分,并将所述社团恶意评分作为所述被检测文件中未知文件的第一恶意评分的步骤包括:

基于各个文件社团,确定各个文件社团中的恶意文件数量;

基于所恶意文件数量,确定各个文件社团的社团恶意评分,并将所述社团恶意评分作为所述被检测文件中未知文件的第一恶意评分。

6.如权利要求1至5任一项所述的文件恶意评分方法,其特征在于,所述基于所述文件流水数据以及第一预设算法,确定所述被检测文件的文件关联图的步骤包括:

获取所述文件流水数据中的文件标识和主机标识;

基于所述文件标识以及所述主机标识,确定所述被检测文件对应的主机列表;

基于所述主机列表以及所述第一预设算法,确定所述被检测文件的文件关联图。

7.如权利要求6所述的文件恶意评分方法,其特征在于,所述基于所述主机列表以及所述第一预设算法,确定所述被检测文件的文件关联图的步骤包括:

基于所述主机列表以及所述第一预设算法,将主机列表相似的所述被检测文件分配至文件集合,得到多个文件集合;

确定多个文件集合为被检测文件的文件关联图。

8.一种文件恶意评分装置,其特征在于,所述文件恶意评分装置包括:

获取模块,用于获取被检测文件对应的文件流水数据;

第一确定模块,用于基于所述文件流水数据以及第一预设算法,确定所述被检测文件的文件关联图;

第二确定模块,用于基于所述文件关联图以及第二预设算法,确定所述被检测文件中未知文件的文件恶意评分。

9.一种文件恶意评分设备,其特征在于,所述文件恶意评分设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文件恶意评分程序,所述文件恶意评分程序被所述处理器执行时实现如权利要求1至7中任一项所述的文件恶意评分方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有文件恶意评分程序,所述文件恶意评分程序被处理器执行时实现如权利要求1至7中任一项所述的文件恶意评分方法的步骤。

技术总结
本发明公开了一种文件恶意评分方法、装置、设备及计算机可读存储介质,所述文件恶意评分方法包括以下步骤:获取被检测文件对应的文件流水数据;基于所述文件流水数据以及第一预设算法,确定所述被检测文件的文件关联图;基于所述文件关联图以及第二预设算法,确定所述被检测文件中未知文件的文件恶意评分。本发明利用文件与外部事物的关联关系建立文件关联图,提高了对恶意文件的检测能力,同时,对文件关联图应用多种第二预设算法,增加了对未知文件的恶意性评分的可靠性以及可信度,从而更好地识别恶意性文件。

技术研发人员:曲博;冯禹铭;马兰;向文丽;罗翠;范琦琦;刘鹏辉
受保护的技术使用者:鹏城实验室
技术研发日:2020.01.09
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-22111.html

最新回复(0)