基于卷积神经网络的敏感文件检测方法与流程

专利2022-06-29 83

本发明涉及信息检测与过滤技术领域，尤其涉及一种基于卷积神经网络的敏感文件检测方法。

背景技术：

2017年6月1日正式施行的《国家网络安全法》特别强调了关键信息基础设施敏感信息监测的重要性。电力行业关系国民经济命脉和国家能源安全，如果发生泄密事件，必定会给行业的社会形象及经济效益带来严重的负面影响。建立有效的网络安全监测体系，重要前提是对敏感数据精准识别，而后基于敏感数据形成有效的监测响应方案。电力企业运营过程中的敏感数据主要分为:1)国家电力发展战略、国家重大电力项目规划等国家级秘密的国密文件；2)企业经营数据等涉及企业自身商业秘密的商密文件。本文重点关注如何有效检测企业经营生产中的商密文件。目前电力企业通用的敏感文件检测方法大都依赖于敏感词库，如“秘密、方案、规划、内部资料、标底”等是敏感词库中的部分关键字，通过分词算法等统计出上述关键字在文件中出现的频率，由此判断文件是否属于敏感文件。这种方法的优势是速度快，缺点是具有很高的漏报率和误报率。例如一篇小说含有“不能说的秘密”“规划下一步行动”“我们计划”等词句，根据特征字库统计出小说中含有“秘密”“规划”“计划”的频率，就会将小说误判为敏感办公文件，这样增加了敏感文件复核成本，且人工复核易造成敏感文件的违规扩散。

现有的研究仅限于利用词向量和卷积神经网络来解决企业商密类文件检测研究还是空白。

技术实现要素：

针对上述问题中的至少之一，本发明提供了一种基于卷积神经网络的敏感信息过滤方法，为了解决基于特征词库的敏感文件检测性能低的问题，本发明利用词向量和卷积神经网络来解决企业商密类文件检测问题。众所周知，卷积神经网络始于图像识别并得到了广泛应用，本发明设计的方法，首先解决如何将文档数据转换成类图像数据，解决途径为将文档的语义内容形式表示为类似图像数据的二维矩阵特征形式。

为实现上述目的，本发明提供了一种基于卷积神经网络的敏感文件检测方法，包括：将文档的语义内容形式表示为类似图像数据的二维矩阵特征形式，针对数据集训练出词向量特征；将训练好的词向量进行组合得到文档的向量特征；将上述向量特征作为基于卷积神经网络的深度学习的输入特征，并作为方法运行参数一起参与迭代训练过程。

在上述技术方案中，优选地，基于卷积神经网络的深度学习形成词向量矩阵，将所述词向量特征提取矩阵所形成的二维数据矩阵输入所述卷积神经网络，输出普通文件和敏感文件。

在上述技术方案中，优选地，实际处理过程具体包括：词向量训练集主要根据语料库构建词向量模型，将人类语言编写的文档转化成机器能够识别的形式，语料库越完备则训练得到的词向量就越精准；敏感文件特征训练，将词向量作为卷积神经网络的输入，经过卷积层、池化层、maxpooling层、全连接层操作后，通过交叉验证进行文件分类识别学习；检测模块对待检测文件进行词向量特征提取，而后经过所述卷积神经网络计算，实现敏感文件识别。

附图说明

图1为本发明一种基于卷积神经网络的敏感信息过滤方法的流程示意框图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图对本发明做进一步的详细描述：

利用词向量和卷积神经网络来解决企业商密类文件检测问题在基于卷积神经网络的敏感文件检测方法基础上构建了原型系统，该原型系统大致划分为3个模块：词向量训练集模块、敏感文件训练模块和检测模块，系统的整体架构如图1所示。具体地，将文档的语义内容形式表示为类似图像数据的二维矩阵特征形式，针对数据集训练出词向量特征；将训练好的词向量进行组合得到文档的向量特征；将上述向量特征作为基于卷积神经网络的深度学习的输入特征，并作为方法运行参数一起参与迭代训练过程。

其中，基于卷积神经网络的深度学习形成词向量矩阵，将词向量特征提取矩阵所形成的二维数据矩阵输入卷积神经网络，输出普通文件和敏感文件。

实际处理过程具体包括：词向量训练集主要根据语料库构建词向量模型，将人类语言编写的文档转化成机器能够识别的形式，语料库越完备则训练得到的词向量就越精准；敏感文件特征训练，将词向量作为卷积神经网络的输入，经过卷积层、池化层、maxpooling层、全连接层操作后，最后通过交叉验证进行文件分类识别学习；检测模块对待检测文件进行词向量特征提取，而后经过卷积神经网络计算，最后实现敏感文件识别。

技术特征：

1.一种基于卷积神经网络的敏感文件检测方法，其特征在于，包括：

将文档的语义内容形式表示为类似图像数据的二维矩阵特征形式，针对数据集训练出词向量特征；

将训练好的词向量进行组合得到文档的向量特征；

将上述向量特征作为基于卷积神经网络的深度学习的输入特征，并作为方法运行参数一起参与迭代训练过程。

2.根据权利要求1所述的基于卷积神经网络的敏感文件检测方法，其特征在于，其中，基于卷积神经网络的深度学习形成词向量矩阵，

将所述词向量特征提取矩阵所形成的二维数据矩阵输入所述卷积神经网络，输出普通文件和敏感文件。

3.根据权利要求1所述的基于卷积神经网络的敏感文件检测方法，其特征在于，实际处理过程具体包括：

词向量训练集主要根据语料库构建词向量模型，将人类语言编写的文档转化成机器能够识别的形式，语料库越完备则训练得到的词向量就越精准；

敏感文件特征训练，将词向量作为卷积神经网络的输入，经过卷积层、池化层、maxpooling层、全连接层操作后，通过交叉验证进行文件分类识别学习；

检测模块对待检测文件进行词向量特征提取，而后经过所述卷积神经网络计算，实现敏感文件识别。

技术总结
本发明公开了一种基于卷积神经网络的敏感文件检测方法，步骤如下：1)针对数据集训练出词向量特征；2)将训练好的词向量进行组合得到文档的向量特征；3)将上述向量作为基于卷积神经网络的深度学习的输入特征，并作为方法运行参数一起参与迭代训练过程。通过本发明的技术方案，实现了对国家电力发展战略、国家重大电力项目规划等国家级秘密的国密文件和企业经营数据等涉及企业自身商业秘密的商业文件的敏感信息的过滤，弥补了现有的基于敏感词库检测方法检测效率低、降低漏报率和误报率高的缺点。

技术研发人员：孔令武;田峥;黎曦;关勇
受保护的技术使用者：北京珞安科技有限责任公司
技术研发日：2020.01.16
技术公布日：2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-24776.html

专利

最新回复(0)