基于深度学习的钓鱼网站检测方法与流程

专利2022-06-30  89


本发明涉及网络安全
技术领域
,尤其涉及一种基于深度学习的钓鱼网站检测方法。
背景技术
:网络现在已经成为信息社会的命脉和发展知识经济的重要基础。计算机网络的飞速发展和信息化建设的加快为网络安全检测带来了新的课题。大量触目惊心的事例说明,网络攻击和网络犯罪已成为全球的公敌。随着网络攻击技术的不断更新,网络攻击在距离、速度上已突破传统的限制,并拥有多维、多点、多次实施隐蔽打击的能力。当前,钓鱼网站欺诈的检测技术效率和误判率都需要提高,而传统机器学习的处理模式是特征提取器。现有的钓鱼网站检测方法中涉及到的分类算法一般是机器学习方法,这些方法在对钓鱼网站检测的准确度方面存在短板。技术实现要素:针对上述问题中的至少之一,本发明提供了一种基于深度学习的钓鱼网站检测方法,通过采用中间多层的深度学习方法,利用简单的非线性模块构建而成,对于分类问题,高层表示能强调重要的类别信息,同时抑制无关的特征信息,从而在对钓鱼网站进行二分类检测保持较高准确率的同时拥有非常小的误判率。为实现上述目的,本发明提供了一种基于深度学习的钓鱼网站检测方法,包括:将钓鱼网站样本数据预处理为统一矩阵格式;构建包括输入层、卷积层、池化层、全连接层和输出层的卷积神经网络模型;将统一矩阵格式的所述钓鱼网站样本数据输入所述卷积神经网络模型,并将输出结果与对应的标注标签进行关联学习;将网站数据输入学习完成后的所述卷积神经网络模型,以判断对应网站是否属于钓鱼网站。在上述技术方案中,优选地,所述卷积神经网络模型学习过程中计算所述卷积神经网络模型的检测正确率,在对钓鱼网站的检测正确率达到预设阈值时完成学习过程。在上述技术方案中,优选地,所述将统一矩阵格式的所述钓鱼网站样本数据输入所述卷积神经网络模型并将输出结果与对应的标注标签进行关联学习的过程具体包括:在所述输入层输入钓鱼网站样本数据;在所述卷积层进行卷积运算以提取和压缩特征;在所述池化层中通过池化操作进行数据降维;在所述全连接层通过线性变化将所述钓鱼网站样本数据转换为预设大小;将所述输出层的输出结果与对应网站数据的标注标签进行关联学习。在上述技术方案中,优选地,在构建所述卷积神经网络模型过程中,还对所述卷积神经网络模型的激活函数、损失函数和优化器函数进行细化,具体包括:采用relu作为激活函数,relu函数的定义式为:采用交叉熵损失函数作为损失函数。在上述技术方案中,优选地,所述卷积神经网络模型中包括两个一维卷积层,第一个一维卷积层包括10个卷积核,第二个一维卷积层包括20个卷积核,经过两次卷积后特征通道变为20。在上述技术方案中,优选地,所述卷积神经网络模型中包括两个池化层,每个所述一维卷积层后设置一个所述池化层,所述池化层的步长为2,经过两次池化操作后特征长度由30转换为7。在上述技术方案中,优选地,所述卷积层的尺度采用数据维度特征数量的预设比例。在上述技术方案中,优选地,所述卷积层的卷积步长为1。在上述技术方案中,优选地,所述钓鱼网站样本数据包括网址、网页内容、页面结构和域名四个维度的特征。在上述技术方案中,优选地,调整所述卷积神经网络模型中卷积层的层数、卷积层的过滤器个数、过滤器的尺寸、池化层的层数以及学习过程中特征检测器停止工作的数量等值,以确定检测结果更优的卷积神经网络模型。与现有技术相比,本发明的有益效果为:通过采用中间多层的深度学习方法,利用简单的非线性模块构建而成,对于分类问题,高层表示能强调重要的类别信息,同时抑制无关的特征信息,从而在对钓鱼网站进行二分类检测保持较高准确率的同时拥有非常小的误判率。附图说明图1为本发明一种实施例公开的基于深度学习的钓鱼网站检测方法的流程示意图;图2为本发明一种实施例公开的基于深度学习的钓鱼网站检测方法的功能结构图;图3为本发明一种实施例公开的基于深度学习的钓鱼网站检测方法的工作流程图。具体实施方式为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。下面结合附图对本发明做进一步的详细描述:如图1至图3所示,根据本发明提供的一种基于深度学习的钓鱼网站检测方法,包括:将钓鱼网站样本数据预处理为统一矩阵格式;构建包括输入层、卷积层、池化层、全连接层和输出层的卷积神经网络模型;将统一矩阵格式的钓鱼网站样本数据输入卷积神经网络模型,并将输出结果与对应的标注标签进行关联学习;将网站数据输入学习完成后的卷积神经网络模型,以判断对应网站是否属于钓鱼网站。在该实施例中,通过采用中间多层的深度学习方法,利用简单的非线性模块构建而成,对于分类问题,高层表示能强调重要的类别信息,同时抑制无关的特征信息,从而在对钓鱼网站进行二分类检测保持较高准确率的同时拥有非常小的误判率。具体地,卷积神经网络模型中构建多层神经元,通过卷积运算能够在原始的输入上进行特征提取,进行二次或多次卷积将特征不断提取和压缩,最终能够得到较高层次的特征,使用激活函数能够降低网络收敛速度,通过池化操作能够进行数据降维,缓解过拟合,同时保持一定的旋转和平移不变性。在上述实施例中,优选地,卷积神经网络模型学习过程中计算卷积神经网络模型的检测正确率,在对钓鱼网站的检测正确率达到预设阈值时完成学习过程。在上述实施例中,优选地,将统一矩阵格式的钓鱼网站样本数据输入卷积神经网络模型并将输出结果与对应的标注标签进行关联学习的过程具体包括:在输入层输入钓鱼网站样本数据;在卷积层进行卷积运算以提取和压缩特征;在池化层中通过池化操作进行数据降维;在全连接层通过线性变化将钓鱼网站样本数据转换为预设大小;将输出层的输出结果与对应网站数据的标注标签进行关联学习。根据上述实施例提供的基于深度学习的钓鱼网站检测方法,在以下实施例中,采用30维的钓鱼网站样本数据对卷积神经网络进行学习,这些钓鱼网站样本数据优选划分为网址、网页内容、页面结构和域名四个维度的特征。具体的,网站数据特征如下表1所示:表1网站数据特征在上述实施例中,优选地,卷积神经网络模型中包括两个一维卷积层,第一个一维卷积层包括10个卷积核,第二个一维卷积层包括20个卷积核,经过两次卷积后特征通道变为20。在上述实施例中,优选地,卷积神经网络模型中包括两个池化层,每个一维卷积层后设置一个池化层,池化层的步长为2,经过两次池化操作后上述实施例中的特征长度由30转换为7。全连接层通过线性变化将上述特征与预测结果对应,通过损失函数反向传播更新模型参数(卷积层和全连接层)。在上述实施例中,卷积层的输出维度为(w-f 2p)/s 1,池化层的输出维度为(w-f)/2 1,其中,w为输入尺寸,f为过滤器尺寸,p为填充数量,s为步长,具体示例如下表2所示:表2卷积层和池化层输出维度示例batchheightwidthindepthoutdepthinput1501301kernel15110output15013010在上述实施例中,优选地,卷积层的尺度采用数据维度特征数量的预设比例,在上述实施例中选用尺度为5的卷积核。在上述实施例中,由于钓鱼网站的特征长度较短,优选地,卷积层的卷积步长为1,以保存更完整的信息。在上述实施例中,优选地,在构建卷积神经网络模型过程中,还对卷积神经网络模型的激活函数、损失函数和优化器函数进行细化。具体地,卷积神经网络中常用的激活函数包括sigmoid,tanh和relu。其中,sigmoid函数定义:tanh函数定义:relu函数定义:sigmoid函数具有软饱和性,容易产生梯度消失现象。tanh函数也是一种非常常见的激活函数,其收敛速度要比sigmoid函数快,能够减少迭代次数。tanh函数一样具有软饱和性,从而造成梯度消失。relu函数在sgd中能够快速收敛,而且可以有效缓解梯度消失的问题。损失函数一般包括mse损失函数、交叉熵损失函数和负对数似然损失函数。在该实施例中,采用relu作为激活函数,采用交叉熵损失函数作为损失函数。卷积神经网络模型根据损失函数,构建算法模型,更新模型参数。池化层中使用dropout函数根据概率随机去除一些神经元,防止数据过拟合。在上述实施例中,优选地,调整卷积神经网络模型中卷积层的层数、卷积层的过滤器个数、过滤器的尺寸、池化层的层数以及学习过程中特征检测器停止工作的数量等值,以确定检测结果更优的卷积神经网络模型。在上述实施例的基于深度学习的钓鱼网站检测方法构建完成后,与其他类型方法之间采用查准率、查全率和f1值来对各种不同方法的检测结果进行评估,评估结果如下表3所示。表3不同方法检测结果对比由该表3可知,本发明实施例中的基于深度学习的钓鱼网站检测方法的查准率、查全率和f1值都明显高出其他方法。以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。当前第1页1 2 3 
技术特征:

1.一种基于深度学习的钓鱼网站检测方法,其特征在于,包括:

将钓鱼网站样本数据预处理为统一矩阵格式;

构建包括输入层、卷积层、池化层、全连接层和输出层的卷积神经网络模型;

将统一矩阵格式的所述钓鱼网站样本数据输入所述卷积神经网络模型,并将输出结果与对应的标注标签进行关联学习;

将网站数据输入学习完成后的所述卷积神经网络模型,以判断对应网站是否属于钓鱼网站。

2.根据权利要求1所述的基于深度学习的钓鱼网站检测方法,其特征在于,所述卷积神经网络模型学习过程中计算所述卷积神经网络模型的检测正确率,在对钓鱼网站的检测正确率达到预设阈值时完成学习过程。

3.根据权利要求1所述的基于深度学习的钓鱼网站检测方法,其特征在于,所述将统一矩阵格式的所述钓鱼网站样本数据输入所述卷积神经网络模型并将输出结果与对应的标注标签进行关联学习的过程具体包括:

在所述输入层输入钓鱼网站样本数据;

在所述卷积层进行卷积运算以提取和压缩特征;

在所述池化层中通过池化操作进行数据降维;

在所述全连接层通过线性变化将所述钓鱼网站样本数据转换为预设大小;

将所述输出层的输出结果与对应网站数据的标注标签进行关联学习。

4.根据权利要求1所述的基于深度学习的钓鱼网站检测方法,其特征在于,在构建所述卷积神经网络模型过程中,还对所述卷积神经网络模型的激活函数、损失函数和优化器函数进行细化,具体包括:

采用relu作为激活函数,relu函数的定义式为:

采用交叉熵损失函数作为损失函数。

5.根据权利要求3所述的基于深度学习的钓鱼网站检测方法,其特征在于,所述卷积神经网络模型中包括两个一维卷积层,第一个一维卷积层包括10个卷积核,第二个一维卷积层包括20个卷积核,经过两次卷积后特征通道变为20。

6.根据权利要求3所述的基于深度学习的钓鱼网站检测方法,其特征在于,所述卷积神经网络模型中包括两个池化层,每个所述一维卷积层后设置一个所述池化层,所述池化层的步长为2,经过两次池化操作后特征长度由30转换为7。

7.根据权利要求5所述的基于深度学习的钓鱼网站检测方法,其特征在于,所述卷积层的尺度采用数据维度特征数量的预设比例。

8.根据权利要求5所述的基于深度学习的钓鱼网站检测方法,其特征在于,所述卷积层的卷积步长为1。

9.根据权利要求2所述的基于深度学习的钓鱼网站检测方法,其特征在于,所述钓鱼网站样本数据包括网址、网页内容、页面结构和域名四个维度的特征。

10.根据权利要求2所述的基于深度学习的钓鱼网站检测方法,其特征在于,调整所述卷积神经网络模型中卷积层的层数、卷积层的过滤器个数、过滤器的尺寸、池化层的层数以及学习过程中特征检测器停止工作的数量等值,以确定检测结果更优的卷积神经网络模型。

技术总结
本发明公开了一种基于深度学习的钓鱼网站检测方法,包括:将钓鱼网站样本数据预处理为统一矩阵格式;构建包括输入层、卷积层、池化层、全连接层和输出层的卷积神经网络模型;将统一矩阵格式的钓鱼网站样本数据输入卷积神经网络模型,并将输出结果与对应的标注标签进行关联学习;将网站数据输入学习完成后的卷积神经网络模型,以判断对应网站是否属于钓鱼网站。通过本发明的技术方案,在对钓鱼网站进行二分类检测保持较高准确率的同时,拥有非常小的误判率。

技术研发人员:何泾沙;王亚芹;朱娜斐;张胜凡;曹珊;葛加可;段梦园
受保护的技术使用者:北京工业大学
技术研发日:2020.01.08
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-55830.html

最新回复(0)