本发明属于网络空间抗测绘,具体涉及基于机器学习分类算法的良性社交机器人账号抗测绘方法。
背景技术:
1、近年来,社交网络良性机器人的研究和应用取得了较大的进展。针对不同目的设计的良性社交机器人能够被应用于社交媒体的多种场景,如:作为个性化的辅助工具,帮助用户快速熟悉社交媒体的使用流程、更高效地使用社交媒体功能[1];通过扮演倾听者、交流者的角色,为用户提供人文关怀与陪伴[2];根据专业知识提供全天候、无延迟回复的初步医疗建议和支持,帮助用户减少就诊咨询的时间成本[3]等。
2、目前,对机器学习分类算法的研究与应用已经处于较为成熟的发展阶段。在构建了合理的特征数据集的基础上,机器学习分类算法可以对数据样本进行准确的检测与识别。在网络空间安全领域中,机器学习分类算法往往被广泛应用于检测攻击者,在网络认知层的应用主要包括网络流量分析[4],恶意网站检测[5,6]和社交媒体的机器人账号检测[7]等。
3、然而在基于机器学习分类算法的社交机器人检测模型快速发展的前提下,攻击者同样可以利用检测模型对社交媒体中的良性机器人进行测绘,并通过攻击良性机器人对网络环境进行破坏。因此,为了保护良性机器人不被攻击者测绘,防止攻击者对良性社交机器人和社交网络的攻击与破坏,需要弥补社交媒体中的良性机器人账号抗测绘研究的空白。
技术实现思路
1、本发明的目的在于提供一种基于机器学习分类算法的良性社交机器人账号抗测绘方法,可以有效降低模型检测出良性机器人账号的准确率,从而保护社交媒体中良性的社交机器人账号不被攻击者测绘,提升网络空间认知层的抗测绘能力。
2、本发明首先调研了基于机器学习分类算法的机器人账号检测代表性模型,包括botometer[9]、sdhm[10]以及部分基于随机森林的分类检测模型[11]等,并针对上述模型需要提取样本特征,构造数据集进行训练的共同特点,设计对模型训练数据集的更改算法,使良性机器人账号能够绕过模型检测,避免被攻击者探测到。本发明方法能够有效降低基于机器学习分类算法的模型检测出良性机器人账号的准确率,保护良性社交机器人账号不被攻击者测绘,提升网络空间认知层的抗测绘能力。
3、本发明提出的基于机器学习分类算法的良性社交机器人账号抗测绘方法,针对常见的基于机器学习分类算法的机器人检测模型m(如[9-11]中模型),设计一种对训练数据集的更改算法,减低模型m对良性机器人账号检测的准确率;其整体流程如图1所示,包括:对社交媒体用户账号数据进行清洗和预处理;构建基于机器学习分类算法的社交机器人检测模型m的训练数据集;通过样本重标记和新增混淆样本两种数据更改算法,向训练数据集中注入混淆数据;用更改后的训练集重新训练目标检测模型m(如:botometer[9]等);具体步骤为(参见附图1):
4、步骤1:对社交媒体用户账号及其属性数据进行分析、清洗和预处理,提取用于机器人账号检测的属性数据;
5、步骤2:对已经清洗完毕的账号数据,分别标记良性机器人账号(ybenign=1)与其它账号(yother=0),将两类账号数据样本合并,按照比例随机抽样,构建基于机器学习分类算法的社交机器人检测模型的训练数据集ttr={(xi,yi)},1≤i≤n(ttr),与测试数据集tte={(xi,yi)},1≤i≤n(tte);
6、步骤3:在初始的训练集ttr上对要降低准确率的目标模型m进行训练,并用测试集tte对训练后的模型m进行测试,得到模型初始的良性机器人检测准确率acc0;利用样本重标记,对模型m的训练数据集中的部分数据样本的标记进行修改;利用样本模拟生成,将合成的混淆样本注入训练数据集;
7、步骤4:在经过两种更改后得到的训练集ttr1上再次训练模型m,并用测试集tte对再次训练后的模型m进行测试,得到模型m下降后的良性机器人检测准确率acc1;将模型m初始检测准确率与下降后的检测准确率进行比较,得到模型对良性机器人检测的准确率下降程度δbenign与下降比例ηbenign:
8、
9、进一步地,步骤1具体包括:
10、步骤1-1:对某社交媒体的用户的账户数据进行分析、筛选和提取,确定合适数量的良性机器人账号数据样本和其它账号数据样本;
11、步骤1-2:分析数据集内容,提取适合用于机器人账号分类的用户账号属性特征,此处账号特征根据社交媒体具体情况和数据集具体内容确定,包括:用户账号粉丝数(followers_count)、好友数(friends_count)、发布状态数(statuses_count)、是否有自定义头像(use_profile_pic)、背景墙信息(use_background_pic)、用户注册时长(registration_duration)等[8];
12、进一步地,步骤3具体包括:
13、步骤3-1:在初始的训练集ttr上对要降低准确率的目标模型m进行训练,并用测试集tte对训练后的模型m进行测试,得到模型m初始的良性机器人检测准确率acc0;本发明方法中不考虑对目标检测模型的优化问题,始终采用模型默认参数设置进行机器人账号检测;
14、步骤3-2:对训练数据集进行样本重标记,具体方法为在模型原始的完整训练集ttr中,随机抽样出一定量的训练集样本t={(xi,yi)},1≤i≤n(t),保持样本特征数据xi不变,对样本标签yi进行如下修改:
15、
16、调整重标记样本的数量n(t)并在更改后的训练集上训练模型m,使模型m在测试集tte上的准确率下降至指定值;
17、步骤3-3:在训练集中新增混淆样本的具体方法包括,根据步骤3-2中的n(t)值复制原始训练集的一个子集s={(xi,yi)},1≤i≤n(s),n(s)=n(t),并对其中的良性机器人样本xb相应的属性进行修改,具体修改内容根据特征选择情况确定;以步骤1中的账号特征为例,进行如下修改:
18、
19、将修改后的子集附加到当前训练集中,得到模型m的最终被更改训练集ttr1;
20、本发明的创新点在于:
21、从网络空间认知层安全的角度,考虑了攻击者利用基于机器学习分类算法的社交机器人账号检测模型,对社交媒体良性机器人进行测绘、对网络空间认知层进行攻击的危害,提出开展社交媒体良性机器人账号抗测绘研究的必要性。从保护良性社交机器人免受攻击者检测与攻击的角度,提出网络空间认知层抗测绘工作的研究方法。本方法以目前具有代表性的基于机器学习分类算法的机器人检测模型为研究对象,提出了对模型训练数据集的更改算法,能够有效降低模型对良性的社交机器人账号的检测准确率,保护良性社交机器人账号不被攻击者测绘,提升网络空间认知层的抗测绘能力。
1.基于机器学习分类算法的良性社交机器人账号抗测绘方法,其特征在于,包括:对社交媒体用户账号数据进行清洗和预处理;构建基于机器学习分类算法的社交机器人检测模型m的训练数据集;通过样本重标记和新增混淆样本两种数据更改算法,向训练数据集中注入混淆数据;用更改后的训练集重新训练目标检测模型m,以降低目标模型检测出良性机器人账号的准确率;具体步骤为:
2.根据权利要求1所述的方法,其特征在于,步骤1具体包括:
3.根据权利要求1所述的方法,其特征在于,步骤3具体包括:
