一种针对时序社交数据的Sybil账号检测方法与流程

专利2022-06-29  160


本发明涉及互联网社交技术领域,特别是涉及一种针对时序社交数据的sybil账号检测方法。



背景技术:

社交网络是社会学家在20世纪60年代提出的新兴概念,是面对面社交关系的延伸。随着网络技术和移动设备的发展,在线社交网络(osn)也呈现爆炸式发展,并逐步成为人们日常生活、工作以及娱乐的重要平台。在线社交网络不仅能够为用户提供个人资料的建立、扩展和维护等功能,还能够支持兴趣共享、朋友互动以及情感分享等服务。facebook作为第一个真正的社交网络,于2004年根据实际用户关系推出了全方位的社交服务。随着web2.0技术的发展,越来越多的社交网络开始崭露头角,如国外的twitter、linkedin、instagram,国内的微信、新浪微博等。

快速发展的在线社交网络在给人们带来便利的同时,其巨大的用户量也引起了攻击者的注意。这些攻击者通过创建大量sybil账号或者盗用正常账号在社交平台中发布广告,从而引导舆论走向、欺骗正常用户、影响用户正常权益、威胁账户安全以及降低用户体验等,如:发布虚假url、恶意评论正常商品(或商家)、恶意提高不良商品(或商家)的好评度以及恶意攻击用户账号等。这些恶意行为对在线社交网络的正常运行、用户关系的正常建立以及用户社交行为的正确执行构成了严重威胁。因此目前急需一种快速、准确的检测在线社交网络平台中的sybil账号的方法,保证社交用户的正常体验和舆论风向的正确性。

现有方案虽然在一定程度上能够实现sybil用户的检测,但是提取的用户可区分特征并不全面,从而导致sybil用户检测效果一般。本发明通过分析真实时序社交数据,提取了一种全新的sybil用户和正常用户的可区分特征,即用户在社交活动频率上的差别,并提出了相应的sybil用户检测方法。



技术实现要素:

本发明的目的是提供一种针对时序社交数据的sybil账号检测方法,以解决上述现有技术存在的问题。

为实现上述目的,本发明提供了如下方案:本发明提供一种针对时序社交数据的sybil账号检测方法,包括如下步骤:

步骤1:获取社交用户的时序数据,所述数据包括用户属性文件、推文、转发推文、点赞推文、评论推文以及相应的时间;

步骤2:清洗时序社交数据得到用户的交互数据和用户资料,所述交互数据包括转推数、评论数、点赞数、提及数以及发推时间,并根据所述交互数据形成训练集和测试集;

步骤3:提取训练集和测试集数据的交互特征;

步骤4:将训练集中的所有用户的特征组合成特征矩阵f,运用k-mean方法对训练集用户特征数据进行训练,形成分类模型;

步骤5:选取测试集用户,计算测试集用户与其他用户的wasserstein距离,并计算所述wasserstein距离距离的均值、标准差以及用户交互特征的最大值作为用户的特征向量;将得到用户特征向量作为分类模型的输入,判断用户是否为sybil用户。

优选地,所述交互特征包括同一社交用户不同时段内交互特征、不同社交用户交互序列之间特征差异、生成社交用户的时序特征。

优选地,步骤3的具体过程如下:

步骤3.1:依据社交交互数据,按时间段将每个用户的交互数据表示成交互序列,然后计算交互特征向量;

步骤3.2:利用狄拉克函数拟合交互特征向量为分布函数;

步骤3.3:计算不同交互序列之间的wasserstein距离,并为每个用户求取wasserstein距离的平均值和标准差以及用户的交互特征的最大值,作为用户的特征向量。

优选地,步骤4的具体过程如下:

步骤4.1:首先选取若干个用户作为初始用户;

步骤4.2:选取训练集中的其他用户,计算其他与初始用户之间的距离,并选取最小距离类;

步骤4.3:第一轮分类结束后,重新计算每一类的中心点;

步骤4.4:重复4.1、4.2和4.3直至三类的中心点收敛。

优选地,所述交互特征向量的计算方法为求和或者基于熵。

优选地,基于熵的交互特征表示法为:将时间段tj均分为μ段,其中μ≥1,且用cx表示x时间段内的点赞、转发、评论和提及总数,则时间段tj内的总交互次数为其次,定义交互特征为当交互次数越平均,特征值越小,反之亦然;因此,基于熵的交互特征表示方求得的交互特征序列为

本发明公开了以下技术效果:

(1)社交用户在时域上的特性:sybil用户存在某段时间内交互次数突变或者持续频繁交互的特征,而正常用户在时间上具有相对稳定性,该特征为区分sybil用户和正常社交用户提供了理论基础;

(2)形式化定义社交用户在时域上的特征:通过基于求和和基于熵的同一社交用户在不同时段的特征提取方法,系统、全面的表示了单个社交用户的特征,通过基于wasserstein距离的序列比对方法,有效的区分社交用户在时域上的活动差别,基于wasserstein距离的平均值、方差以及活动最大值表示法,准确的定义单个用户的社交行为特征;

(3)自动化、精确化检测sybil用户和正常社交用户:基于机器学习理论,通过检测sybil用户保证社交用户的正常体验和舆论风向的正确性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明的流程示意图;

图2为社交用户数据分类折线图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

参照图1-2,本发明提供一种针对时序社交数据的sybil账号检测方法,sybil用户通过点赞、评论、转发和提及同一话题吸引公众眼球,从而推动该话题的舆论走向。本发明通过收集并分析真实社交数据将社交用户分为三类,如图2所示。第一类为正常社交用户(benignusers),其会点赞、评论朋友或者喜欢的用户和话题,且与非朋友用户交互极少或者为0。第二类为sybil用户(sybiluser-i),大部分时间此类用户不参与活动,当接受特定任务时,其与任务指定的用户进行频繁交互,其活动频率具有如下特征:整体交互次数较低且趋于0,但某一段时间内交互次数出现一个峰值。第三类也为sybil用户(sybiluser-ii),其一直处于高活跃状态且与社交网络中的影响力高的用户(俗称:大v)不同。影响力高的正常用户一般是某些领域的佼佼者,拥有很多粉丝,其主要通过发文、评论、点赞来传达一些日常或者有意义的内容。而此处的sybiluser-ii除了交互次数较高之外,其余的特征都与影响力高的用户不同,如:sybil账号的影响力不高、粉丝较少、每次交互都是与热搜或搜索量大的话题有关。

为了形式化表示社交用户的社交行为,本发明分别定义用户u在时间段tj内的转发次数、点赞次数、评论次数和提及次数为则用户u的交互序列定义为:

为了形式化定义sybil用户与正常用户之间的社交行为特征,本发明提出了一种针对时序社交数据的特征定义方法。其流程主要包括三个部分:同一社交用户同时段内交互特征计算、不同社交用户交互序列之间特征差异计算以及生成社交用户的时序特征。

同一社交用户同时段内交互特征计算过程如下:

为了计算用户在某个时间段内的总交互特征,本发明提出对用户不同交互行为的交互次数进行求和用wj表示,即为tj时间段的特征,则用户的u的交互特征向量为由于不同用户在同一时间段内的交互次数可能相等,而交互分散程度不同,采用求和的方式就不能体现用户在时间段tj内的具体活跃程度,如:某个用户在某个时间段内交互次数存在突变情况,此用户为sybil用户的概率较大,而求和的结果相同。为此,本发明提出一种基于熵的交互特征表示法。该方法首先将时间段tj均分为μ(μ≥1)段,且用cx表示x时间段内的点赞、转发、评论和提及总数,则时间段tj内的总交互次数为其次,定义交互特征为当交互次数越平均,特征值较小,反之亦然。因此,基于熵的交互特征表示求得的交互特征序列为

不同社交用户交互序列之间特征差异计算过程如下:

为了区分社交用户的不同社交行为,本发明提出了基于wasserstein距离的特征差异表示法。该方法将两个交互特征序列定义为分布函数,并计算两个分布函数之间的距离,从而将距离作为两个用户之间的差异特征。由于不同社交用户的交互特征序列的分布未知,因此本发明使用狄拉克函数函数拟合社交用户交互特征序列的分布函数w(x)。狄拉克函数δ(x)是指在原点处无限高、无限窄且其积分为1的单位脉冲函数。本发明根据δ(x)定义w(x),如:将δ(x)左移μ个单位得到x=μ处的概率密度函数w(x)=δ(x-μ),在此基础上可以得到狄拉克函数模拟的特征分布函数其中n表示交互序列长度。

本发明使用wasserstein距离求得两个社交用户交互序列w(x),w(y)的距离d[w(x),w(y)],即:

其中γ表示(x,y)边缘分布为w(x)、w(y)的联合分布集合,γ表示从中γ任意选一个联合分布,e(x,y)表示(x,y)服从γ分布时x,y两点对于移动距离d(x,y)的期望。计算wasserstein距离是一个求解最优问题,即寻找将分布w(x)移动成w(y)的最小代价。通过上述计算过程,可以为每个用户u求得wasserstein距离特征为du=(du1,du2,...,dun)。

社交用户的时序特征生成过程如下:

在得到wasserstein距离特征后,本发明将为每个用户u形成特征向量fu={fu1,fu2,fu3},其中,fu1表示用户u与训练集中其他用户的wasserstein距离的平均值(即∑idui/(n-1)),fu2表示用户u与训练集中其他用户的wasserstein距离的标准差(即),fu3表示用户u的交互特征序列的最大值因此,所有用户的特征可以用矩阵f表示:

针对特征矩阵f,本发明采用k-mean方法对聚类模型进行训练,具体步骤如下:

步骤1:随机选取三位社交用户特征向量,其特征向量为uj=[fj1,fj2,fj3],j=1,2,3。对于任意用户u,其特征向量为fu=[fi1,fi2,fi3],k-mean方法通过比较用户u和预选三位用户之间的距离从而判断用户u属于哪一类。用户u属于j类被定义为

步骤2:当所有用户都分配用户类之后,k-mean方法调整每一类的中心位置:

步骤3:重复步骤1和步骤2直到每类满足中心点收敛。

针对新用户,本发明根据该分类模型预测是否属于sybil用户,具体过程如下:首先计算新用户与训练集中用户的wasserstein距离,然后得到wasserstein距离特征,并计算交互特征序列的最大值,从而形成新用户的特征向量。最后将其特征向量输入分类模型,判断此用户与上述三个分类之间距离,并选取最小距离类返回,从而可以判定用户是否为sybil用户类。

在本发明的描述中,需要理解的是,术语“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。

以上所述的实施例仅是对本发明的优选方式进行描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。


技术特征:

1.一种针对时序社交数据的sybil账号检测方法,其特征在于,包括如下步骤:

步骤1:获取用户的时序社交数据,所述时序社交数据包括用户属性文件、推文、转发推文、点赞推文、评论推文以及相应的时间;

步骤2:清洗时序社交数据得到用户的交互数据和用户资料,所述交互数据包括转推数、评论数、点赞数、提及数以及发推时间,并根据所述交互数据形成训练集和测试集;

步骤3:提取训练集和测试集数据的交互特征;

步骤4:将训练集中的所有用户的特征组合成特征矩阵f,运用k-mean方法对训练集用户特征数据进行训练,形成分类模型;

步骤5:选取测试集用户,计算测试集用户与其他用户的wasserstein距离,并计算所述wasserstein距离的均值、标准差以及用户交互特征的最大值作为用户的特征向量;将得到的用户特征向量作为分类模型的输入,判断用户是否为sybil用户。

2.根据权利要求1所述的针对时序社交数据的sybil账号检测方法,其特征在于,所述交互特征包括同一社交用户不同时段内交互特征、不同社交用户交互序列之间特征差异、生成社交用户的时序特征。

3.根据权利要求1所述的针对时序社交数据的sybil账号检测方法,其特征在于,步骤3的具体过程如下:

步骤3.1:依据社交交互数据,按时间段将每个用户的交互数据表示成交互序列,然后计算交互特征向量;

步骤3.2:利用狄拉克函数拟合交互特征向量为分布函数;

步骤3.3:计算不同交互序列之间的wasserstein距离,并为每个用户求取wasserstein距离的平均值和标准差以及用户的交互特征的最大值,作为用户的特征向量。

4.根据权利要求3所述的针对时序社交数据的sybil账号检测方法,其特征在于,步骤4的具体过程如下:

步骤4.1:首先选取若干个用户作为初始用户;

步骤4.2:选取训练集中的其他用户,计算其他与初始用户之间的距离,并选取最小距离类;

步骤4.3:第一轮分类结束后,重新计算每一类的中心点;

步骤4.4:重复4.1、4.2和4.3直至三类的中心点收敛。

5.根据权利要求3所述的针对时序社交数据的sybil账号检测方法,其特征在于,所述交互特征向量的计算方法为求和或者基于熵。

6.根据权利要求5所述的针对时序社交数据的sybil账号检测方法,其特征在于,基于熵的交互特征表示法为:将时间段tj均分为μ段,其中μ≥1,且用cx表示x时间段内的点赞、转发、评论和提及总数,则时间段tj内的总交互次数为其次,定义交互特征为当交互次数越平均,特征值越小,反之亦然;因此,基于熵的交互特征表示方求得的交互特征序列为

技术总结
本发明公开一种针对时序社交数据的Sybil账号检测方法,首先通过收集、分析真实社交数据发现Sybil用户和正常用户的社交行为差别。其次,本发明提出了基于求和和基于熵的同一社交用户不同时段的交互特征表示法;通过计算不同社交用户的Wasserstein距离,提出了Wasserstein距离平均值、标准差以及交互特征序列最大值相结合的用户特征表示法。再者,为了预测社交用户是否为Sybil用户,本发明提出运用K‑mean方法作为预测模型并用真实训练集训练模型。最后,面对新用户,本发明首先形式化定义用户社交特征,并用训练好的模型预测其属于哪一类用户。

技术研发人员:姚鑫;鲁洋阳;刘佳琦;陈志刚;赵明
受保护的技术使用者:中南大学
技术研发日:2020.01.17
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-16579.html

最新回复(0)