本发明属于网络演化链路预测领域,具体涉及两种基于邻居的网络拓扑类有向链路预测指标。
背景技术:
链路预测(linkprediction,lp)是指如何通过已知的网络结构等信息预测网络中两个节点之间是否存在或产生链接的可能性,即链路预测包括:1)预测已存在但尚未被发现的链接,即预测未知链接;2)预测现在未存在但未来可能新产生的链接,即预测未来链接。
链路预测是网络演化研究的一个基础问题,对其进行研究可以从理论上帮助我们认识复杂网络演化的机制,也为演化网络提供了一个简单统一且较为公平的比较平台,从而大大推动复杂网络演化模型的理论研究。但其更重要的意义还是体现应用方面.:首先,它可以应用于社交网络和电子商务中的推荐系统,可以帮助人们找到新朋友和潜在的合作者,提供有趣的在线购物项目,在企业社交网络和跨域合作平台中推荐合作伙伴,找到学术社交网络中的专家或共同作者,以及预测大规模通信网络中的手机联系,识别异常通信;其次,它还可以用于推断基于部分观测网络的完整网络,更好地理解网络的演化,并预测异构社交网络中的超链接;最后,链接预测技术也可以应用于生物信息学和生物学,例如,医疗保健和基因表达网络,蛋白质-蛋白质交互关系网络等。
链路预测方法主要可以分为基于网络拓扑结构的方法、基于节点内容属性的链接预测方法以及基于结构-属性的混合方法。基于网络拓扑结构的预测方法主要利用网络中节点的结构信息,如节点的n阶邻居关系、节点的出入度信息、节点间的路径等,对节点之间的未知或未来链接进行预测。基于节点内容属性的链接预测主要利用节点所包含的属性内容和标签信息,结合机器学习以及自然语言处理等工具,来对不同节点的相似性进行度量,从而预测节点之间存在或产生链路的可能性。节点的网络拓扑结构易获取,但如果想进一步提高预测效果,还应考虑节点的属性信息。但节点的属性信息往往受限于节点自身的保护性与封闭性限制,并不全部可见,且其真实性也有待衡量。最后,结构-属性的混合链接预测则是上述二者的综合与权衡,预测效果较优。
基于网络拓扑结构的方法涉及很多基于拓扑的指标,这些指标可用来衡量节点间的相似性。在现有网络链接预测的研究中,有一个重要的应用思想和假设是:如果两个节点的相似性(结构相似性或者属性相似性)越高,则它们存在链接或者在未来形成链接的可能性则更高。但这种预测假设只适用于特定类型的网络(如社交网络),并不一定适用于其它网络。根据这些指标的特征,可以分为基于邻居的指标、基于路径的指标和基于随机游走的指标。基于邻居的指标通常计算复杂度较低,但是预测的准确度却不如基于网络路径的指标;基于路径的指标计算时间复杂度高,不适用于大规模的复杂网络;基于网络随机游走的相似性则是上述二者的折中,同时考虑计算效率以及预测的准确率。
基于邻居的指标使用与节点邻域相关的结构信息来计算每个节点与网络中的其他节点的相似性,这些指标比利用网络全局信息的指标计算时间复杂度低,并且可高度并行化。动态网络数据应被视为连续时间过程,相应特征或指标抽取也应关注序列信息,但是已有的指标忽略了网络环境的动态性,而是利用静态快照来进行预测。此外,已有指标未深层考虑本属于有向网络的问题。因此,本文面向大规模分布式的动态有向网络,提出了两种基于邻居的网络拓扑类有向链路预测指标。
技术实现要素:
分布式网络中每个节点具有自主性,每一个节点维护自身的局部拓扑关系,建立的链路具有向性。本发明提出了两种基于邻居的网络拓扑类有向链路预测指标,其特征在于抓住网络节点间的链接行为历史信息、节点直接关系网的有向拓扑关系结构和关系建立的时间信息,提出累积链接变动得分链路预测指标clc;此外,考虑链路预测节点对中的每一个节点与第三方构成的9种基本的有向三联关系类型,并基于clc,提出指标ctrt。
clc指标的设计过程包括下列步骤:
s1.根据节点间每次链路维护时不同的链接关系变化,设置不同的得分。具体分为以下三种:
链接保持奖励:链接维护主体节点如在其第k个周期结束重新对邻居链路进行维护后,与其第k个周期的邻居仍然保持邻居关系,则主体节点给予该邻居节点大于0的链接保持奖励分;
链接开拓奖励:链接维护主体节点如在其第k个周期结束重新对链路进行维护后,与不属于自身第k个周期邻居的候选节点建立邻居关系,则主体节点给予该节点大于0的链接开拓奖励分;
链接断开惩罚:链接维护主体节点如在其第k个周期结束重新对链路进行维护后,与其第k个周期的邻居断开链接,则主体节点给予该节点小于0链接断开惩罚分。
s2.利用s1中的设置得出主体节点第k次链路维护后给予候选邻居节点的链接变动得分。
s3.设计衡量每次链接变动得分时间有效性的表达式,该表达式的值与衰减周期设置、遗忘系数设置和每个得分对应的周期序号有关。
s4.基于全部链接变动得分以及每次得分的时间有效性,形成主体节点给予候选邻居节点的累积链接变动得分clc。
ctrt指标的设计过程包括下列步骤:
s1.分别抽取链路维护主体节点和候选邻居节点的不同类型关系节点。以主体节点为例,其不同类型关系节点包括它的邻居节点(但此些节点并不将主体节点作为它们的邻居);以主体节点为邻居的节点(但主体节点并不将它们作为自己的邻居);与主体节点互为邻居的节点。
s2.对主体节点和候选节点的不同类型关系节点集合两两配对求交集,得出相交节点。
s3.计算主体节点与第三方节点(s2步骤得出)、候选节点与第三方节点的不同链接方向的clc指标值;如当前相应的关系模式下,主体节点或其候选邻居节点与第三方节点之间的某一方向有向边不存在,则对应的clc值为0。
s4.主体节点与第三方节点、候选节点与第三方节点的不同链接方向的clc相加,最终形成指标ctrt。
基于邻居的网络拓扑类指标适用于分布式的有向动态网络,本发明的优点在于关注了节点间链接关系的动态序列变化信息和变动时间有效性,表征了网络的演化事实,且考虑了节点间的多种有向关系类型对链路预测的作用,最终提出的clc指标和ctrt指标可提高节点间链路预测的准确性。
附图说明
图1为分布式节点预测其与其它节点之间链路的建立和断开。
图2为节点间的有向边关系类型示例。
图3为clc指标和ctrt指标的设计过程。
图4为九种基本的三联关系类型。
具体实施方式
下面结合附图对本发明作进一步说明,构成本发明的一部分。所应理解的是,此处所述仅为本发明的具体实施个例,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内所做的任何等同替换或改进等,均应包含在本发明的保护范围之内。
如图1所示,本发明实施例提供的两种基于邻居的网络拓扑类有向链路预测指标,适用于预测网络中每个分布式节点之间有向链接关系的建立或消减,即预测现在未存在但未来可能新产生的链接,即预测未来是否建立链接;或预测现在存在但未来可能断开的链接,即预测未来是否断开链接。
如图2所示,网络中每一个节点的有向边分为out和in两种关系类型,分别表示某一节点ui建立的邻居关系类型、ui被对方节点作为邻居的关系类型。
在分布式网络中,以任一节点ui为中心,其自主划定位置或范围(在机会网络或无线自组织网络中,一般指物理位置相近;在计算机对等网络中,一般指位于一个子系统或局域网中)内的每一个节点为ui对外建立链路的候选邻居;ui全部的候选邻居构成了其候选邻居集cnbout(ui);ui可利用链路预测模型,在cnbout(ui)内选出若干个节点作为其邻居,而这些邻居构成了其邻居集nbout(ui)。基于该定义,设计适用于分布式有向网络的两种基于邻居的网络拓扑类有向链路预测指标:clc和ctrt。
如图3所示,clc指标设计过程如下:
步骤1:clc(ui,ui,)与ui每次链路维护时和候选邻居ui′的链接关系变化有关。根据节点间每次链路维护时不同的链接关系变化,设置不同的得分。具体分为以下三种:
(1.1)链接保持奖励:ui如在其第k个周期结束重新对邻居链路进行维护后,与其第k个周期的邻居ui′仍然保持邻居关系,则ui给予ui'链接保持奖励分r(ui,ui',k),r(ui,ui′,k)>0;
(1.2)链接开拓奖励:ui如在其第k个周期结束重新对链路进行维护后,与不属于自身第k个周期邻居的候选节点ui′建立邻居关系,则ui给予ui′链接开拓奖励分d(ui,ui′,k),d(ui,ui′,k)>0;
(1.3)链接断开惩罚:ui如在其第k个周期结束重新对链路进行维护后,与其第k个周期的邻居ui′断开链接,则ui给予ui′链接断开惩罚分b(ui,ui′,k),b(ui,ui′,k)<0。
步骤2:基于步骤1设置,ui第k次链路维护后给予ui′的链接变动得分m(ui,ui′,k)为:
步骤3:每次链接变动对应的得分具有时间有效性,因此设计得分有效性计算公式,如下:
其中ω代表衰减周期数;
步骤4:采用既考虑全部链接变动得分、又考虑每次得分时间有效性的方法,形成ui给予ui′的累积链接变动得分clc(ui,ui′):
其中,m(ui,ui′,k)表示ui给予ui′的所有链路变动得分的集合;k为产生每个m(ui,ui′,k)的任务周期序号所构成的集合。
ctrt指标设计过程如下:
如图4所示,在有向网络中,链路预测节点对中的每一个节点与第三方的有向关系构成了9种基本的三联关系类型(trt,triadrelationshiptype)。每一种模式都可衡量两个节点之间的相似性,但效果却不尽相同。一般情况下,图4(i)意味着第三方z与a或b的功能互补性更强,联系更紧密,因此我们可以认为a或b之间的相似度较其它关系模式下的更高。由此可见,只依靠一种或几种关系模型,会遗漏很多相似性衡量途径,进而影响链路预测结果。因此将考虑多种三联关系类型,并基于clc,设计链路预测指标ctrt。具体步骤如下:
步骤1:分别抽取ui和ui′的不同类型关系节点:
nb(ui)={nb′out(ui),nb′in(ui),nb′out∧in(ui)}
nb(ui′)={nb′out(ui′),nb′in(ui′),nb′out∧in(ui′)}
其中,nb′out(ui)表示ui的邻居节点,且此些节点并不将ui作为它们的邻居;nb′in(ui)表示以ui为邻居的节点,且ui并不将它们作为自己的邻居;nb′out∧in(ui)表示与ui互为邻居的节点。
步骤2:对主体节点和候选节点的不同类型关系节点集合两两配对求交集,得出相交节点。
r1,r2∈{out,in,out∧in},对应
步骤3:计算主体节点与步骤2得出的第三方节点、候选节点与第三方节点的不同链接方向的clc指标值clc(ui,z)、clc(z,ui)、clc(ui′,z)和clc(z,ui′);如当前相应的关系模式下,主体节点或其候选邻居节点与第三方节点之间的某一方向有向边不存在,则对应的clc值为0。
步骤4:主体节点与第三方节点、候选节点与第三方节点的不同链接方向的clc相加,最终形成指标ctrt。
本发明基于节点间的链接状态变动历史和变动时间,提出了clc指标;考虑到节点间的多种有向关系类型对链路预测的作用,提出了ctrt指标。两种指标适用于具有多个节点的分布式大规模网络的有向链路预测问题。
上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
1.两种基于邻居的网络拓扑类有向链路预测指标(1),其特征在于抓住网络节点间的链接行为历史信息、节点直接关系网的有向拓扑关系结构和关系建立的时间信息,提出累积链接变动得分(clc,cumulativelinkchangescore)链路预测指标(11);此外,考虑链路预测节点对中的每一个节点与第三方节点构成的9种基本的有向三联关系类型(trt,triadrelationshiptype),并基于clc,提出指标ctrt(12)。
2.根据权利要求1所述的clc指标(11),其特征在于clc与主体节点每次链路维护时和候选邻居的链接关系变化有关,根据节点间每次链路维护时不同的链接关系变化,设置不同的链接变动得分,具体分为:链接保持奖励(111)、链接开拓奖励(112)和链接断开惩罚(113);此外,每次链接变动对应的得分具有时间有效性,于是,采用既考虑全部链接变动得分、又考虑每次得分时间有效性的方法(114),形成主体节点给予链接候选节点的累积链接变动得分clc。
3.根据权利要求1所述的ctrt指标(12),其特征在于链路预测节点对中的每一个节点与第三方的有向关系构成了9种基本的三联关系类型,每一种模式都可衡量两个节点之间的相似性,但效果却不尽相同,因此,在计算ctrt指标值前,首先将分别抽取主体节点和候选节点的不同类型关系节点(121),然后计算主体节点与第三方节点、候选节点与第三方节点的不同链接方向的clc指标值(122),最终得出ctrt。
技术总结