本发明实施例涉及大数据技术领域,尤其涉及一种亲密联系人和频繁活跃区域识别的方法及装置。
背景技术:
目前主要的亲密联系人识别方案有以下几种:1.将模型进行分层:针对收集的第一模型样本进行初始建模,以形成初始亲密度模型;对所述初始亲密度模型进行变量检验,剔除所述第一模型样本中的无效变量,并在所述第一模型样本中增加新的联系变量、或从联系变量中衍生出的衍生变量,形成第二模型样本;针对所述第二模型样本进行再建模,以形成再建亲密度模型,并对所述再建亲密度模型进行评估,及打分,获取亲密度分值,根据亲密度分值判定出用户与联系人间亲密度。2.获取在一预设时间段内用户与所有联系人的通信记录;根据所述通信记录,得到所述用户与每一位联系人的关系值;根据所述用户与每一位联系人的关系值,对所述联系人进行排序;在第一模式下,根据所述排序,显示所述联系人。
通过将亲密人模型进行分层,依次形成第一模型样本,第二模型样本,最终模型输出包含三个阶段,每个阶段都相互关联,如果第一阶段有大量误判,会导致后续整个输出结果的误判;通过获取在一预设时间段内用户与所有联系人的通信记录建立亲密人模型,模型粒度较粗,识别精度难以保证。
技术实现要素:
本发明实施例提供一种亲密联系人和频繁活跃区域识别的方法及装置,用以有效减少亲密联系人识别的误判,提升模型识别精度。
本发明实施例提供的一种亲密联系人和频繁活跃区域识别的方法,包括:
获取用户的短信信令数据、通话信令数据和位置更新信令数据;
分别根据所述短信信令数据、所述通话信令数据和所述位置更新信令数据提取所述用户的短信行为特征、通话行为特征和用户位置特征;
根据所述用户的联系人分类、短信行为特征、通话行为特征以及预设的评分规则,确定所述用户的亲密联系人;
根据所述用户的用户位置特征和通话行为特征,确定所述用户的频繁活跃区域。
可选的,所述根据所述用户的联系人分类、短信行为特征、通话行为特征以及预设的评分规则,确定所述用户的亲密联系人,包括:
根据所述用户的联系人分类,对每个联系人的所述短信行为特征和所述通信行为特征按照预设的评分规则进行的打分,得到联系人亲密度的分数;
在将所述用户的联系人亲密度的分数汇总后,进行标准化处理,得到所述用户的每个联系人的亲密度值;
根据所述每个联系人的亲密度值和用户与每个联系人的通话时段分布和短信时段分布,将亲密度值大于第一阈值且通话时段和短信时段在第一时段范围内的联系人确定为所述用户的亲密联系人。
可选的,所述在将所述用户的联系人亲密度的分数汇总后,进行标准化处理,得到所述用户的每个联系人的亲密度值,包括:
在将所述用户的联系人亲密度的分数汇总后,对每个联系人的联系人亲密度的得分进行归一化处理,得到所述用户的每个联系人的亲密度值。
可选的,所述根据所述用户的用户位置特征和通话行为特征,确定所述用户的频繁活跃区域,包括:
根据所述通话行为特征中的通话时间和所述用户位置特征的小区的地区区域码,确定所述用户的居住地为所述用户的频繁活动区域;
根据所述用户位置特征,统计所述用户在第二时段内出行在各个位置上的累计时长,将累计时长大于第二阈值的位置确定为所述用户的频繁活动区域。
可选的,所述短信行为特征包括如下特征之一或任意组合:本机号码、对方号码、所在城市、对方所在城市、短信发送时间、事件类型、短信长度;
所述通话行为特征包括如下特征之一或任意组合:本机号码、对方号码所在城市、对方所在城市、通话开始时间、事件类型、通话时长;
所述用户位置特征包括如下特征之一或任意组合:本机号码、所在小区的地区区域码、信令事件类型、所在城市、信令开始时间。
相应的,本发明实施例还提供了一种亲密联系人和频繁活跃区域识别的装置,包括:
获取模块,用于获取用户的短信信令数据、通话信令数据和位置更新信令数据;
处理模块,用于分别根据所述短信信令数据、所述通话信令数据和所述位置更新信令数据提取所述用户的短信行为特征、通话行为特征和用户位置特征;
识别模块,用于根据所述用户的联系人分类、短信行为特征、通话行为特征以及预设的评分规则,确定所述用户的亲密联系人;以及根据所述用户的用户位置特征和通话行为特征,确定所述用户的频繁活跃区域。
可选的,所述识别模块具体用于:
根据所述用户的联系人分类,对每个联系人的所述短信行为特征和所述通信行为特征按照预设的评分规则进行的打分,得到联系人亲密度的分数;
在将所述用户的联系人亲密度的分数汇总后,进行标准化处理,得到所述用户的每个联系人的亲密度值;
根据所述每个联系人的亲密度值和用户与每个联系人的通话时段分布和短信时段分布,将亲密度值大于第一阈值且通话时段和短信时段在第一时段范围内的联系人确定为所述用户的亲密联系人。
可选的,所述识别模块具体用于:
在将所述用户的联系人亲密度的分数汇总后,对每个联系人的联系人亲密度的得分进行归一化处理,得到所述用户的每个联系人的亲密度值。
可选的,所述识别模块具体用于:
根据所述通话行为特征中的通话时间和所述用户位置特征的小区的地区区域码,确定所述用户的居住地为所述用户的频繁活动区域;
根据所述用户位置特征,统计所述用户在第二时段内出行在各个位置上的累计时长,将累计时长大于第二阈值的位置确定为所述用户的频繁活动区域。
可选的,所述短信行为特征包括如下特征之一或任意组合:本机号码、对方号码、所在城市、对方所在城市、短信发送时间、事件类型、短信长度;
所述通话行为特征包括如下特征之一或任意组合:本机号码、对方号码所在城市、对方所在城市、通话开始时间、事件类型、通话时长;
所述用户位置特征包括如下特征之一或任意组合:本机号码、所在小区的地区区域码、信令事件类型、所在城市、信令开始时间。
相应的,本发明实施例还提供了一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述亲密联系人和频繁活跃区域识别的方法。
相应的,本发明实施例还提供了一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行上述亲密联系人和频繁活跃区域识别的方法。
本发明实施例表明,获取用户的短信信令数据、通话信令数据和位置更新信令数据,分别根据短信信令数据、通话信令数据和位置更新信令数据提取用户的短信行为特征、通话行为特征和用户位置特征,根据用户的联系人分类、短信行为特征、通话行为特征以及预设的评分规则,确定用户的亲密联系人,根据用户的用户位置特征和通话行为特征,确定用户的频繁活跃区域。由于在确定亲密联系人和频繁活跃区域时,使用的特征来源于多个维度,可以有效减少识别的误判,提升识别模型的识别精度。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种系统架构的示意图;
图2为本发明实施例提供的一种亲密联系人和频繁活跃区域识别的方法的流程示意图;
图3为本发明实施例提供的一种短信行为特征的示意图;
图4为本发明实施例提供的一种通话行为特征的示意图;
图5为本发明实施例提供的一种用户位置特征的示意图;
图6为本发明实施例提供的一种用户亲密度值分布的示意图;
图7为本发明实施例提供的一种通话时段分布的示意图;
图8为本发明实施例提供的一种居住地模型距离分布的示意图;
图9为本发明实施例提供的一种工作地模型距离分布的示意图;
图10为本发明实施例提供的一种亲密联系人和频繁活跃区域识别的装置的结构示意图。
具体实施方式
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。
图1示例性的示出了本发明实施例所适用的一种系统架构,该系统架构可以为服务器100,包括处理器110、通信接口120和存储器130。
其中,通信接口120用于与终端设备进行通信,收发该终端设备传输的信息,实现通信。
处理器110是服务器100的控制中心,利用各种接口和线路连接整个服务器100的各个部分,通过运行或执行存储在存储器130内的软件程序/或模块,以及调用存储在存储器130内的数据,执行服务器100的各种功能和处理数据。可选地,处理器110可以包括一个或多个处理单元。
存储器130可用于存储软件程序以及模块,处理器110通过运行存储在存储器130的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器130可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据业务处理所创建的数据等。此外,存储器130可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
需要说明的是,上述图1所示的结构仅是一种示例,本发明实施例对此不做限定。
基于上述描述,图2示例性的示出了本发明实施例提供的一种亲密联系人和频繁活跃区域识别的方法的流程,该流程可以由亲密联系人和频繁活跃区域识别的装置执行,例如上述服务器。
如图2所示,该流程具体步骤包括:
步骤201,获取用户的短信信令数据、通话信令数据和位置更新信令数据。
可以周期性的获取用户的原始信令数据,例如可以按月粒度获取,按周粒度获取或按季度粒度获取。
步骤202,分别根据所述短信信令数据、所述通话信令数据和所述位置更新信令数据提取所述用户的短信行为特征、通话行为特征和用户位置特征。
在得到信令数据之后,就可以根据信令数据提取特征,例如可以按月粒度从短信信令数据中提取短信行为特征,该短信行为特征可以包括如下特征之一或任意组合:本机号码、对方号码、所在城市、对方所在城市、短信发送时间、事件类型(用来标注主机号码是发送方还是接收方)、短信长度,具体如图3所示。可以按月粒度从通话信令数据中提取通话行为特征,该通话行为特征可以包括如下特征之一或任意组合:本机号码、对方号码所在城市、对方所在城市、通话开始时间、事件类型(用来标注主机号码是主叫方还是被叫方)、通话时长,具体如图4所示。可以按月粒度从位置更新信令数据中提取用户位置特征,该用户位置特征可以包括如下特征之一或任意组合:本机号码、所在小区的地区区域码、信令事件类型、所在城市、信令开始时间,具体如图5所示。
步骤203,根据所述用户的联系人分类、短信行为特征、通话行为特征以及预设的评分规则,确定所述用户的亲密联系人。
具体的,首先根据所述用户的联系人分类,对每个联系人的所述短信行为特征和所述通信行为特征按照预设的评分规则进行的打分,得到联系人亲密度的分数,然后在将所述用户的联系人亲密度的分数汇总后,进行标准化处理,得到所述用户的每个联系人的亲密度值,最后根据所述每个联系人的亲密度值和用户与每个联系人的通话时段分布和短信时段分布,将亲密度值大于第一阈值且通话时段和短信时段在第一时段范围内的联系人确定为所述用户的亲密联系人。其中,第一阈值和第一时段范围可以依据经验设置。
在将总分数进行标准化处理时,可以为:在将所述用户的联系人亲密度的分数汇总后,对每个联系人的联系人亲密度的得分进行归一化处理,得到所述用户的每个联系人的亲密度值。
上述预设的评估规则可以依据经验设置,举例来说,根据联系人分类,并将提取的短信和通话特征相融合,建立如表1所示的联系人亲密程度模型,并按照表示中的打分规则换算的分数后汇总,标准化后进行排名。
表1
然后使用公式(1)对累加的score值进行标准化,将亲密度缩放到[0,1]范围内,也就是将score值进行归一化处理。
其中x代表上表score,minvalue代表score的最小值,maxvalue代表score最大值。
图6示例性的示出了一亲密度联系人识别模型的亲密度分布,其是对1948个用户进行采样,观察用户亲密度值分布。
1948个用户的基本通信信息统计结果如下:
呼叫次数为27500次,占总通信记录次数的27.50%,其中呼出次数为11317次,占总通信记录次数的11.32%,呼入次数为12718次,占总通信次数的12.72%;短信次数为72500次,占总通信次数的72.50%,其中有效短信次数27189,占总通信次数的27.19%,占短信次数的37.50%。
经过对于用户通信联系城市的合并,最终得到这1948个用户与国内、国际城市地区的亲密度值2916个。
如图6所示,2916个亲密度值的分布,符合统计学分布规律,有理由认为亲密度值大于等于0.7作为亲密联系人的概率远大于亲密度值小于0.7的。
然后再将亲密联系人进行分类,主要分为父母、夫妻、男女朋友、普通朋友、工作关系等五大类,其在短信和通话行为上的特征概括如表2所示。
表2
观察以上1948个用户通话时段分布和短信时段分布,如图7所示。可见,用户的通话和短信行为主要发生在9点-22点。
综上,选择亲密度值大于等于0.7,且通话和短信行为多发生在9点-22点(用户通话和短信行为发生在9点-22点次数/用户通话和短信行为发生在23点-8点次数≥7:1)作为最终的亲密联系人。
步骤204,根据所述用户的用户位置特征和通话行为特征,确定所述用户的频繁活跃区域。
具体的,根据所述通话行为特征中的通话时间和所述用户位置特征的小区的地区区域码,确定所述用户的居住地为所述用户的频繁活动区域。根据所述用户位置特征,统计所述用户在第二时段内出行在各个位置上的累计时长,将累计时长大于第二阈值的位置确定为所述用户的频繁活动区域。也就是用户的工作地。
举例来说,根据用户活动区域的不同,主要将频繁活跃区域识别模型细分为用户居住地发现模型和用户工作地发现模型两个子模型。按月粒度从位置更新信令里提取以下特征:主要包含本机号码、号码所在laccell(locationareacodecell,小区地区区域码)、信令事件类型(位置更新)、号码所在城市、信令开始时间。将用户位置特征与上节所提取的用户通话特征相融合,建立频繁活跃区域识别模型。
1)用户居住地发现算法
用户的居住地一般存在以下特征:
特征1:用户的家庭住址往往是用户每天会在相对稳定的时间段内所在的区域。
特征2:通常会是用户花费时间最多的区域。
特征3:用户在家的时段通常是夜间12点-到第二天早上6点的时间段。
对用户在近30天时间内在0-6点时间段内发生通话或者位置更新的laccell进行排序,出现次数最多的laccell认为是用户居住地。
2)用户工作地发现算法
根据用户工作性质,将用户细分为四大类,如表3所示。
表3
通过下面方式来识别用户工作地:
用户分为有固定工作地的用户和没有固定工作地的用户,有固定工作地的用户有规则的行为轨迹。
有的用户白天工作,有的用户晚上工作,有的用户工作日工作,有的用户周末工作。假设90%的用户白天工作,10%的用户晚上工作。同样假设90%的用户工作日工作,10%的用户周末工作。
假设白天工作时段为[9:00,12:00],[14:00,17:00],晚上工作时段为[0:00,6:00];使用公式(2)来计算用户的工作地位于a的可能性:
其中,w表示用户工作日白天时段出现在a的累积时长,x表示用户工作日晚上出现在a的累积时长,y表示用户周末白天出现在a的累积时长,z表示用户周末晚上出现在a的累积时长,f(a)为地点a的可能性的评分,为用户在规定时间段内在该区域最后一条信令减去第一条信令的时间差。
计算时,将所有在某地停留的时间小于1小时的点删除,对过滤后的每一个点根据上述公式(2)计算每个地点的评分,输出分数最大的地点即为用户最可能的工作地点。
为了更好的确定用户的工作地的可能性,还可以通过下述方式进行确定:
首先通过公式(3)计算用户的工作地位于任意地点l的可能性:
其中,f(l)为地点a的可能性的评分,w表示用户工作日白天时段出现在a的累积时长,x表示用户工作日晚上出现在a的累积时长,y表示用户周末白天出现在a的累积时长,z表示用户周末晚上出现在a的累积时长。
为简化计算,令
f(l)=0.72m 0.08n 0.1…………………………(4)
设一个人的上班地点在a,居住地在b,则有公式(5):
若是工作日白天上班,则w>>x有ma→1;同理mb→0,则有公式(6):
若是工作日晚上上班,则w<<x,有ma→0;同理mb→1,则有公式(7):
若是节假日白天上班,则y>>z,有na→1;同理nb→0,则有公式(8):
若是节假日晚上上班,则y<<z,有na→0;同理nb→1,则有公式(9):
由m,n的定义可知公式(10):
下面将对上述模型进行验证,对145个已知居住地和工作地的用户进行模型验证,采用百度地图对模型输出的lac-ci和真实居住地和工作地的lac-ci进行距离计算,得到如图8和图9所示的分布图。从图8中可见,居住地识别模型识别出的居住地与用户真实居住地之间距离3km内的概率为83.7%;从图9中可见,工作地识别模型识别出的工作地与用户真实工作地之间距离3km内的概率为50%。
上述实施例表明,获取用户的短信信令数据、通话信令数据和位置更新信令数据,分别根据短信信令数据、通话信令数据和位置更新信令数据提取用户的短信行为特征、通话行为特征和用户位置特征,根据用户的联系人分类、短信行为特征、通话行为特征以及预设的评分规则,确定用户的亲密联系人,根据用户的用户位置特征和通话行为特征,确定用户的频繁活跃区域。由于在确定亲密联系人和频繁活跃区域时,使用的特征来源于多个维度,可以有效减少识别的误判,提升识别模型的识别精度。
本发明实施例为避免现有技术中存在的不足,提出基于用户信令数据的亲密联系人和频繁活跃区域识别的方案。该方案从信令数据里提取主叫号码的通信行为特征(包括短信行为特征和通话行为特征),然后根据通信行为特征建立亲密联系人识别模型,结合联系人通信时段以此判断用户的亲密联系人;从位置更新数据里提取用户活动位置特征,结合用户的通话行为特征,根据用户活动规律建立频繁活跃区域识别模型,以此判断用户的频繁活跃区域。模型特征来源于多个维度,有效减少误判,提升模型识别精度。
基于相同的技术构思,图10示例性的示出了本发明实施例提供的一种亲密联系人和频繁活跃区域识别的装置,该装置可以执行亲密联系人和频繁活跃区域识别的流程。
如图10所示,该装置可以包括:
获取模块1001,用于获取用户的短信信令数据、通话信令数据和位置更新信令数据;
处理模块1002,用于分别根据所述短信信令数据、所述通话信令数据和所述位置更新信令数据提取所述用户的短信行为特征、通话行为特征和用户位置特征;
识别模块1003,用于根据所述用户的联系人分类、短信行为特征、通话行为特征以及预设的评分规则,确定所述用户的亲密联系人;以及根据所述用户的用户位置特征和通话行为特征,确定所述用户的频繁活跃区域。
可选的,所述识别模块1003具体用于:
根据所述用户的联系人分类,对每个联系人的所述短信行为特征和所述通信行为特征按照预设的评分规则进行的打分,得到联系人亲密度的分数;
在将所述用户的联系人亲密度的分数汇总后,进行标准化处理,得到所述用户的每个联系人的亲密度值;
根据所述每个联系人的亲密度值和用户与每个联系人的通话时段分布和短信时段分布,将亲密度值大于第一阈值且通话时段和短信时段在第一时段范围内的联系人确定为所述用户的亲密联系人。
可选的,所述识别模块1003具体用于:
在将所述用户的联系人亲密度的分数汇总后,对每个联系人的联系人亲密度的得分进行归一化处理,得到所述用户的每个联系人的亲密度值。
可选的,所述识别模块1003具体用于:
根据所述通话行为特征中的通话时间和所述用户位置特征的小区的地区区域码,确定所述用户的居住地为所述用户的频繁活动区域;
根据所述用户位置特征,统计所述用户在第二时段内出行在各个位置上的累计时长,将累计时长大于第二阈值的位置确定为所述用户的频繁活动区域。
可选的,所述短信行为特征包括如下特征之一或任意组合:本机号码、对方号码、所在城市、对方所在城市、短信发送时间、事件类型、短信长度;
所述通话行为特征包括如下特征之一或任意组合:本机号码、对方号码所在城市、对方所在城市、通话开始时间、事件类型、通话时长;
所述用户位置特征包括如下特征之一或任意组合:本机号码、所在小区的地区区域码、信令事件类型、所在城市、信令开始时间。
基于相同的技术构思,本发明实施例还提供了一种计算设备,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行上述亲密联系人和频繁活跃区域识别的方法。
基于相同的技术构思,本发明实施例还提供了一种计算机可读非易失性存储介质,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行上述亲密联系人和频繁活跃区域识别的方法。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
1.一种亲密联系人和频繁活跃区域识别的方法,其特征在于,包括:
获取用户的短信信令数据、通话信令数据和位置更新信令数据;
分别根据所述短信信令数据、所述通话信令数据和所述位置更新信令数据提取所述用户的短信行为特征、通话行为特征和用户位置特征;
根据所述用户的联系人分类、短信行为特征、通话行为特征以及预设的评分规则,确定所述用户的亲密联系人;
根据所述用户的用户位置特征和通话行为特征,确定所述用户的频繁活跃区域。
2.如权利要求1所述的方法,其特征在于,所述根据所述用户的联系人分类、短信行为特征、通话行为特征以及预设的评分规则,确定所述用户的亲密联系人,包括:
根据所述用户的联系人分类,对每个联系人的所述短信行为特征和所述通信行为特征按照预设的评分规则进行的打分,得到联系人亲密度的分数;
在将所述用户的联系人亲密度的分数汇总后,进行标准化处理,得到所述用户的每个联系人的亲密度值;
根据所述每个联系人的亲密度值和用户与每个联系人的通话时段分布和短信时段分布,将亲密度值大于第一阈值且通话时段和短信时段在第一时段范围内的联系人确定为所述用户的亲密联系人。
3.如权利要求2所述的方法,其特征在于,所述在将所述用户的联系人亲密度的分数汇总后,进行标准化处理,得到所述用户的每个联系人的亲密度值,包括:
在将所述用户的联系人亲密度的分数汇总后,对每个联系人的联系人亲密度的得分进行归一化处理,得到所述用户的每个联系人的亲密度值。
4.如权利要求1所述的方法,其特征在于,所述根据所述用户的用户位置特征和通话行为特征,确定所述用户的频繁活跃区域,包括:
根据所述通话行为特征中的通话时间和所述用户位置特征的小区的地区区域码,确定所述用户的居住地为所述用户的频繁活动区域;
根据所述用户位置特征,统计所述用户在第二时段内出行在各个位置上的累计时长,将累计时长大于第二阈值的位置确定为所述用户的频繁活动区域。
5.如权利要求1至4任一项所述的方法,其特征在于,所述短信行为特征包括如下特征之一或任意组合:本机号码、对方号码、所在城市、对方所在城市、短信发送时间、事件类型、短信长度;
所述通话行为特征包括如下特征之一或任意组合:本机号码、对方号码所在城市、对方所在城市、通话开始时间、事件类型、通话时长;
所述用户位置特征包括如下特征之一或任意组合:本机号码、所在小区的地区区域码、信令事件类型、所在城市、信令开始时间。
6.一种亲密联系人和频繁活跃区域识别的装置,其特征在于,包括:
获取模块,用于获取用户的短信信令数据、通话信令数据和位置更新信令数据;
处理模块,用于分别根据所述短信信令数据、所述通话信令数据和所述位置更新信令数据提取所述用户的短信行为特征、通话行为特征和用户位置特征;
识别模块,用于根据所述用户的联系人分类、短信行为特征、通话行为特征以及预设的评分规则,确定所述用户的亲密联系人;以及根据所述用户的用户位置特征和通话行为特征,确定所述用户的频繁活跃区域。
7.如权利要求6所述的装置,其特征在于,所述识别模块具体用于:
根据所述用户的联系人分类,对每个联系人的所述短信行为特征和所述通信行为特征按照预设的评分规则进行的打分,得到联系人亲密度的分数;
在将所述用户的联系人亲密度的分数汇总后,进行标准化处理,得到所述用户的每个联系人的亲密度值;
根据所述每个联系人的亲密度值和用户与每个联系人的通话时段分布和短信时段分布,将亲密度值大于第一阈值且通话时段和短信时段在第一时段范围内的联系人确定为所述用户的亲密联系人。
8.如权利要求7所述的装置,其特征在于,所述识别模块具体用于:
在将所述用户的联系人亲密度的分数汇总后,对每个联系人的联系人亲密度的得分进行归一化处理,得到所述用户的每个联系人的亲密度值。
9.如权利要求6所述的装置,其特征在于,所述识别模块具体用于:
根据所述通话行为特征中的通话时间和所述用户位置特征的小区的地区区域码,确定所述用户的居住地为所述用户的频繁活动区域;
根据所述用户位置特征,统计所述用户在第二时段内出行在各个位置上的累计时长,将累计时长大于第二阈值的位置确定为所述用户的频繁活动区域。
10.如权利要求6至9任一项所述的装置,其特征在于,所述短信行为特征包括如下特征之一或任意组合:本机号码、对方号码、所在城市、对方所在城市、短信发送时间、事件类型、短信长度;
所述通话行为特征包括如下特征之一或任意组合:本机号码、对方号码所在城市、对方所在城市、通话开始时间、事件类型、通话时长;
所述用户位置特征包括如下特征之一或任意组合:本机号码、所在小区的地区区域码、信令事件类型、所在城市、信令开始时间。
11.一种计算设备,其特征在于,包括:
存储器,用于存储程序指令;
处理器,用于调用所述存储器中存储的程序指令,按照获得的程序执行权利要求1至5任一项所述的方法。
12.一种计算机可读非易失性存储介质,其特征在于,包括计算机可读指令,当计算机读取并执行所述计算机可读指令时,使得计算机执行如权利要求1至5任一项所述的方法。
技术总结