本申请涉及互联网技术领域,特别涉及一种跨设备的用户识别方法及装置、电子设备、计算机可读存储介质。
背景技术:
随着手机、平板电脑、电脑等智能设备的广泛应用,当人们在不同的智能设备中来回切换时,识别这些设备的用户是否是同一用户,能够给用户提供更加精准的个性化推荐,又能提高在线广告的营销价值,同时也提升了用户体验。
目前传统的方法是利用确定性特征(例如身份证号、电话号码、邮箱等)来识别用户,出于隐私和安全因素的考虑,这些确定性特征很难获得,因此给跨设备识别用户带来了很大的困难和挑战。
技术实现要素:
本申请实施例的目的在于提供一种跨设备的用户识别方法,用以识别归属于同一用户的设备。
本申请实施例提供了一种跨设备的用户识别方法,包括:
获取同一联网地址下相同时间窗口内的多个账户标识以及多个设备标识;
将所述多个账户标识和多个设备标识进行组合,得到多个候选配对;
将所述候选配对的静态特征和动态特征作为已构建判别模型的输入,获得所述判别模型输出的所述候选配对的识别结果;
根据所述候选配对的识别结果,筛选出属于同一用户的账户标识和设备标识。
在一实施例中,所述获取同一联网地址下相同时间窗口内的多个账户标识以及多个设备标识之前,所述方法还包括:
根据不同联网地址下的账户标识数量和设备标识数量,筛选出所述账户标识数量和所述设备标识数量少于阈值的联网地址。
在一实施例中,所述将所述多个账户标识和多个设备标识进行组合,得到多个候选配对,包括:
将所述多个账户标识和所述多个设备标识进行笛卡尔积组合,得到多个包含所述账户标识和所述设备标识的候选配对。
在一实施例中,在将所述多个账户标识和多个设备标识进行组合,得到多个候选配对之后,所述方法包括:
根据所述候选配对中账户标识的机器信息以及设备标识的设备信息,剔除所述机器信息与所述设备信息不一致的候选配对。
在一实施例中,在将所述候选配对的静态特征和动态特征作为已构建判别模型的输入,获得所述判别模型输出的所述候选配对的识别结果之前,所述方法还包括:
获取已知识别结果的正负样本的静态特征和动态特征;
利用所述正负样本的静态特征和动态特征进行训练,构建所述判别模型。
在一实施例中,利用所述正负样本的静态特征和动态特征进行训练,构建所述判别模型之后,所述方法还包括:
利用所述判别模型计算所述正负样本中每个样本为正样本的预测分数;
剔除所述正负样本中所述预测分数小于分数阈值的负样本;
利用余下的负样本和正样本重新构建所述判别模型。
在一实施例中,将所述候选配对的静态特征和动态特征作为已构建判别模型的输入,获得所述判别模型输出的所述候选配对的识别结果,包括:
将所述候选配对的静态特征和动态特征作为已构建判别模型的输入,获得所述判别模型输出的所述候选配对为同一用户的概率值;
若所述概率值大于概率阈值,确定所述候选配对包含的账户标识和设备标识为同一用户。
本申请实施例还提供了一种跨设备的用户识别装置,包括:
标识获取模块,用于获取同一联网地址下相同时间窗口内的多个账户标识以及多个设备标识;
组合配对模块,用于将所述多个账户标识和多个设备标识进行组合,得到多个候选配对;
结果识别模块,用于将所述候选配对的静态特征和动态特征作为已构建判别模型的输入,获得所述判别模型输出的所述候选配对的识别结果;
用户筛选模块,用于根据所述候选配对的识别结果,筛选出属于同一用户的账户标识和设备标识。
本申请实施例提供了一种电子设备,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行上述跨设备的用户识别方法。
本申请实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述跨设备的用户识别方法。
本申请实施例提供的技术方案,基于时间窗口和联网地址生成包含账户标识和设备标识的候选配对,并基于候选配对的静态特征和动态特征识别候选配对是否是同一用户,基于每个候选配对的识别结果确定所有属于同一用户的设备和账户,由此可以实现跨设备的用户识别,便于后续用户个性化信息的推荐。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍。
图1为本申请实施例提供的跨设备的用户识别方法的应用场景示意图;
图2为本申请实施例提供的跨设备的用户识别方法的流程示意图;
图3为本申请实施例提供的时间窗口划分示意图;
图4是本申请实施例提供的判别模型的构建过程示意图;
图5为本申请实施例提供的跨设备的用户识别装置的框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
图1为本申请实施例提供的跨设备的用户识别方法的应用场景示意图。如图1所示,该应用场景包括:服务端110以及多个智能设备120。服务端110可以是服务器、服务器集群或者云计算中心。智能设备120可以是运行应用程序的个人电脑(personalcomputer,pc)、平板电脑、智能手机、个人数字助理(personaldigitalassistant,pda)等。
智能设备120与服务端110之间可以通过无线网络连接。服务端110可以获取智能设备120的账户标识和设备标识,并按照本申请下述实施例提供的跨设备的用户识别方法,识别出哪些设备和账户属于同一用户。
本申请还提供了一种电子设备。该电子设备可以是图1所示的服务端110。如图1所示,服务端110可以包括处理器111;用于存储处理器可执行指令的存储器112;其中,该处理器111被配置为执行本申请实施例提供的跨设备的用户识别方法。
存储器112可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(staticrandomaccessmemory,简称sram),电可擦除可编程只读存储器(electricallyerasableprogrammableread-onlymemory,简称eeprom),可擦除可编程只读存储器(erasableprogrammablereadonlymemory,简称eprom),可编程只读存储器(programmablered-onlymemory,简称prom),只读存储器(read-onlymemory,简称rom),磁存储器,快闪存储器,磁盘或光盘。
本申请还提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序可由处理器111执行以完成本申请提供的跨设备的用户识别方法。
图2为本申请实施例提供的跨设备的用户识别方法的流程示意图。如图2所示,该方法包括以下步骤210-步骤240。
在步骤210中,获取同一联网地址下相同时间窗口内的多个账户标识以及多个设备标识。
其中,联网地址可以是ip地址(internetprotocoladdress,互联网协议地址)。相同时间窗口是指同一时间段。账户标识是指用户注册的用户名和密码。在一实施例中,账户标识可以在openid(以用户为中心的数字身份识别框架)服务网站注册的用户名和密码。设备标识用于区分不同设备,设备标识可以是设备的序列号。
如图3所示,横轴表示时间轴,举例来说,第一个时间窗口31内包括账户标识(openid1)以及设备标识(devid1);第二个时间窗口32内包括账户标识(openid2、openid3)以及设备标识(devid2)。这些账户标识和设备标识属于同一个ip地址。
在一实施例中,在步骤210之前,可以先根据不同联网地址下的账户标识数量和设备标识数量,筛选出账户标识数量和设备标识数量少于阈值的联网地址。
账户标识数量和设备标识数量少于阈值的联网地址可以认为是私密性较强的联网地址。举例来说,阈值可以是10,账户标识数量少于10个,设备标识数量少于10个,账户标识与设备标识的组合少于100个,这些联网地址可以认为是私密性较强的联网地址。当ip地址为公共ip时,该ip下的设备标识数量会较大,例如在办公室和餐馆等公共区域里的ip。而一个用户拥有的设备数是在一定范围的,故可以通过不同ip地址下的账户标识数量和设备标识数量,筛选出私密性强的ip地址,利用该ip地址下的账户标识和设备标识生成候选配对。
在步骤220中,将所述多个账户标识和多个设备标识进行组合,得到多个候选配对。
在一实施例中,可以通过将多个账户标识与多个设备标识进行笛卡尔积组合,得到多个候选配对。
多个账户标识可以认为是第一集合,多个设备标识可以认为是第二集合。举例来说,第一集合包括账户标识a、b、c;第二集合包括设备标识a,b,c,通过对第一集合和第二集合进行笛卡尔积组合,得到的候选配对可以有[a,a]、[b,a]、[c,a]、[a,b]、[b,b]、[c,b]、[a,c]、[b,c]、[c,c]。
在一实施例中,在步骤220之后,本申请实施例提供的方法还包括:根据所述候选配对中账户标识的机器信息以及设备标识的设备信息,剔除所述机器信息与所述设备信息不一致的候选配对。
为进行区分,账户标识对应的智能设备的设备信息,称为机器信息。设备标识对应的智能设备的设备信息,称为设备信息。
如果一个候选配对中,账户标识对应的机器信息和设备标识对应的设备信息不一致,可以认为账户标识与设备标识不属于同一用户的候选配对,为简化后续计算,可以剔除机器信息与设备信息不一致的候选配对。
在步骤230中,将所述候选配对的静态特征和动态特征作为已构建判别模型的输入,获得所述判别模型输出的所述候选配对的识别结果。
其中,静态特征可以包括:操作系统类型是否一致、操作系统版本是否一致、设备机型是否一致、设备品牌是否一致、机型字符串相似度、字符jaccd(杰卡德)距离、重合字母数、屏幕分辨率是否一致等中的一个或多个特征。
动态特征可以包括:ip地址下设备标识数量、ip下账户标识数量、ip下设备标识曝光量、ip下账户标识行为数量、共现次数(在一个ip下同一时间窗口内出现的账户标识和设备标识称为该候选配对的一次“共现”)、共现天数、平均共现次数、平均共现天数、每一时间窗口下平均共现时间差、最小时间差、最大时间差等中的一个或多个特征。
候选配对的识别结果是指候选配对中的账户标识与设备标识是否是同一用户。将候选配对的静态特征和动态特征输入判别模型,判别模型可以输出候选配对中账户标识与设备标识属于同一用户的概率值。在一实施例中,可以设定概率阈值,如果概率值大于概率阈值可以认为是同一用户,从而可以确定每个候选配对中的账户标识与设备标识是否是同一用户。
判别模型可以通过以下方式提前构建,从而在跨设备的用户识别时可以直接利用已构建的判别模型。
举例来说,已知一部分openid(账户标识)和deviceid(设备标识)匹配的样本是同一用户,这批样本可以作为正样本。然后将在正样本中的openid,但是匹配的deviceid不在正样本中的样本标记为负样本。利用正负样本的静态特征和动态特征进行模型训练,构建上述判别模型。
在一实施例中,由于正负样本中负样本的数量较多,可以利用上述判别模型计算正负样本中每个样本为正样本的预测分数,可以拟定一个分数阈值,剔除预测分数低于分数阈值的预负样本。预测分数用于表征样本中账户标识与设备标识属于正样本的可能性。利用余下的负样本和正样本可以重新进行判别模型的训练,将重新建立的判别模型作为步骤230的判别模板。
图4是本申请实施例提供的判别模型的构建过程示意图。如图4所示,载入数据后,可以先对数据进行清洗,筛选出私密性强的ip来生成候选组合(即样本),剔除openid和deviceid的操作系统、设备品牌不一致的样本。之后,可以利用正样本和负样本的特征先进行模型训练,然后利用训练的模型计算每个样本的预测分数,剔除预测分数低于分数阈值的负样本。然后利用剩余的正负样本再次进行训练,并评估模型的准确性。
在步骤240中,根据所述候选配对的识别结果,筛选出属于同一用户的账户标识和设备标识。
针对每个候选配对中账户标识与设备标识是否是同一用户的识别结果,则筛选出所有属于同一用户的账户标识和设备标识。举例来说,假设识别出[a,a]属于同一用户,[b,a]属于同一用户,[c,a]属于同一用户,可以认为账户标识a、b、c与设备标识a、c均属于同一用户。
本申请实施例的主要功能是通过分析多设备型号、设备操作系统等静态特征以及设备登陆时ip信息来挖掘更多有价值的信息,从而达到精准识别用户的目的。能够快速地帮助市场营销人员识别设备的用户而不是设备本身,能够给用户提供更加精准的个性化推荐,又能提高在线广告的营销价值,同时也提升了用户体验。
本申请实施例首先通过分析不同设备的ip信息来作为用户初步筛选,生成用户候选配对的集合。主要思想是不同设备在同一时间同一区域做了类似的事情更有可能是同一用户。基于该思想来作为用户的初步圈定。因此通过一定的时间窗口内,相同ip下,将活跃的openid和deviceid进行匹配来生成候选配对的集合。为了更为精准的识别是否为同一用户,对候选配对挖掘更多信息进行识别,根据候选配对的静态特征和动态特征,利用已构建的判别模型识别候选配对是否是同一用户,进而基于每个候选配对的识别结果,可以确定所有属于同一用户的设备。
图5是本发明一实施例的一种跨设备的用户识别方法的装置示意图。如图5所示,该装置包括:标识获取模块510、组合配对模块520、结果识别模块530以及用户筛选模块540。
标识获取模块510,用于获取同一联网地址下相同时间窗口内的多个账户标识以及多个设备标识。
组合配对模块520,用于将所述多个账户标识和多个设备标识进行组合,得到多个候选配对。
结果识别模块530,用于将所述候选配对的静态特征和动态特征作为已构建判别模型的输入,获得所述判别模型输出的所述候选配对的识别结果。
用户筛选模块540,用于根据所述候选配对的识别结果,筛选出属于同一用户的账户标识和设备标识。
上述装置中各个模块的功能和作用的实现过程具体详见上述跨设备的用户识别方法中对应步骤的实现过程,在此不再赘述。
在一实施例中,上述装置还包括:地址筛选模块,用于根据不同联网地址下的账户标识数量和设备标识数量,筛选出所述账户标识数量和所述设备标识数量少于阈值的联网地址。
在一实施例中,所述组合配对模块520具体用于:将所述多个账户标识和所述多个设备标识进行笛卡尔积组合,得到多个包含所述账户标识和所述设备标识的候选配对。
在一实施例中,上述装置还包括:配对剔除模块,用于根据所述候选配对中账户标识的机器信息以及设备标识的设备信息,剔除所述机器信息与所述设备信息不一致的候选配对。
在一实施例中,上述装置还包括:样本获取模块,用于获取已知识别结果的正负样本的静态特征和动态特征;模型训练模块,用于利用所述正负样本的静态特征和动态特征进行训练,构建所述判别模型。
在一实施例中,上述装置还包括:分数预测模块,用于利用所述判别模型计算所述正负样本中每个样本为正样本的预测分数;样本剔除模块,用于剔除所述正负样本中所述预测分数小于分数阈值的负样本;模型重构模块,用于利用余下的负样本和正样本重新构建所述判别模型。
在一实施例中,结果识别模块530具体用于:将所述候选配对的静态特征和动态特征作为已构建判别模型的输入,获得所述判别模型输出的所述候选配对为同一用户的概率值;若所述概率值大于概率阈值,确定所述候选配对包含的账户标识和设备标识为同一用户。
在本申请所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
1.一种跨设备的用户识别方法,其特征在于,包括:
获取同一联网地址下相同时间窗口内的多个账户标识以及多个设备标识;
将所述多个账户标识和多个设备标识进行组合,得到多个候选配对;
将所述候选配对的静态特征和动态特征作为已构建判别模型的输入,获得所述判别模型输出的所述候选配对的识别结果;
根据所述候选配对的识别结果,筛选出属于同一用户的账户标识和设备标识。
2.根据权利要求1所述的方法,其特征在于,所述获取同一联网地址下相同时间窗口内的多个账户标识以及多个设备标识之前,所述方法还包括:
根据不同联网地址下的账户标识数量和设备标识数量,筛选出所述账户标识数量和所述设备标识数量少于阈值的联网地址。
3.根据权利要求1所述的方法,其特征在于,所述将所述多个账户标识和多个设备标识进行组合,得到多个候选配对,包括:
将所述多个账户标识和所述多个设备标识进行笛卡尔积组合,得到多个包含所述账户标识和所述设备标识的候选配对。
4.根据权利要求1所述的方法,其特征在于,在将所述多个账户标识和多个设备标识进行组合,得到多个候选配对之后,所述方法包括:
根据所述候选配对中账户标识的机器信息以及设备标识的设备信息,剔除所述机器信息与所述设备信息不一致的候选配对。
5.根据权利要求1所述的方法,其特征在于,在将所述候选配对的静态特征和动态特征作为已构建判别模型的输入,获得所述判别模型输出的所述候选配对的识别结果之前,所述方法还包括:
获取已知识别结果的正负样本的静态特征和动态特征;
利用所述正负样本的静态特征和动态特征进行训练,构建所述判别模型。
6.根据权利要求5所述的方法,其特征在于,利用所述正负样本的静态特征和动态特征进行训练,构建所述判别模型之后,所述方法还包括:
利用所述判别模型计算所述正负样本中每个样本为正样本的预测分数;
剔除所述正负样本中所述预测分数小于分数阈值的负样本;
利用余下的负样本和正样本重新构建所述判别模型。
7.根据权利要求1所述的方法,其特征在于,将所述候选配对的静态特征和动态特征作为已构建判别模型的输入,获得所述判别模型输出的所述候选配对的识别结果,包括:
将所述候选配对的静态特征和动态特征作为已构建判别模型的输入,获得所述判别模型输出的所述候选配对为同一用户的概率值;
若所述概率值大于概率阈值,确定所述候选配对包含的账户标识和设备标识为同一用户。
8.一种跨设备的用户识别装置,其特征在于,包括:
标识获取模块,用于获取同一联网地址下相同时间窗口内的多个账户标识以及多个设备标识;
组合配对模块,用于将所述多个账户标识和多个设备标识进行组合,得到多个候选配对;
结果识别模块,用于将所述候选配对的静态特征和动态特征作为已构建判别模型的输入,获得所述判别模型输出的所述候选配对的识别结果;
用户筛选模块,用于根据所述候选配对的识别结果,筛选出属于同一用户的账户标识和设备标识。
9.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为执行权利要求1-7任意一项所述的跨设备的用户识别方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成权利要求1-7任意一项所述的跨设备的用户识别方法。
技术总结