本发明涉及信息处理技术,尤其涉及一种用户终端信息的处理方法。
背景技术:
现有技术中,基于用户标签进行有针对性的业务推广(例如广告、服务等的推广)是一种高效率的业务推广方式,然而,终端用户的已有用户标签通常类型单一,不能较好地体现用户的综合属性(例如已有用户标签包括性别、年龄等,无法体现出用户的性格、爱好等属性),导致在业务推广时,根据现有的用户标签进行业务推广的精准度低。
技术实现要素:
为解决上述技术问题,本发明公开了一种基于移动终端数据获取终端用户画像标签的方法,包括:步骤s100,获取m个终端用户的移动终端数据x1,x2,…,xm,其中xi=[xi1,xi2,…,xin]t为第i个终端用户的移动终端数据,包括n个特征的特征值,所述n个特征包括以下任一项或其任意组合:终端用户的已有画像标签、移动终端在第一时间段t1=[t11,t12]内的app安装情况、app活跃情况、到访位置信息、聚集终端信息;步骤s200,基于x1,x2,…,xm获取所述m个终端用户的第一聚类结果r1,r2,…,rm,其中ri为第i个终端用户的第一聚类结果;步骤s300,根据r1,r2,…,rm获取所述m个终端用户的画像标签s1,s2,…,sm。
附图说明
图1是本发明基于移动终端数据获取终端用户画像标签的方法流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,将结合附图对本发明作进一步地详细描述。这种描述是通过示例而非限制的方式介绍了与本发明的原理相一致的具体实施方式,这些实施方式的描述是足够详细的,以使得本领域技术人员能够实践本发明,在不脱离本发明的范围和精神的情况下可以使用其他实施方式并且可以改变和/或替换各要素的结构。因此,不应当从限制性意义上来理解以下的详细描述。
本发明公开了一种基于移动终端数据获取终端用户画像标签的方法,其中本领域技术人员可以理解,所述移动终端可以为手机、pad等智能终端,且所述移动终端的具体类型不影响本发明的保护范围。
此外,在移动终端中,设置有用于获取所述移动终端状态信息(安装和/或卸载的app、app启动的时间和关闭时间、gps位置、连接的wifi等)的接口,本领域技术人员可以理解,通过调用所述接口可以获取所述移动终端安装和卸载的app、app启动的时间和关闭时间、移动终端的gps位置、以及连接的wifi等。
图1是本发明基于移动终端数据获取终端用户画像标签的方法流程图,如图1所示,该方法包括:
步骤s100,获取m个终端用户的移动终端数据x1,x2,…,xm,其中xi=[xi1,xi2,…,xin]t为第i个终端用户的移动终端数据,包括n个特征的特征值,所述n个特征包括以下任一项或其任意组合:终端用户的已有画像标签、移动终端在第一时间段t1=[t11,t12]内的app安装情况、app活跃情况、到访位置信息、聚集终端信息,t11<t12。
根据本发明,为了使获取的用户标签能更精准地贴近终端用户本身属性,t12-t11的取值范围为[4周,24周],优选为12周。在本发明的一个实施例中,所述画像标签为终端用户的职业类型标签,在本发明的另一个实施例中,所述画像标签为终端用户的性格类型标签。
根据本发明,m≥1,且m的取值尽可能大,以使得获取的m个移动终端数据更全面,进而使得获取的用户画像标签更合理、准确。优选地,m≥100。
根据本发明,所述终端用户的已有画像标签为从现有技术中获取的用户画像标签,例如终端用户的性别、年龄、学历等。且在本发明中,终端用户的已有画像标签的特征值可通过使用预设的标签和标签数值化列表来获得,示例性的,当设定终端用户的已有画像标签仅包括终端用户的性别、年龄、学历三个标签时,对于一个终端用户的已有画像标签“女”、“20岁”、“本科”,且在预设的标签和标签数值化列表中,标签“女”数值化后对应为“1”,标签“20岁”数值化后对应为“2”,标签“本科”数值化后对应为“3”,则该终端用户的已有画像标签的特征值为[1,2,3]t。本领域技术人员可以理解,还可以采用其他预设的编码方式将终端用户的已有画像标签数值化,例如,当采集到的终端用户的已有画像标签为用数值表示的标签,此时,可以直接将所述数值化的已有画像标签作为所述终端用户的已有画像标签的特征值。
根据本发明,所述的app安装情况为移动终端是否安装过预设app。具体的,通过判断预设app中的每一个app的安装时间和所述第一时间段t1的关系来获取所述app安装情况。示例性的,如果所述第一时间段t1包括有微信app(app也可以称为软件或者应用程序)的安装时间,则所述微信app在所述移动终端安装过,如果所述第一时间段t1没有包括所述微信app的安装时间(例如,移动终端从没有下载安装微信,或者,移动终端安装了微信但微信安装的时间没有包括在第一时间段t1内),则所述微信app没有在所述移动终端中安装过。
根据本发明,可以通过获取移动终端的系统日志、应用程序日志等相关日志文件来判断app是否在移动终端安装过,本领域技术人员可以理解,移动终端的日志文件用于记录移动终端发生的事件信息(包括事件类型、事件发生时间等),所述事件例如可以是app安装行为、app卸载行为、或者是移动终端的解屏和锁屏等事情。具体地,在本发明中,首先获取移动终端的相关日志文件,然后判断在所述第一时间段t1内,是否有指定app的安装,如果有,则判定该app在移动终端中安装过,否则没有在移动终端中安装过。根据本发明,所述预设app包括预设的至少一个app。在本发明中,可用“1”表示一个app在移动终端中安装过,“0”表示一个app没有在移动终端中安装过,且本领域技术人员可以理解,用“1”和“0”来表示一个app的安装情况仅为示例性表达,不作为限制本发明保护范围的唯一条件,本领域技术人员可以理解,还可以采用其他预设的编码方式将app在移动终端中安装过和app没有在移动终端中安装过进行数值化,以获取所述app安装情况的特征值。示例性的,当所述预设app包括微信和qq两个时,如果指定用户在所述第一时间段t1内安装过微信而没有安装过qq,则此时,所述app安装情况的特征值为[1,0]t。
根据本发明,所述的app活跃情况至少包括以下任一项:预设app是否活跃过、预设app的运行时间信息。具体地,通过判断预设app中的每一个的启动时间和所述第一时间段t1的关系以获取app活跃情况,当监测到所述预设app中的一个app的启动时间包括在所述第一时间段t1内,则所述一个app活跃过,示例性的,此时可将所述一个app的启动时间包括在所述第一时间段t1内的状态数值化为“1”;当监测到所述预设app中的一个app的启动时间不包括在所述第一时间段t1内,则所述一个app没有活跃过,示例性的,此时可将所述一个app的启动时间不包括在所述第一时间段t1内的状态数值化为“0”。本领域技术人员可以理解,还可以采用其他预设的编码方式将app活跃情况数值化。示例性的,当所述预设app包括微信和qq两个时,如果微信和qq两个app的启动时间均包括在所述第一时间段t1内,则此时,所述app活跃情况的特征值为[1,1]t。
此外,根据本发明的一个实施例,将预设app中的每一个在所述第一时间段t1内的运行时间总和作为app活跃情况的一个元素以获取所述app活跃情况。为了使标签更准确地表示用户属性,在本发明的优选实施例中,将预设app中的每一个分别在第一时间段t1的两个单元时间段内的app运行时间总和作为app活跃情况的两个元素以获取所述app活跃情况。根据本发明,app的活跃时间可采用12小时制进行记录,优选地,app的活跃时间采用24小时制进行记录。示例性的,当所述预设app包括微信和qq,且将所述第一时间段t1划分为[24:00,7:00]、[7:01,23:59]两个单元时间段时,如果微信在t1内有1天在[24:00,7:00]运行了10分钟,在t1内有10天在[7:01,23:59]运行了10分钟,而qq在t1内没有活跃时间,则所述app活跃情况的特征值可以表示为[10,100,0,0]t,即,此时将每个app在两个单元时间段内的活跃时间总和分别作为app活跃情况的特征值中的两个元素。且本领域技术人员可知,还可采用其他预设的编码方案获取所述app活跃情况的特征值。
根据本发明,获取所述到访位置信息包括:
步骤s10,获取移动终端在所述第一时间段t1内的第一原始位置信息ad1,ad2,…,adp,其中adk为所述移动终端的第k个第一原始位置到访信息,1≤k≤p。根据本发明,所述adk至少包括以下任一项:位置信息、采样时间戳。
在本发明中,所述位置信息可以为通过gps获取的poi,还可以是移动终端连接的wifi标识,具体地,可由内置于移动终端中的sdk按照预设时间间隔f获取所述第一原始位置信息ad1,ad2,…,adp,
根据本发明,可根据移动终端的gps或连接的wifi获取该移动终端的第一原始位置信息,当且仅当同时获取到移动终端的gps和连接的wifi时,优选根据连接的wifi获取移动终端的第一原始位置信息,以获取移动终端更准确的位置信息。具体地,在本发明中,所述sdk至少可获取:gps位置和/或连接的wifi、采样时间戳。
步骤s20,根据第一原始位置信息ad1,ad2,…,adp获取第二中间位置信息adr1,adr2,…,adrq及其位置到访次数num1,num2,…,numq,其中numh为adrh在第一原始位置信息ad1,ad2,…,adp中出现的次数,1≤h≤q。根据本发明,将所述第一原始位置信息ad1,ad2,…,adp去重以获取第二中间位置信息adr1,adr2,…,adrq及其位置到访次数num1,num2,…,numq,其中numh为第一原始位置信息ad1,ad2,…,adp中包含的adrh个数。
步骤s30,基于adr1,adr2,…,adrq和num1,num2,…,numq获取所述终端用户的到访位置信息。根据本发明的一个实施例,在所述步骤s30中,如果numh≥第一判断阈值,则所述终端用户的到访位置信息包括adrh,其中通过调整第一判断阈值的取值,可以排除终端用户偶然到访的位置。根据本发明的优选实施例,在所述步骤s30中,如果第一判断阈值≤numh≤第二判断阈值,则所述终端用户的到访位置信息包括adrh,在该优选实施例中,通过调整第一判断阈值和第二判断阈值的取值,可以排除终端用户偶然到访的位置信息,也可以将终端用户的工作场合和家庭场合排除,以获取用户业余时间更倾向的活动场地。根据本发明,第一判断阈值和第二判断阈值可以采用现有技术通常选择使用的阈值(例如行业内通常选择使用的阈值)。具体地,每个终端用户的到访位置信息信息向量可包括位置参考目录中的每个位置在移动终端中的到访信息,其中,所述位置参考目录可以为预先设置的位置参考目录。
根据本发明,获取所述聚集终端信息包括:
步骤s1,获取所述移动终端在第一时间段t1内的原始聚集终端信息te1,te2,…,tev,其中tex和所述移动终端满足第一条件,1≤x≤v。根据本发明,所述第一条件为以下任一项或其任意组合:gps位置距离小于第四判断阈值、连接有相同的wifi。具体地,可根据所述移动终端和其他移动终端采集或上报的gps位置和/或连接的wifi、采样时间戳等判断所述移动终端和其他移动终端是否满足第一条件。
步骤s2,基于所述原始聚集终端信息te1,te2,…,tev获取所述移动终端的汇总聚集终端信息ter1,ter2,…,teru及其聚集次数n1,n2,…,nu,其中ny为其它聚集移动终端tery在所述原始聚集终端信息te1,te2,…,tev中出现的次数,1≤y≤u。根据本发明,将所述原始聚集终端信息te1,te2,…,tev去重以获取汇总聚集终端信息ter1,ter2,…,teru及其聚集次数n1,n2,…,nu,其中ny为te1,te2,…,tev中包含的tery个数。
步骤s3,基于ter1,ter2,…,teru和n1,n2,…,nu获取所述聚集终端信息。根据本发明的一个实施例,将所述ter1,ter2,…,teru和n1,n2,…,nu作为该移动终端的聚集终端信息,在本发明优选的实施例中,如果ny≥第五判断阈值,则所述终端用户的聚集终端信息包括tery。根据本发明,所述聚集终端信息包括以下任一项或其任意组合:其它聚集移动终端id、与其它聚集移动终端的聚集次数等。
步骤s200,基于x1,x2,…,xm获取所述m个终端用户的第一聚类结果r1,r2,…,rm,其中ri为第i个终端用户的第一聚类结果。根据本发明,为了更合理地体现终端用户,在一个实施例中,步骤s200采用knn方法来获取r1,r2,…,rm,在本发明优选的实施例中,步骤s200还可以采用以下方法来获取r1,r2,…,rm:首先,设置目标函数
步骤s300,根据r1,r2,…,rm获取所述m个终端用户的画像标签s1,s2,…,sm。根据本发明的一个实施例,采用k-means方法获取终端用户的画像标签s1,s2,…,sm,根据本发明的另一个实施例,采用无监督聚类的dbscan密度聚类方法来获取终端用户的画像标签s1,s2,…,sm,具体地,dbscan可根据输入的r1,r2,…,rm输出每个ri所属的簇,且当判断ri属于“1”簇时,则第i个终端用户的画像标签s1=1。
综合上述内容可知,本发明结合已有的终端用户画像标签,并根据终端用户在特定时间段内获取的移动终端数据,采用合理的分类方法,可有效对无法确定的用户特性和/或属性进行分类,使获取的用户画像标签更能全面地体现终端用户的特性,提高了服务等的推广效率。
在本发明的一个实施例中,本发明还公开了一种基于移动终端数据获取终端用户画像标签的服务器,包括处理器和存储有计算机程序的存储器,所述处理器执行所述计算机程序以实现所述步骤s100-s300和/或其他数据处理过程,以利用服务器的资源优势和计算优势。
此外,根据公开的本发明的说明书,本发明的其他实现对于本领域的技术人员是明显的。实施方式和/或实施方式的各个方面可以单独或者以任何组合用于本发明的系统和方法中。说明书和其中的示例应该是仅仅看作示例性,本发明的实际范围和精神由所附权利要求书表示。
1.一种基于移动终端数据获取终端用户画像标签的方法,其特征在于,包括:
步骤s100,获取m个终端用户的移动终端数据x1,x2,…,xm,其中xi=[xi1,xi2,…,xin]t为第i个终端用户的移动终端数据,包括n个特征的特征值,所述n个特征包括以下任一项或其任意组合:终端用户的已有画像标签、移动终端在第一时间段t1=[t11,t12]内的app安装情况、app活跃情况、到访位置信息、聚集终端信息,t11<t12;
步骤s200,基于x1,x2,…,xm获取所述m个终端用户的第一聚类结果r1,r2,…,rm,其中ri为第i个终端用户的第一聚类结果;
步骤s300,根据r1,r2,…,rm获取所述m个终端用户的画像标签s1,s2,…,sm。
2.根据权利要求1所述的获取终端用户画像标签的方法,其特征在于,t12-t11的取值范围为[4周,24周],优选为12周。
3.根据权利要求1所述的获取终端用户画像标签的方法,其特征在于,m≥100。
4.根据权利要求1所述的获取终端用户画像标签的方法,其特征在于,所述app安装情况为移动终端是否安装过预设app。
5.根据权利要求1所述的获取终端用户画像标签的方法,其特征在于,所述app活跃情况至少包括以下任一项:预设app是否活跃过、预设app的运行时间信息。
6.根据权利要求1所述的获取终端用户画像标签的方法,其特征在于,获取所述到访位置信息包括:
步骤s10,获取移动终端在所述第一时间段t1内的第一原始位置信息ad1,ad2,…,adp,其中adk为所述移动终端的第k个第一原始位置到访信息,1≤k≤p;
步骤s20,根据第一原始位置信息ad1,ad2,…,adp获取第二中间位置信息adr1,adr2,…,adrq及其位置到访次数num1,num2,…,numq,其中numh为adrh在第一原始位置信息ad1,ad2,…,adp中出现的次数,1≤h≤q;
步骤s30,基于adr1,adr2,…,adrq和num1,num2,…,numq获取所述终端用户的到访位置信息。
7.根据权利要求6所述的获取终端用户画像标签的方法,其特征在于,在所述步骤s30中,如果第一判断阈值≤numh≤第二判断阈值,则所述终端用户的到访位置信息包括adrh。
8.根据权利要求1所述的获取终端用户画像标签的方法,其特征在于,获取所述聚集终端信息包括:
步骤s1,获取所述移动终端在第一时间段t1内的原始聚集终端信息te1,te2,…,tev,其中tex和所述移动终端满足第一条件,1≤x≤v;
步骤s2,基于所述原始聚集终端信息te1,te2,…,tev获取所述移动终端的汇总聚集终端信息ter1,ter2,…,teru及其聚集次数n1,n2,…,nu,其中ny为其它聚集移动终端tery在原始聚集终端信息te1,te2,…,tev中出现的次数,1≤y≤u;
步骤s3,基于ter1,ter2,…,teru和n1,n2,…,nu获取所述聚集终端信息。
9.根据权利要求1所述的获取终端用户画像标签的方法,其特征在于,所述聚集终端信息包括以下任一项或其任意组合:其它聚集移动终端id、与其它聚集移动终端的聚集次数。
10.根据权利要求9所述的获取终端用户画像标签的方法,其特征在于,所述第一条件为以下任一项或其任意组合:gps位置距离小于第四判断阈值、连接有相同的wi-fi。
技术总结