本发明涉及大数据业务风控
技术领域:
,特别涉及一种群控设备识别方法、装置、电子设备和存储介质。
背景技术:
:在大数据业务风控
技术领域:
中,为了准确识别灰黑产中大量存在的群控设备。现有技术主要分为两种:第一种:基于设备技术属性的识别方法和基于设备业务行为的识别方法。对于基于设备技术属性的识别方法,其工作原理和工作方式为:首先提取设备的技术属性信息,例如国际移动设备识别码(internationalmobileequipmentidentity,imei),设备指纹(devicefingerprinting)等,然后与合规设备数据库进行比对,如果不在数据库中则认为该设备为非法设备,如果这些设备的ip等信息存在聚集的现象则认为这些设备为群控设备;随着各种改机软件的出现,修改一台设备的技术属性越来越容易,成本越来越低,因此该方法容易被灰黑产绕过从而失去识别能力。第二种:基于设备业务行为的识别方法,其工作原理和工作方式为:首先采集设备的各种业务行为,例如设备发出http请求的次数,设备每日的登录次数等,然后建立机器学习分类模型,对每一个设备输出其为群控设备的频率值。该种方法开发成本较高,需要收集该设备在各个业务场景的动作;建立一个准确率高的机器学习分类模型所需时间较长,从大量的特征中找到少数有效的特征需要耗费大量的时间。技术实现要素:有鉴于此,本申请提供一种群控设备识别方法、装置、电子设备和存储介质,能够提高识别群控设备的效率和准确度。为解决上述技术问题,本申请的技术方案是这样实现的:在一个实施例中,提供了一种群控设备识别方法,所述方法包括:获取待设别设备的应用程序app列表;根据预设app的特征权重确定所述app列表中的app的特征权重;使用所述app列表中的app的特征权重计算待识别设备的特征向量;获取所述待识别设备的特征向量与多个预设群控设备簇的簇中心设备的特征向量的向量相似度中的最小值d1;获取所述待识别设备的特征向量与多个预设非群控设备簇的簇中心设备的特征向量的向量相似度中的最小值d2;使用d1和d2确定所述待识别设备为群控设备的概率。其中,获取所述预设群控设备簇的簇中心设备的特征向量,以及所述预设非群控设备簇的簇中心设备的特征向量,包括:获取多个群控设备的app列表,以及多个非群控设备的app列表;根据多个群控设备,以及多个非群控设备的app列表中的app确定app的特征权重;使用所述群控设备的app列表中的app的特征权重计算所述群控设备的特征向量;基于所述特征向量对所述群控设备进行聚类,获取聚类形成的预设群控设备簇的簇中心设备的特征向量;使用所述非群控设备的app列表中的app的特征权重计算所述非群控设备的特征向量;基于所述特征向量对所述非群控设备进行聚类,并获取聚类形成的预设非群控设备簇的簇中心设备的特征向量。其中,在聚类时使用dbscan算法进行聚类;其中,针对群控设备聚类时,距离阈值参数设置为群控设备两两之间的向量相似度中处于中间数值的向量相似度,最小簇样本阈值设置为群控设备的总数量的第一预设比值;针对非群控设备聚类时,距离阈值参数设置为非群控设备两两之间的向量相似度中处于中间数值的向量相似度,最小簇样本阈值设置为非群控设备的总数量的第二预设比值;其中,第一预设比值与第二预设比值相同或不同。其中,所述根据多个群控设备,以及多个非群控设备的app列表中的app确定app的特征权重,包括:确定群控设备在群控设备和非群控设备中的第一分布频率;确定所述app在群控设备和非群控设备中的第二分布频率;计算所述第一分布频率与所述第二分布频率的差值的绝对值;计算1与差值的绝对值的差值;确定1与差值的绝对值的差值为所述app的特征权重。其中,使用app列表中的app的特征权重计算特征向量,包括:将所述app列表中的app进行编码转换为字符串;并计算出预设位数的hash值;使用所述app的特征权重与所述hash值中的每一位相乘,获得长度为所述预设位数的数值向量;将所述app列表中的app对应的数值向量对应位相加,获得所述app列表对应的长度为预设位数的数值向量;将所述app列表对应的长度为预设位数的数值向量中的每一位元素按照不小于0置1,小于0置0的规则置位,获得所述预设位数的特征向量。其中,所述使用d1和d2确定所述待识别设备为群控设备的概率,包括:计算d1和d2的和;计算d2与所述和的比值;将所述比值确定为所述待识别设备为群控设备的概率。在另一个实施例中,提供了一种群控设备识别装置,所述装置包括:存储单元、第一获取单元、第一确定单元、计算单元、第二获取单元和第二确定单元;所述存储单元,用于存储预设app的特征权重,多个预设群控设备簇的簇中心设备的特征向量,以及多个预设非群控设备簇的簇中心设备的特征向量;所述第一获取单元,用于获取待设别设备的app列表;所述第一确定单元,用于根据所述存储单元存储的预设app的特征权重确定所述第一获取单元获取的app列表中的app的特征权重;所述计算单元,用于使用所述第一确定单元确定的app列表中的app的特征权重计算待识别设备的特征向量;所述第二获取单元,用于获取所述计算单元计算的待识别设备的特征向量与所述存储单元存储的多个预设群控设备簇的簇中心设备的特征向量的向量相似度中的最小值d1;获取所述计算单元计算的待识别设备的特征向量与所述存储单元存储的多个预设非群控设备簇的簇中心设备的特征向量的向量相似度中的最小值d2;所述第二确定单元,用于使用所述第二获取单元获取的d1和d2确定所述待识别设备为群控设备的概率。其中,所述第一获取单元,进一步用于获取多个群控设备的app列表,以及多个非群控设备的app列表;所述第一确定单元,进一步用于根据多个群控设备,以及多个非群控设备的app列表中的app确定app的特征权重;所述计算单元,进一步用于使用所述群控设备的app列表中的app的特征权重计算所述群控设备的特征向量;所述存储单元,进一步用于基于所述特征向量对所述群控设备进行聚类,获取聚类形成的预设群控设备簇的簇中心设备的特征向量并存储;使用所述非群控设备的app列表中的app的特征权重计算所述非群控设备的特征向量;基于所述特征向量对所述非群控设备进行聚类,并获取聚类形成的预设非群控设备簇的簇中心设备的特征向量并存储。所述存储单元,具体用于在聚类时使用dbscan算法进行聚类;其中,针对群控设备聚类时,距离阈值参数设置为群控设备两两之间的向量相似度中处于中间数值的向量相似度,最小簇样本阈值设置为群控设备的总数量的第一预设比值;针对非群控设备聚类时,距离阈值参数设置为非群控设备两两之间的向量相似度中处于中间数值的向量相似度,最小簇样本阈值设置为非群控设备的总数量的第二预设比值;其中,第一预设比值与第二预设比值相同或不同。其中,所述第一确定单元,具体用于确定群控设备在群控设备和非群控设备中的第一分布频率;确定所述app在群控设备和非群控设备中的第二分布频率;计算所述第一分布频率与所述第二分布频率的差值的绝对值;计算1与差值的绝对值的差值;确定1与差值的绝对值的差值为所述app的特征权重。其中,所述计算单元,具体用于使用app列表中的app的特征权重计算特征向量时,包括:将所述app列表中的app进行编码转换为字符串;并计算出预设位数的hash值;使用所述app的特征权重与所述hash值中的每一位相乘,获得长度为所述预设位数的数值向量;将所述app列表中的app对应的数值向量对应位相加,获得所述app列表对应的长度为预设位数的数值向量;将所述app列表对应的长度为预设位数的数值向量中的每一位元素按照不小于0置1,小于0置0的规则置位,获得所述预设位数的特征向量。所述第二确定单元,具体使用d1和d2确定所述待识别设备为群控设备的概率时,包括:计算d1和d2的和;计算d2与所述和的比值;将所述比值确定为所述待识别设备为群控设备的概率。在另一个实施例中,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如所述群控设备识别方法的步骤。在另一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述群控设备识别方法的步骤。由上面的技术方案可见,基于特征向量聚类,进而确定待识别设备与聚类形成的簇的簇中心设备的特征向量的距离来确定待识别设备为群控设备的概率。该方案能够提高识别群控设备的效率和准确度。上述实施例中基于app频率分布的特征权重计算方法能够降低特征的维度,节省存储空间,提高计算速度。一台设备的各个特征经过编码转换之后往往特征数量会达到十万以上,这种量级的数据量不仅内存消耗巨大而且计算时间较长。通过剔除无用的特征保留极少量的有用特征,可以有效地降低内存消耗以及计算时间,最终识别群控设备的准确率不受影响。附图说明为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例中获取预设群控设备簇和预设非群控设备簇的簇中心设备的特征向量的流程示意图;图2为本申请实施例中使用app列表中的app的特征权重计算特征向量的流程示意图;图3为本申请实施例中识别群控设备的流程示意图;图4为本申请实施例中应用于上述技术的装置结构示意图;图5为本发明实施例提供的电子设备的实体结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含。例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其他步骤或单元。下面以具体实施例对本发明的技术方案进行详细说明。下面几个具体实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。本申请实施例中提供一种群控设备识别方法,可以通过pc、服务器等具有数据处理能力的设备来执行此群控设备识别方法。在进行群控设备识别之前,需要先确定多个预设群控设备簇的簇中心设备的特征向量,以及多个预设非群控设备簇的簇中心设备的特征向量,以及预设应用程序(app)的特征权重,下面分别给出具体确定过程:本申请实施例中的特征向量指一个数字字符串,如由0和1组成的字符串向量。参见图1,图1为本申请实施例中获取预设群控设备簇和预设非群控设备簇的簇中心设备的特征向量的流程示意图,具体步骤为:步骤101,获取多个群控设备的app列表,以及多个非群控设备的app列表。在获取app列表时,可以直接获取针对各设备存储的app列表,也可以到各个群控设备和非群控设备上获取,从群控设备和非群控设备上获取app列表时,需要针对不同系统类型的设备使用不同的方式获取,具体如下:对于安卓设备而言,可以通过androidsdk的packagemanager来获取设备的app列表;对于苹果设备而言,在ios11以前我们可以使用lsapplicationworkspace来获取app列表,对于ios11以上的版本,可以根据bundleid检查app是否存在来获取app列表。上述给出了获取app列表的具体实现方式,上述实现方式仅是一种举例,不限于上述实现方式。app列表中app为设备上部署的app,如微信、支付宝、链家、淘宝、京东、贝壳等应用程序。步骤102,根据多个群控设备,以及多个非群控设备的app列表中的app确定app的特征权重。确定任一app的权重的实现,具体如下:第一步、确定群控设备在群控设备和非群控设备中的第一分布频率。第一分布频率为群控设备在所有设备(群控设备和非群控设备)中所占的比值,如n1个群控设备,n2个非群控设备,则第一分布频率p1=n1/(n1 n2);第二步、确定所述app在群控设备和非群控设备中的第二分布频率。即针对一个app,部署该app的设备与所有设备的比值,如n1个群控设备中部署该app的设备有m1个,n2个非群控设备中部署该app的设备有m2个,则第二分布频率p2=(m1 m2)/(n1 n2)。第三步、计算所述第一分布频率与所述第二分布频率的差值的绝对值。第三步计算结果可以为:|p1-p2|。第四步、计算1与差值的绝对值的差值。第四步计算结果可以为1-|p1-p2|。第五步、确定1与差值的绝对值的差值为所述app的特征权重。一app的特征权重为1-|p1-p2|。至此完成app的特征权重的确定。通过上述方式可以计算样本中的所有设备(群控设备和非群控设备)上的app列表中的每个app的特征权重,并记录,以备识别待识别设备时,确定待识别设备的app列表中的app的特征权重。在确定簇中心设备的特征向量的过程中计算出并记录各个app的特征权重。基于app频率分布的特征权重计算方法能够降低特征的维度,节省存储空间,提高计算速度。一台设备的各个特征经过onehot之后往往特征数量会达到十万以上,这种量级的数据量不仅内存消耗巨大而且计算时间较长。通过剔除无用的特征保留极少量的有用特征,可以有效地降低内存消耗以及计算时间,最终识别群控设备的准确率不受影响。步骤103,使用所述群控设备的app列表中的app的特征权重计算所述群控设备的特征向量;基于所述特征向量对所述群控设备进行聚类,获取聚类形成的预设群控设备簇的簇中心设备的特征向量。步骤104,使用所述非群控设备的app列表中的app的特征权重计算所述非群控设备的特征向量;基于所述特征向量对所述非群控设备进行聚类,并获取聚类形成的预设非群控设备簇的簇中心设备的特征向量。步骤103和步骤104在执行时不分先后顺序,也可以同时执行。本申请实施例中使用所述群控设备的app列表中的app的特征权重计算所述群控设备的特征向量;以及使用所述非群控设备的app列表中的app的特征权重计算所述非群控设备的特征向量的过程类似,本申请实施例中给出使用app列表中的app的特征权重计算特征向量的具体实现。参见图2,图2为本申请实施例中使用app列表中的app的特征权重计算特征向量的流程示意图。具体步骤为:步骤201,将所述app列表中的app进行编码转换为字符串;并计算出预设位数的hash值。在对app列表中的每一个app可以通过one-hot方式进行编码,如针对贝壳这一app的one-hot方式编码参见表1,表1为针对贝壳app进行one-hot方式编码所对应的内容。微信支付宝淘宝京东贝壳…链家000010表1如表1所示针对贝壳这一app进行编码时,其对应的码值置为1,其他app对应的码值为0,这里参与编码的app为群控设备和非群控设备涉及到的所有app,也可以为预设的所有app。通过one-hot方式编码后的字符串为“00001…0”,字符串的位数即为app的个数;计算出预设位数的hash值时可以使用md5摘要算法计算,但是不限于该算法;这里的预设位数可以根据实际需要设置,如预设位数取值可以取值为64。步骤202,使用所述app的特征权重与所述hash值中的每一位相乘,获得长度为所述预设位数的数值向量。步骤203,将所述app列表中的app对应的数值向量对应位相加,获得所述app列表对应的长度为预设位数的数值向量。通过步骤202可以计算每个app的长度为预设位数的数值向量,将app列表中的多个app对应的数值向量对应位相加,获得该app列表对应的长度为预设位数的数值向量;如果当前app列表中只有一个app,则步骤202中获得的长度为所述预设位数的数值向量作为所述app列表对应的长度为预设位数的数值向量。步骤204,将所述app列表对应的长度为预设位数的数值向量中的每一位元素按照不小于0置1,小于0置0的规则置位,获得所述预设位数的特征向量。这里的获得的特征向量是由1和0组成的长度为预设位数的字符串。至此获得一个设备(群控设备或非群控设备)的特征向量。在具体实现时可以每次通过上述步骤的执行实现,也可以将所述实现方式封装为一个转码模型文件,获取一个app列表中的app时,调用该转码模型文件直接获取对应的特征向量。在获取设备的特征向量之后,需要针对群控设备和非群控设备进行聚类,在聚类时均可以使用基于密度的聚类算(density-basedspatialclusteringofapplicationswithnoise,dbscan)算法进行聚类;其中,针对群控设备使用dbscan算法进行聚类时,距离阈值参数设置为群控设备两两之间的向量相似度中处于中间数值的向量相似度,最小簇样本阈值设置为群控设备的总数量的第一预设比值;针对群控设备确定中间数值的向量相似度的实现为:获取群控设备两两之间的向量相似度;将获取的多个向量相似度从大到小,或从小到大进行排序;将排序在中间位置的向量相似度确定为中间数值的向量相似度;如果处于中间位置的向量相似度为两个,若处于中间位置的两个向量相似度的值相同,则确定该向量相似度为中间数据的向量相似度;若处于中间位置的两个向量相似度的不同,则按照预设规则选择一个向量相似度,如随机选择一个向量相似度作为中间数值的向量相似度。本申请实施例中根据特征权重所确定的特征向量,例如可以为simhash码、tf特征向量等。向量相似度可以为对应simhash码获得的汉明距离,对于tf特征向量获得的编辑距离(tf-idf)。针对非群控设备使用dbscan算法进行聚类时,距离阈值参数设置为非群控设备两两之间的向量相似度中处于中间数值的向量相似度,最小簇样本阈值设置为非群控设备的总数量的第二预设比值;针对非群控设备确定中间数值的向量相似度的实现为:获取非群控设备两两之间的向量相似度;将获取的多个向量相似度从大到小,或从小到大进行排序;将排序在中间位置的向量相似度确定为中间数值的向量相似度;如果处于中间位置的向量相似度为两个,若处于中间位置的两个向量相似度的值相同,则确定该向量相似度为中间数据的向量相似度;若处于中间位置的两个向量相似度的不同,则按照预设规则选择一个向量相似度,如随机选择一个向量相似度作为中间数值的向量相似度。其中,第一预设比值与第二预设比值可以相同或不同,如第一预设比值和第二预设比值均可设置为1%。基于特征向量对所述群控设备进行dbscan算法聚类后,会聚类形成k1个簇,同时会确定簇中心设备,由于之前对每个群控设备已计算过特征向量,则会获得并记录成k1个簇的簇中心设备的特征向量,记为:{g1,g2,……gk1}。基于特征向量对所述非群控设备进行dbscan算法聚类后,会聚类形成k2个簇,同时会确定簇中心设备,由于之前对每个非群控设备已计算过特征向量,则会获得并记录成k2个簇的簇中心设备的特征向量,记为:{h1,h2,……hk2}。基于特征向量聚类的群控设备识别方法能够减小待匹配特征向量的数量,从而提高识别群控设备的效率。至此,完成识别待识别设备的前期准备工作,下面给出识别群控设备的过程。参见图3,图3为本申请实施例中识别群控设备的流程示意图。具体步骤为:步骤301,获取待设别设备的app列表。可以直接获取待识别设备上存储的app列表,也可以确定待识别设备的软件系统类型确定:若待识别设备为安卓设备,可以通过androidsdk的packagemanager来获取设备的app列表;如待识别设备为苹果设备,在ios11以前我们可以使用lsapplicationworkspace来获取app列表,对于ios11以上的版本,可以根据bundleid检查app是否存在来获取app列表。步骤302,根据预设app的特征权重确定所述app列表中的app的特征权重。本申请实施例中可以预先存储app的特征权重,即预设app的特征权重,获取方式可以通过作为样本的多个群控设备和非群控设备的app列表中的app实现,具体实现方式可以如上文,但不限于上文的实现方式。存储的预设app的特征权重可以为:贝壳:80%;微信:85%、支付宝:80%、链家:86%;淘宝:50%;京东:70%等。针对未存储的app的特征权重,可以看作0来处理,并且可以重新获取样本群控设备和非群控设备去重新获取该app的特征权重。步骤303,使用所述app列表中的app的特征权重计算待识别设备的特征向量。使用app列表中的app的特征权重计算特征向量,包括:将所述app列表中的app进行one-hot编码转换为字符串;并计算出预设位数的hash值;使用所述app的特征权重与所述hash值中的每一位相乘,获得长度为所述预设位数的数值向量;将所述app列表中的app对应的数值向量对应位相加,获得所述app列表对应的长度为预设位数的数值向量;将所述app列表对应的长度为预设位数的数值向量中的每一位元素按照不小于0置1,小于0置0的规则置位,获得所述预设位数的特征向量。在具体实现时可以每次通过上述步骤的执行实现,也可以将所述实现方式封装为一个转码模型文件,获取一个app列表中的app时,调用该转码模型文件直接获取对应的特征向量。步骤304,获取所述待识别设备的特征向量与多个预设群控设备簇的簇中心设备的特征向量的向量相似度中的最小值d1。在具体实现时,使用带识别设备的特征向量分别与k1个簇中心设备的特征向量{g1,g2,……gk1}计算出k1个向量相似度,在这k1个向量相似度中选择一个最小值记为d1。在具体实现时,也可以将步骤304的计算方式封装为一个第一距离模型文件,获取待识别设备的特征向量时,调用所述第一距离模型文件直接获得最小值d1。步骤305,获取所述待识别设备的特征向量与多个预设非群控设备簇的簇中心设备的特征向量的向量相似度中的最小值d2。在具体实现时,使用带识别设备的特征向量分别与k2个簇中心设备的特征向量{h1,h2,……hk2}计算出k2个向量相似度,在这k2个向量相似度中选择一个最小值记为d2。在具体实现时,也可以将步骤305的计算方式封装为一个第二距离模型文件,获取待识别设备的特征向量时,调用所述第二距离模型文件直接获得最小值d2。步骤304和步骤305的执行不分先后顺序,也可以并列执行。步骤306,使用d1和d2确定所述待识别设备为群控设备的概率。本步骤中确定所述待识别设备为群控设备的概率,包括:计算d1和d2的和;即d1 d2计算d2与所述和的比值;即d2/(d1 d2)将所述比值确定为所述待识别设备为群控设备的概率。在具体实现时,还可以将步骤303到步骤306的实现过程封装为一个识别群控设备模型文件,获取待识别设备的app列表中的app的特征权重,调用识别群控设备模型文件,直接获取待识别设备为群控设备的概率;还可以将步骤302到步骤306的实现过程封装为一个识别群控设备模型文件,获取待识别设备的app,调用识别群控设备模型文件,直接获取待识别设备为群控设备的概率等。综上所述,本申请通过基于特征向量聚类,进而确定待识别设备与聚类形成的簇的簇中心设备的特征向量的距离来确定待识别设备为群控设备的概率。该方案能够提高识别群控设备的效率和准确度。基于同样的发明构思,本申请实施例中提供一种群控设备识别装置。参见图4,图4为本申请实施例中应用于上述技术的装置结构示意图。所述装置包括:存储单元401、第一获取单元402、第一确定单元403、计算单元404、第二获取单元405和第二确定单元406;存储单元401,用于存储预设app的特征权重,多个预设群控设备簇的簇中心设备的特征向量,以及多个预设非群控设备簇的簇中心设备的特征向量;第一获取单元402,用于获取待设别设备的app列表;第一确定单元403,用于根据存储单元401存储的预设app的特征权重确定第一获取单元402获取的app列表中的app的特征权重;计算单元404,用于使用第一确定单元403确定的app列表中的app的特征权重计算待识别设备的特征向量;第二获取单元405,用于获取计算单元404计算的待识别设备的特征向量与存储单元401存储的多个预设群控设备簇的簇中心设备的特征向量的向量相似度中的最小值d1;获取计算单元404计算的待识别设备的特征向量与存储单元401存储的多个预设非群控设备簇的簇中心设备的特征向量的向量相似度中的最小值d2;第二确定单元406,用于使用第二获取单元405获取的d1和d2确定所述待识别设备为群控设备的概率。优选地,第一获取单元402,进一步用于获取多个群控设备的app列表,以及多个非群控设备的app列表;第一确定单元403,进一步用于根据多个群控设备,以及多个非群控设备的app列表中的app确定app的特征权重;计算单元404,进一步用于使用所述群控设备的app列表中的app的特征权重计算所述群控设备的特征向量;使用所述非群控设备的app列表中的app的特征权重计算所述非群控设备的特征向量;存储单元401,进一步用于基于所述特征向量对所述群控设备进行聚类,获取聚类形成的预设群控设备簇的簇中心设备的特征向量并存储;基于所述特征向量对所述非群控设备进行聚类,并获取聚类形成的预设非群控设备簇的簇中心设备的特征向量并存储。优选地,存储单元401,具体用于在聚类时使用dbscan算法进行聚类;针对群控设备聚类时,距离阈值参数设置为群控设备两两之间的向量相似度中处于中间数值的向量相似度,最小簇样本阈值设置为群控设备的总数量的第一预设比值;针对非群控设备聚类时,距离阈值参数设置为非群控设备两两之间的向量相似度中处于中间数值的向量相似度,最小簇样本阈值设置为非群控设备的总数量的第二预设比值;其中,第一预设比值与第二预设比值相同或不同。其中,第一确定单元403,具体用于确定群控设备在群控设备和非群控设备中的第一分布频率;确定所述app在群控设备和非群控设备中的第二分布频率;计算所述第一分布频率与所述第二分布频率的差值的绝对值;计算1与差值的绝对值的差值;确定1与差值的绝对值的差值为所述app的特征权重。优选地,计算单元404,具体用于使用app列表中的app的特征权重计算特征向量时,包括:将所述app列表中的app进行编码转换为字符串;并计算出预设位数的hash值;使用所述app的特征权重与所述hash值中的每一位相乘,获得长度为所述预设位数的数值向量;将所述app列表中的app对应的数值向量对应位相加,获得所述app列表对应的长度为预设位数的数值向量;将所述app列表对应的长度为预设位数的数值向量中的每一位元素按照不小于0置1,小于0置0的规则置位,获得所述预设位数的特征向量。优选地,第二确定单元406,具体使用d1和d2确定所述待识别设备为群控设备的概率时,包括:计算d1和d2的和;计算d2与所述和的比值;将所述比值确定为所述待识别设备为群控设备的概率。上述实施例的单元可以集成于一体,也可以分离部署;可以合并为一个单元,也可以进一步拆分成多个子单元。在另一个实施例中,还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述群控设备识别方法的步骤。在另一个实施例中,还提供一种计算机可读存储介质,其上存储有计算机指令,所述指令被处理器执行时可实现所述群控设备识别方法中的步骤。图5为本发明实施例提供的电子设备的实体结构示意图。如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(communicationsinterface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行如下方法:获取待设别设备的app列表;根据预设app的特征权重确定所述app列表中的app的特征权重;使用所述app列表中的app的特征权重计算待识别设备的特征向量;获取所述待识别设备的特征向量与多个预设群控设备簇的簇中心设备的特征向量的向量相似度中的最小值d1;获取所述待识别设备的特征向量与多个预设非群控设备簇的簇中心设备的特征向量的向量相似度中的最小值d2;使用d1和d2确定所述待识别设备为群控设备的概率。此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。当前第1页1 2 3 
技术特征:1.一种群控设备识别方法,其特征在于,所述方法包括:
获取待设别设备的应用程序app列表;
根据预设app的特征权重确定所述app列表中的app的特征权重;
使用所述app列表中的app的特征权重计算待识别设备的特征向量;
获取所述待识别设备的特征向量与多个预设群控设备簇的簇中心设备的特征向量的向量相似度中的最小值d1;
获取所述待识别设备的特征向量与多个预设非群控设备簇的簇中心设备的特征向量的向量相似度中的最小值d2;
使用d1和d2确定所述待识别设备为群控设备的概率。
2.根据权利要求1所述的方法,其特征在于,获取所述预设群控设备簇的簇中心设备的特征向量,以及所述预设非群控设备簇的簇中心设备的特征向量,包括:
获取多个群控设备的app列表,以及多个非群控设备的app列表;
根据多个群控设备,以及多个非群控设备的app列表中的app确定app的特征权重;
使用所述群控设备的app列表中的app的特征权重计算所述群控设备的特征向量;基于所述特征向量对所述群控设备进行聚类,获取聚类形成的预设群控设备簇的簇中心设备的特征向量;
使用所述非群控设备的app列表中的app的特征权重计算所述非群控设备的特征向量;基于所述特征向量对所述非群控设备进行聚类,并获取聚类形成的预设非群控设备簇的簇中心设备的特征向量。
3.根据权利要求2所述的方法,其特征在于,
在聚类时使用dbscan算法进行聚类;
其中,针对群控设备聚类时,距离阈值参数设置为群控设备两两之间的向量相似度中处于中间数值的向量相似度,最小簇样本阈值设置为群控设备的总数量的第一预设比值;
针对非群控设备聚类时,距离阈值参数设置为非群控设备两两之间的向量相似度中处于中间数值的向量相似度,最小簇样本阈值设置为非群控设备的总数量的第二预设比值;其中,第一预设比值与第二预设比值相同或不同。
4.根据权利要求2所述的方法,其特征在于,所述根据多个群控设备,以及多个非群控设备的app列表中的app确定app的特征权重,包括:
确定群控设备在群控设备和非群控设备中的第一分布频率;
确定所述app在群控设备和非群控设备中的第二分布频率;
计算所述第一分布频率与所述第二分布频率的差值的绝对值;
计算1与差值的绝对值的差值;
确定1与差值的绝对值的差值为所述app的特征权重。
5.根据权利要求2所述的方法,其特征在于,使用app列表中的app的特征权重计算特征向量,包括:
将所述app列表中的app进行编码转换为字符串;并计算出预设位数的hash值;
使用所述app的特征权重与所述hash值中的每一位相乘,获得长度为所述预设位数的数值向量;
将所述app列表中的app对应的数值向量对应位相加,获得所述app列表对应的长度为预设位数的数值向量;
将所述app列表对应的长度为预设位数的数值向量中的每一位元素按照不小于0置1,小于0置0的规则置位,获得所述预设位数的特征向量。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述使用d1和d2确定所述待识别设备为群控设备的概率,包括:
计算d1和d2的和;
计算d2与所述和的比值;
将所述比值确定为所述待识别设备为群控设备的概率。
7.一种群控设备识别装置,其特征在于,所述装置包括:存储单元、第一获取单元、第一确定单元、计算单元、第二获取单元和第二确定单元;
所述存储单元,用于存储预设应用程序app的特征权重,多个预设群控设备簇的簇中心设备的特征向量,以及多个预设非群控设备簇的簇中心设备的特征向量;
所述第一获取单元,用于获取待设别设备的app列表;
所述第一确定单元,用于根据所述存储单元存储的预设app的特征权重确定所述第一获取单元获取的app列表中的app的特征权重;
所述计算单元,用于使用所述第一确定单元确定的app列表中的app的特征权重计算待识别设备的特征向量;
所述第二获取单元,用于获取所述计算单元计算的待识别设备的特征向量与所述存储单元存储的多个预设群控设备簇的簇中心设备的特征向量的向量相似度中的最小值d1;获取所述计算单元计算的待识别设备的特征向量与所述存储单元存储的多个预设非群控设备簇的簇中心设备的特征向量的向量相似度中的最小值d2;
所述第二确定单元,用于使用所述第二获取单元获取的d1和d2确定所述待识别设备为群控设备的概率。
8.根据权利要求7所述的装置,其特征在于,
所述第一获取单元,进一步用于获取多个群控设备的app列表,以及多个非群控设备的app列表;
所述第一确定单元,进一步用于根据多个群控设备,以及多个非群控设备的app列表中的app确定app的特征权重;
所述计算单元,进一步用于使用所述群控设备的app列表中的app的特征权重计算所述群控设备的特征向量;
所述存储单元,进一步用于基于所述特征向量对所述群控设备进行聚类,获取聚类形成的预设群控设备簇的簇中心设备的特征向量并存储;使用所述非群控设备的app列表中的app的特征权重计算所述非群控设备的特征向量;基于所述特征向量对所述非群控设备进行聚类,并获取聚类形成的预设非群控设备簇的簇中心设备的特征向量并存储。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-6任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-6任一项所述的方法。
技术总结本申请提供了一种群控设备识别方法、装置、电子设备和存储介质,所述方法包括:获取待设别设备的APP列表;根据预设APP的特征权重确定所述APP列表中的APP的特征权重;使用所述APP列表中的APP的特征权重计算待识别设备的特征向量;获取所述待识别设备的特征向量与多个预设群控设备簇的簇中心设备的特征向量的向量相似度中的最小值d1;获取所述待识别设备的特征向量与多个预设非群控设备簇的簇中心设备的特征向量的向量相似度中的最小值d2;使用d1和d2确定所述待识别设备为群控设备的概率。该方法能够提高识别群控设备的效率和准确度。
技术研发人员:杨帆;马英楠
受保护的技术使用者:贝壳技术有限公司
技术研发日:2020.01.16
技术公布日:2020.06.09