数据筛选方法、装置、设备及存储介质与流程

专利2022-06-29 72

本申请涉及到数据处理技术领域，尤其涉及智能搜索技术。

背景技术：

随着移动互联网的迅速发展，个性化推荐技术也得到了快速发展。在个性化推荐中很重要的是确定兴趣的深度爱好用户，或者确定用户的深度爱好兴趣。在确定兴趣的深度爱好用户，或者确定用户的深度爱好的兴趣的技术本质是对相关数据进行筛选的技术。

现有技术中确定兴趣的深度爱好用户，或者确定用户的深度爱好的兴趣时，通常采用硬阈值截断方法，软阈值截断方法或硬阈值截断集合软阈值截断的方法。而在采用这些方法时，会有长尾效应的存在，例如：一个用户对所有兴趣的天然打分较高，很容易成为一个兴趣的深度爱好用户，然而该用户实际上不是该兴趣的深度爱好用户。或者另一用户对所有兴趣的天然打分都较低，原本某一兴趣是该用户的深度爱好兴趣，却不能被召回。

所以现有技术中确定兴趣的深度爱好用户，或者确定用户的深度爱好兴趣的方法由于长尾效应的存在导致无法准确确定兴趣的深度爱好用户，或者无法准确确定用户的深度爱好兴趣。

技术实现要素：

本申请实施例提供一种数据筛选方法、装置、设备及存储介质，解决了现有技术中确定兴趣的深度爱好用户，或者确定用户的深度爱好兴趣的方法由于长尾效应的存在导致无法准确确定兴趣的深度爱好用户，或者无法准确确定用户的深度爱好兴趣的技术问题。

本申请实施例第一方面提供一种数据筛选方法，所述方法应用于电子设备，所述方法包括：

接收数据筛选请求，所述数据筛选请求为深度用户筛选请求和/或深度兴趣筛选请求；响应于所述数据筛选请求，从预先确定的深度兴趣用户点对集合中获取对应的深度用户和/或对应的深度兴趣；其中，所述深度兴趣用户点对集合是根据收敛后的各用户对各兴趣的无偏置评分确定的；输出所述对应的深度用户和/或所述对应的深度兴趣。

本申请实施例中，由于预先确定了深度兴趣用户点对集合，在深度兴趣用户点对集合中的每个用户兴趣点对均是根据收敛后的各用户对各兴趣的无偏置评分确定的，能够有效消除各用户对各兴趣的评分中与兴趣相关的偏置分值及与用户相关的偏置分值，所以可有效消除长尾效应的影响，能够准确确定出兴趣的深度用户和/或用户的深度爱好兴趣。进而能够提高应用程序的智能化水平。

进一步地，如上所述的方法，所述从预先确定的深度兴趣用户点对集合中获取对应的深度用户和/或对应的深度兴趣之前，还包括；

计算当前迭代时各用户对各兴趣的无偏置评分；判断是否满足预设的收敛条件；若确定满足预设的收敛条件，则将当前迭代时各用户对各兴趣的无偏置评分确定为收敛后的各用户对各兴趣的无偏置评分；采用所述收敛后的各用户对各兴趣的无偏置评分确定所述深度兴趣用户点对集合。

本申请实施例中,在确定的深度兴趣用户点对集合时，确定当前迭代时各用户对各兴趣的无偏置评分，若确定满足预设收敛条件后，再将当前迭代时各用户对各兴趣的无偏置评分确定为收敛后的各用户对各兴趣的无偏置评分，进而根据收敛后的各用户对各兴趣的无偏置评分确定深度兴趣用户点对集合，能够使确定出的深度兴趣用户点对集合中的兴趣用户点对为消除了长尾效应影响后的深度兴趣用户点对，进而使确定出兴趣的深度用户和/或用户的深度爱好兴趣更加准确。

进一步地，如上所述的方法，所述计算当前迭代时各用户对各兴趣的无偏置评分，包括：

获取上次迭代时各用户对各兴趣的无偏置评分；根据上次迭代时各用户对各兴趣的无偏置评分计算上次迭代时各用户偏置分值及上次迭代时各兴趣偏置分值；根据所述上次迭代时各用户对各兴趣的无偏置评分、所述上次迭代时对应的用户偏置分值及所述上次迭代时对应的兴趣偏置分值计算所述当前迭代时各用户对各兴趣的无偏置评分。

本申请实施例中，采用上次迭代时各用户对各兴趣的无偏置评分和上次迭代时对应的用户偏置分值及所述上次迭代时对应的兴趣偏置分值计算所述当前迭代时各用户对各兴趣的无偏置评分，能够在每次迭代时均有效消除与兴趣相关的偏置分值及与用户相关的偏置分值，所以进一步提高收敛后的各用户对各兴趣的无偏置评分的准确性。

进一步地，如上所述的方法，所述根据上次迭代时各用户对各兴趣的无偏置评分计算上次迭代时各用户偏置分值及上次迭代时各兴趣偏置分值，包括：

获取上次迭代时各用户所有兴趣对应的无偏置评分并分别进行降序排序；将排在各用户所有兴趣中预设百分比分位点的无偏置评分确定为所述上次迭代时各用户偏置分值；获取上次迭代时各兴趣所有用户对应的无偏置评分并分别进行降序排序；将排在各兴趣所有用户中预设百分比分位点的无偏置评分确定为所述上次迭代时各兴趣偏置分值。

本申请实施例中，在计算上次迭代时各用户偏置分值及上次迭代时各兴趣偏置分值时，均将排在预设百分比分位点的无偏置评分确定为对应的偏置分值，能够使确定出的偏置分值更加准确。

进一步地，如上所述的方法，所述根据所述上次迭代时各用户对各兴趣的无偏置评分、所述上次迭代时对应的用户偏置分值及所述上次迭代时对应的兴趣偏置分值计算所述当前迭代时各用户对各兴趣的无偏置评分，包括：

计算所述上次迭代时各用户对各兴趣的无偏置评分与所述上次迭代时对应的用户偏置分值的各第一差值；计算各第一差值与所述上次迭代时对应的兴趣偏置分值的各第二差值；将所述各第二差值确定为所述当前迭代时各用户对各兴趣的无偏置评分。

本申请实施例中，在根据所述上次迭代时各用户对各兴趣的无偏置评分、所述上次迭代时对应的用户偏置分值及所述上次迭代时对应的兴趣偏置分值计算所述当前迭代时各用户对各兴趣的无偏置评分时，采用减去对应用户偏置分值和对应兴趣偏置分值的形式计算当前迭代时各用户对各兴趣的无偏置评分，能够使计算出的当前迭代时各用户对各兴趣的无偏置评分更加快速和准确。

进一步地，如上所述的方法，所述计算当前迭代时各用户对各兴趣的无偏置评分之后，还包括：

根据所述当前迭代时各用户对各兴趣的无偏置评分计算当前迭代时损失函数对应的数值；所述判断是否满足预设的收敛条件包括：判断当前迭代时损失函数的数值与上次迭代时损失函数的数值的差值是否小于预设阈值；若所述差值小于预设阈值，则确定满足预设的收敛条件；若所述差值大于或等于预设阈值，则确定不满足预设的收敛条件。

本申请实施例中，采用损失函数的方式不断对各用户对各兴趣的无偏置评分进行迭代计算，由于损失函数对应的数值能够准确表示收敛程度，所以采用损失函数的方式不断对各用户对各兴趣的无偏置评分进行迭代计算，能够使计算出的收敛后的各兴趣的无偏置评分更加准确，并且使确定出的深度兴趣用户点对集合更加准确。

进一步地，如上所述的方法，所述根据所述当前迭代时各用户对各兴趣的无偏置评分计算当前迭代时损失函数对应的数值，包括：

根据所述当前迭代时各用户对各兴趣的无偏置评分确定当前所有用户的深度兴趣点对集合及当前所有兴趣的深度用户点对集合；

根据所述当前所有用户的深度兴趣点对集合和所述当前所有兴趣的深度用户点对集合计算所述当前迭代时损失函数对应的数值。

本申请实施例中，首先根据当前迭代时各用户对各兴趣的无偏置评分确定当前所有用户的深度兴趣点对集合及当前所有兴趣的深度用户点对集合，然后根据所述当前所有用户的深度兴趣点对集合和所述当前所有兴趣的深度用户点对集合计算所述当前迭代时损失函数对应的数值，能够使损失函数对应的数值准确表示当前所有用户的深度兴趣点对集合和所述当前所有兴趣的深度用户点对集合间的关系，根据当前所有用户的深度兴趣点对集合和所述当前所有兴趣的深度用户点对集合间的关系能够准确表示当前迭代时各用户对各兴趣的无偏置评分的收敛程度。

进一步地，如上所述的方法，所述根据所述当前迭代时各用户对各兴趣的无偏置评分确定当前所有用户的深度兴趣点对集合及当前所有兴趣的深度用户点对集合，包括：

获取当前迭代时各用户的所有兴趣对应的无偏置评分并分别进行降序排序；筛选出当前迭代时位于所有用户的前预设百分比分位点对应的兴趣；将所述当前迭代时所有用户及所述对应的兴趣组成的点对确定为当前所有用户的深度兴趣点对集合；获取当前迭代时各兴趣的所有用户对应的无偏置评分并分别进行降序排序；筛选出当前迭代时位于所有兴趣的前预设百分比分位点对应的用户；将所述当前迭代时所有兴趣及所述对应的用户组成的点对确定为当前所有兴趣的深度用户点对集合。

本申请实施例中，在确定当前所有用户的深度兴趣点对集合及当前所有兴趣的深度用户点对集合，采用对应的无偏置评分位于前预设百分比分位点的方式来确定，能够准确确定出当前所有用户的深度兴趣点对集合及当前所有兴趣的深度用户点对集合。

进一步地，如上所述的方法，所述根据所述当前所有用户的深度兴趣点对集合和所述当前所有兴趣的深度用户点对集合计算所述当前迭代时损失函数对应的数值，包括：

计算所述当前所有用户的深度兴趣点对集合与所述当前所有兴趣的深度用户点对集合的当前交集；计算所述当前交集中的点对个数与所述当前所有用户的深度兴趣点对集合中的点对个数的当前商值；将数值1与所述当前商值的差值确定为所述当前迭代时损失函数对应的数值。

本申请实施例中，由于当前交集中的点对个数与所述当前所有用户的深度兴趣点对集合中的点对个数的当前商值越大，表示当前所有用户的深度兴趣点对集合与当前所有兴趣的深度用户点对集合越接近，对应的当前迭代时损失函数对应的数值越小，所以在损失函数的数值在零附近时，说明当前所有用户的深度兴趣点对集合与当前所有兴趣的深度用户点对集合已非常接近。所以采用这种方式确定出的当前迭代时损失函数更加准确。

进一步地，如上所述的方法，所述采用所述收敛后的各用户对各兴趣的无偏置评分确定所述深度兴趣用户点对集合，包括：

获取所述收敛后的各用户对各兴趣的无偏置评分对应的收敛后的所有用户的深度兴趣点对集合或收敛后的所有兴趣的深度用户点对集合；将所述收敛后的所有用户的深度兴趣点对集合或所述收敛后的所有兴趣的深度用户点对集合确定为所述深度兴趣用户点对集合。

本申请实施例中，由于收敛后的所有用户的深度兴趣点对集合或收敛后的所有兴趣的深度用户点对集合已无限接近相同，所以采用收敛后的所有用户的深度兴趣点对集合或所述收敛后的所有兴趣的深度用户点对集合作为深度兴趣用户点对集合均能准确表示深度兴趣用户点对集合。

进一步地，如上所述的方法，若确定不满足预设的收敛条件，则还包括：

计算下次迭代时各用户对各兴趣的无偏置评分；根据所述下一次迭代时各用户对各兴趣的无偏置评分计算下次迭代时的损失函数对应的数值。

本申请实施例中，若确定不满足预设的收敛条件，则继续进行迭代，并采用损失函数对应的数值的方式确定是否满足预设的收敛条件，能够使计算出的收敛后的各兴趣的无偏置评分更加准确，并且使确定出的深度兴趣用户点对集合更加准确。

本申请实施例第二方面提供一种数据筛选装置，所述装置位于电子设备中，所述装置包括：

请求接收模块，用于接收数据筛选请求，所述数据筛选请求为深度用户筛选请求和/或深度兴趣筛选请求；数据筛选模块，用于响应于所述数据筛选请求，从预先确定的深度兴趣用户点对集合中获取对应的深度用户和/或对应的深度兴趣；其中，所述深度兴趣用户点对集合是根据收敛后的各用户对各兴趣的无偏置评分确定的；数据输出模块，用于输出所述对应的深度用户和/或所述对应的深度兴趣。

进一步地，如上所述的装置，还包括；

无偏置评分计算模块，用于计算当前迭代时各用户对各兴趣的无偏置评分；收敛判断模块，用于判断是否满足预设的收敛条件；无偏置评分确定模块，用于若确定满足预设的收敛条件，则将当前迭代时各用户对各兴趣的无偏置评分确定为收敛后的各用户对各兴趣的无偏置评分；点对集合确定模块，用于采用所述收敛后的各用户对各兴趣的无偏置评分确定所述深度兴趣用户点对集合。

进一步地，如上所述的装置，所述无偏置评分计算模块，具体用于：

进一步地，如上所述的装置，所述无偏置评分计算模块，在根据上次迭代时各用户对各兴趣的无偏置评分计算上次迭代时各用户偏置分值及上次迭代时各兴趣偏置分值时，具体用于：

进一步地，如上所述的装置，所述无偏置评分计算模块，在根据所述上次迭代时各用户对各兴趣的无偏置评分、所述上次迭代时对应的用户偏置分值及所述上次迭代时对应的兴趣偏置分值计算所述当前迭代时各用户对各兴趣的无偏置评分时，具体用于：

进一步地，如上所述的装置，还包括：

损失函数数值计算模块，用于根据所述当前迭代时各用户对各兴趣的无偏置评分计算当前迭代时损失函数对应的数值；

所述收敛判断模块，具体用于：判断当前迭代时损失函数的数值与上次迭代时损失函数的数值的差值是否小于预设阈值；若所述差值小于预设阈值，则确定满足预设的收敛条件；若所述差值大于或等于预设阈值，则确定不满足预设的收敛条件。

进一步地，如上所述的装置，所述损失函数数值计算模块，具体用于：

根据所述当前迭代时各用户对各兴趣的无偏置评分确定当前所有用户的深度兴趣点对集合及当前所有兴趣的深度用户点对集合；根据所述当前所有用户的深度兴趣点对集合和所述当前所有兴趣的深度用户点对集合计算所述当前迭代时损失函数对应的数值。

进一步地，如上所述的装置，所述损失函数数值计算模块，在根据所述当前迭代时各用户对各兴趣的无偏置评分确定当前所有用户的深度兴趣点对集合及当前所有兴趣的深度用户点对集合时，具体用于：

进一步地，如上所述的装置，所述损失函数数值计算模块，在根据所述当前所有用户的深度兴趣点对集合和所述当前所有兴趣的深度用户点对集合计算所述当前迭代时损失函数对应的数值时，具体用于：

进一步，如上所述的装置，所述点对集合确定模块，具体用于：

进一步地，如上所述的装置，所述无偏置评分计算模块，还用于：

若确定不满足预设的收敛条件，则计算下次迭代时各用户对各兴趣的无偏置评分；所述损失函数数值计算模块，还用于：根据所述下一次迭代时各用户对各兴趣的无偏置评分计算下次迭代时的损失函数对应的数值。

本申请实施例第三方面提供一种电子设备,包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够第一方面中任一项所述的方法。

本申请实施例第四方面提供一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行第一方面任一项所述的方法。

本申请实施例第五方面提供一种计算机程序，包括程序代码，当计算机运行所述计算机程序时，所述程序代码执行如第一方面所述的方法。

附图说明

附图用于更好地理解本方案，不构成对本申请的限定。其中：

图1是可以实现本申请实施例的数据筛选方法的应用场景图；

图2是根据本申请第一实施例提供的数据筛选方法的流程示意图；

图3是根据本申请第一实施例提供的数据筛选方法中智能搜索操作界面的第一示意图；

图4是根据本申请第一实施例提供的数据筛选方法中智能搜索操作界面的第二示意图；

图5是根据本申请第二实施例提供的数据筛选方法的流程示意图；

图6是根据本申请第二实施例提供的数据筛选方法中步骤201的流程示意图；

图7是根据本申请第二实施例提供的数据筛选方法中步骤2012的流程示意图；

图8是根据本申请第二实施例提供的数据筛选方法中步骤2013的流程示意图；

图9是根据本申请第二实施例提供的数据筛选方法中步骤204的流程示意图；

图10为根据本申请第三实施例提供的数据筛选方法的流程示意图；

图11为根据本申请第三实施例提供的数据筛选方法中步骤302的流程示意图；

图12为根据本申请第三实施例提供的数据筛选方法中步骤3021的流程示意图；

图13为根据本申请第四实施例提供的数据筛选装置的结构示意图；

图14为根据本申请第五实施例提供的数据筛选装置的结构示意图；

图15是用来实现本申请实施例的数据筛选方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明，其中包括本申请实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本申请的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

为了清楚理解本申请的技术方案，下面对本申请中涉及的设备和术语进行解释：

长尾效应：长尾效应被认为是对传统的“二八定律”的彻底叛逆。二八定律来界定主流，计算投入和产出的效率。它贯穿了整个生活和社会。“二八定律”表现了一种不平衡关系，即少数主流的人(或事物)可以造成主要的、重大的影响。那些大部分的人(或事物)的影响往往被忽略。而少数主流的人(或事物)约占20％，大部分的人(或事物)约占80％。这些大部分的人(或事物)的影响即时长尾效应。在本申请实施例中，长尾效应的存在，导致针对同一个兴趣i，约80％的用户都不是深度用户；针对同一个用户u，约80％的兴趣都不是深度兴趣。

兴趣：针对不同的应用场景，兴趣所指不同。如在新闻资讯类应用程序中，应用程序可以向用户提供新闻资讯，每个新闻资讯都会有一个信息标签，该信息标签即为兴趣。如对于电影类资讯，兴趣可以为每部电影的标签。又如在股票类资讯中，兴趣可以为每支股票的标签。又如在购物应用程序中，购物应用程序可以向用户提供商品，每个商品都会有一个信息标签，该信息标签也为兴趣。如对于电器类商品，兴趣可以为每类电器的标签。对于水果类商品，兴趣可以为每种水果的标签。

下面对本申请实施例提供的数据筛选方法的应用场景进行介绍。本申请实施例提供的数据筛选方法可应用在各类具有智能推荐功能的应用程序中，以应用程序为新闻资讯类应用程序为例进行说明。本申请实施例提供的数据筛选方法对应的应用场景中，用户打开新闻资讯类应用程序。新闻资讯类应用程序中的每个资讯都会有一个信息标签，该信息标签确定了每个资讯对应的兴趣。为了更好的为用户提供新闻资讯服务，在用户浏览资讯时，应用程序可以确定每个用户对每个资讯的浏览数据、评论数据及其他与资讯相关数据，根据每个资讯的浏览数据、评论数据及其他与资讯相关数据计算每个用户对每个资讯的评分。并对同一类信息标签(即同一兴趣)的资讯评分进行分析，以确定每个用户对每个兴趣的原始评分。在每个兴趣的浏览用户达到一定数量后，或者用户对每个兴趣的原始评分达到一定数量后或者满足其他筛选深度用户或筛选深度兴趣的条件后，基于用户对该应用程序的行为触发了数据筛选请求。接收用户触发的数据筛选请求。其中，数据筛选请求可以为深度用户筛选请求和/或深度兴趣筛选请求。响应于数据筛选请求，从预先确定的深度兴趣用户点对集合中获取对应的深度用户和/或对应的深度兴趣；其中，深度兴趣用户点对集合是根据收敛后的各用户对各兴趣的无偏置评分确定的。在数据筛选请求为深度用户筛选请求时，输出对应的深度用户，在数据筛选请求为深度兴趣筛选请求时，输出对应的深度兴趣。在输出对应的深度用户后，可向一个深度用户推送另外的深度用户，以使某兴趣的各深度用户对该兴趣进行更好的交流。在输出对应的深度兴趣后，可向用户推荐该深度兴趣对应的资讯。

可以理解的是，本申请实施例提供的数据筛选方法还可应用在其他应用场景中。如图1所示，例如各类具有智能推荐功能的应用程序中，还可向用户提供智能搜索操作界面。在智能搜索操作界面中，可向用户提供对于某一个或多个兴趣筛选深度用户和/或针对该用户筛选其深度兴趣的按键，用户通过点击对应按键，触发数据筛选请求。若点击深度用户筛选按键，则触发深度用户筛选请求。若点击深度兴趣筛选按键，则触发深度兴趣筛选请求。电子设备的应用程序响应于数据筛选请求，从预先确定的深度兴趣用户点对集合中获取对应的深度用户和/或对应的深度兴趣；其中，深度兴趣用户点对集合是根据收敛后的各用户对各兴趣的无偏置评分确定的，并输出对应的深度用户和/或对应的深度兴趣。在输出对应的深度用户后，该用户可获取一个或多个兴趣对应的深度用户，以与该一个或多个兴趣的深度用户对该一个或多个兴趣进行更好的交流。在输出对应的深度兴趣后，可向用户推荐该深度兴趣对应的资讯。例如在图1中，该应用程序为资讯类应用程序。用户点击了深度兴趣筛选按键后，输出对应的深度兴趣分别为：“阿x达”，“我和我的xx”。说明该这两部电影为该用户的深度兴趣。在用户点击“阿x达”的深度兴趣后，向用户推荐关于“阿x达”的两条资讯。

由于本申请实施例中，预先确定了深度兴趣用户点对集合，在深度兴趣用户点对集合中的每个用户兴趣点对均是根据收敛后的各用户对各兴趣的无偏置评分确定的，能够有效消除各用户对各兴趣的评分中与兴趣相关的偏置分值及与用户相关的偏置分值，所以可有效消除长尾效应的影响，能够准确确定出兴趣的深度用户和/或用户的深度爱好兴趣。进而能够提高应用程序的智能化水平。

以下将参照附图来具体描述本申请的实施例。

实施例一

图2是根据本申请第一实施例提供的数据筛选方法的流程示意图，如图2所示，本申请实施例的执行主体为数据筛选装置，该数据筛选装置可以集成在电子设备中。则本实施例提供的数据筛选方法包括以下几个步骤。

步骤101，接收数据筛选请求，数据筛选请求为深度用户筛选请求和/或深度兴趣筛选请求。

其中，深度用户为兴趣的深度爱好用户。深度兴趣为用户的深度爱好兴趣。

本实施例中，作为一种可选实施方式，数据筛选方法可应用在各类具有智能推荐功能的应用程序中。则在应用程序可具有智能搜索操作界面，在智能搜索操作界面可提供数据筛选窗口，在数据筛选窗口中还可提供深度用户筛选窗口和深度兴趣筛选窗口。

如图3所示，在深度用户筛选窗口中，可选择或输入一个或多个兴趣标识，并通过点击深度用户筛选请求的确认按键来触发深度用户筛选请求，电子设备接收深度用户筛选请求，进行这一个或多个兴趣的深度用户的筛选。

如图4所示，在深度兴趣筛选窗口中，可选择或输入一个或多个用户标识，并通过点击深度兴趣筛选请求的确认按键来触发深度兴趣筛选请求，电子设备接收深度兴趣筛选请求，进行这一个或多个用户的深度兴趣的筛选。

并且如图3和图4所示，在数据筛选窗口中，还可包括一个总的确认按键，在用户分别在深度用户筛选窗口和深度兴趣筛选窗口选择输入对应的标识后，通过点击该总的确认按键，可触发深度用户筛选请求和深度兴趣筛选请求，电子设备接收深度用户筛选请求和深度兴趣筛选请求，进行对应深度用户的筛选及对应深度兴趣的筛选。

作为另一种可选实施方式，用户还可通过语音方式说出数据筛选请求，即用户根据需求说出深度用户筛选请求和/或深度兴趣筛选请求，电子设备通过收音组件对深度用户筛选请求和/或深度兴趣筛选请求进行语义解析，获得深度用户筛选请求和/或深度兴趣筛选请求。

可以理解的是，接收用户触发的数据筛选请求还可以为其他方式，本实施例中对此不作限定。

步骤102，响应于数据筛选请求，从预先确定的深度兴趣用户点对集合中获取对应的深度用户和/或对应的深度兴趣；其中，深度兴趣用户点对集合是根据收敛后的各用户对各兴趣的无偏置评分确定的。

本实施例中，预先存储有各用户对各兴趣的原始评分，在各用户对各兴趣的原始评分中，由于长尾效应的存在，导致评分并不准确。例如一个用户u1对其所有兴趣的天然评分较高，很容易成为一个兴趣ix的深度用户，然而用户u1实际上并不是兴趣ix的深度用户。又如一个用户u2对其所有兴趣的天然评分较低，原本兴趣iy是用户u2的深度兴趣，然而却不能召回。

所以本实施例中，根据预先存储的各用户对各兴趣的原始评分，计算与兴趣相关的偏置分值及与用户相关的偏置分值，并在消除与兴趣相关的偏置分值及与用户相关的偏置分值后，计算收敛后的各用户对各兴趣的无偏置评分。收敛后的各用户对各兴趣的无偏置评分能够使整个各用户对各兴趣间的评分间具有可比性。并通过收敛后的各用户对各兴趣的无偏置评分确定深度兴趣用户点对集合。在深度兴趣用户点对集合中，一个深度用户标识对应一个深度兴趣标识，如可表示为(u,i)。其中，u为深度用户标识。i为深度兴趣标识。

值的说明的是，在深度兴趣用户点对集合中，一个深度兴趣标识可对应多个深度用户标识。一个深度用户标识也可对应多个深度兴趣标识。所以从深度兴趣用户点对集合中获取对应的深度用户和/或对应的深度兴趣时，获取的某一兴趣的深度用户可以为多个。获取的某一用户的深度兴趣也可以为多个。

具体地，本实施例中，可根据数据筛选请求中的标识信息来从预先确定的深度兴趣用户点对集合中获取对应的深度用户和/或对应的深度兴趣。若数据筛选请求为深度用户筛选请求，则根据深度用户筛选请求中的兴趣标识，从深度兴趣用户点对集合中获取该兴趣标识对应的用户标识，该兴趣标识对应的用户标识即为该兴趣的深度用户标识。同理，若数据筛选请求为深度兴趣筛选请求，则可根据深度兴趣筛选请求中的用户标识，从深度兴趣用户点对集合中获取该用户标识对应的兴趣标识，该用户标识对应的兴趣标识即为该用户的深度兴趣标识。

可以理解的是，深度用户筛选请求中的兴趣标识可以为多个。同理，深度兴趣筛选请求中的用户标识也可以为多个。并且可同时从深度兴趣用户点对集合中获取对应的深度用户和对应的深度兴趣。

步骤103，输出对应的深度用户和/或对应的深度兴趣。

具体地，本实施例中，可在操作界面上输出对应的深度用户和/或对应的深度兴趣的信息。如可包括对应的深度用户和/或对应的深度兴趣的标识。若输出对应的深度用户，还可输出该深度用户的联系方式、图片。若输出对应的深度兴趣，还可输出该深度兴趣的图片及其他信息。

值得说明的是，在输出对应的深度用户和/或对应的深度兴趣后，用户可通过操作界面对对应的深度用户或对应的深度兴趣进行后续操作。

例如在操作界面中可提供深度用户联系窗口，以能够与该深度用户进行联系，以更好的对相关兴趣进行交流。在操作界面还可提供深度兴趣相关信息的推荐窗口，以向用户推荐该深度兴趣对应的相关信息。

本实施例提供的数据筛选方法，接收用户触发的数据筛选请求，数据筛选请求为深度用户筛选请求和/或深度兴趣筛选请求；响应于数据筛选请求，从预先确定的深度兴趣用户点对集合中获取对应的深度用户和/或对应的深度兴趣；其中，深度兴趣用户点对集合是根据收敛后的各用户对各兴趣的无偏置评分确定的；输出对应的深度用户和/或对应的深度兴趣。由于预先确定了深度兴趣用户点对集合，在深度兴趣用户点对集合中的每个用户兴趣点对均是根据收敛后的各用户对各兴趣的无偏置评分确定的，能够有效消除各用户对各兴趣的评分中与兴趣相关的偏置分值及与用户相关的偏置分值，所以可有效消除长尾效应的影响，能够准确确定出兴趣的深度用户和/或用户的深度爱好兴趣。进而能够提高应用程序的智能化水平。

实施例二

图5是根据本申请第二实施例提供的数据筛选方法的流程示意图，如图5所示，本实施例提供的数据筛选方法，是在本申请实施例一提供的数据筛选方法的基础上，还包括了确定深度兴趣用户点对集合的步骤。则本实施例提供的数据筛选方法包括以下步骤。

步骤201，计算当前迭代时各用户对各兴趣的无偏置评分。

可以理解的是，在迭代开始时，各用户对各兴趣的无偏置评分初始化为各用户对各兴趣的原始评分。

其中，各用户对各兴趣的原始评分可以以一个数据集的形式表示，其中

为用户对各兴趣的原始评分，u为用户标识。i为兴趣标识。

作为一种可选实施方式，如图6所示，步骤201包括以下步骤：

步骤2011，获取上次迭代时各用户对各兴趣的无偏置评分。

其中，上次迭代时各用户对各兴趣的无偏置评分可表示为

步骤2012，根据上次迭代时各用户对各兴趣的无偏置评分计算上次迭代时各用户偏置分值及上次迭代时各兴趣偏置分值。

作为一种可选实施方式，如图7所示，步骤2012包括以下步骤：

步骤2012a，获取上次迭代时各用户所有兴趣对应的无偏置评分并分别进行降序排序。

本实施例中，首先针对每个用户，获取上次迭代时其所有兴趣对应的无偏置评分。比如针对用户u1，上次迭代时其所有兴趣对应的无偏置评分可表示为其中，i＝1,2,3,…。

然后针对每个用户，将上次迭代时其所有兴趣对应的无偏置评分进行降序排序。

步骤2012b，将排在各用户所有兴趣中预设百分比分位点的无偏置评分确定为上次迭代时各用户偏置分值。

其中，预设百分比分位点可以为10％、30％等，优选地，根据二八定律，该预设百分比分位点为20％。

本实施例中，针对每个用户，确定上次迭代时其所有兴趣中位于预设百分比分位点的无偏置评分，并将其确定为上次迭代时各用户偏置分值。

例如，针对用户u1，其具有i个兴趣，则将位于i*20％的无偏置评分确定为上次迭代时用户u1偏置分值。

其中，上次迭代时各用户偏置分值可表示为

步骤2012c，获取上次迭代时各兴趣所有用户对应的无偏置评分并分别进行降序排序。

本实施例中，首先针对每个兴趣，获取上次迭代时其所有用户对应的无偏置评分，比如针对兴趣i1，其上次迭代时其所有用户对应的无偏置评分可表示为其中，u＝1,2,3,…。

然后针对每个兴趣，将上次迭代时其所有用户对应的无偏置评分进行降序排序。

步骤2012d，将排在各兴趣所有用户中预设百分比分位点的无偏置评分确定为上次迭代时各兴趣偏置分值。

本实施例中，针对每个兴趣，确定上次迭代时其所有用户中位于预设百分比分为点的无偏置评分，并将其确定为上次迭代时各兴趣偏置分值。

其中，上次迭代时各兴趣偏置分值可表示为

本实施例中，在计算上次迭代时各用户偏置分值及上次迭代时各兴趣偏置分值时，均将排在预设百分比分位点的无偏置评分确定为对应的偏置分值，能够使确定出的偏置分值更加准确。

步骤2013，根据上次迭代时各用户对各兴趣的无偏置评分、上次迭代时对应的用户偏置分值及上次迭代时对应的兴趣偏置分值计算当前迭代时各用户对各兴趣的无偏置评分。

作为一种可选实施方式，本实施例中，如图8所示，步骤2013包括以下几个步骤。

步骤2013a，计算上次迭代时各用户对各兴趣的无偏置评分与上次迭代时对应的用户偏置分值的各第一差值。

步骤2013b，计算各第一差值与上次迭代时对应的兴趣偏置分值的各第二差值。

步骤2013c，将各第二差值确定为当前迭代时各用户对各兴趣的无偏置评分。

进一步地，本实施例中，当前迭代时各用户对各兴趣的无偏置评分可表示为则根据步骤2013a-步骤2013c，可表示为式(1)所示。

其中，为上次迭代时各用户对各兴趣的无偏置评分。为上次迭代时对应的用户偏置分值，为上次迭代时对应的兴趣偏置分值。为第一差值。为第二差值。u＝1,2,3,…,u,i＝1,2,3,…,i。

本实施例中，在根据上次迭代时各用户对各兴趣的无偏置评分、上次迭代时对应的用户偏置分值及上次迭代时对应的兴趣偏置分值计算当前迭代时各用户对各兴趣的无偏置评分时，采用减去对应用户偏置分值和对应兴趣偏置分值的形式计算当前迭代时各用户对各兴趣的无偏置评分，能够使计算出的当前迭代时各用户对各兴趣的无偏置评分更加快速和准确。

本实施例中，采用上次迭代时各用户对各兴趣的无偏置评分和上次迭代时对应的用户偏置分值及上次迭代时对应的兴趣偏置分值计算当前迭代时各用户对各兴趣的无偏置评分，能够在每次迭代时均有效消除与兴趣相关的偏置分值及与用户相关的偏置分值，所以进一步提高收敛后的各用户对各兴趣的无偏置评分的准确性。

步骤202，判断是否满足预设的收敛条件，若是，则执行步骤203，否则执行步骤205。

作为一种可选实施方式，本实施例中，判断是否满足预设的收敛条件可以为：判断当前迭代的次数是否达到预设迭代次数，若达到预设迭代次数，则确定满足预设的收敛条件，否则确定不满足预设的收敛条件。

步骤203，将当前迭代时各用户对各兴趣的无偏置评分确定为收敛后的各用户对各兴趣的无偏置评分。

本实施例中，若确定满足预设的收敛条件，则将当前迭代时各用户对各兴趣的无偏置评分确定为收敛后的各用户对各兴趣的无偏置评分。

步骤204，采用收敛后的各用户对各兴趣的无偏置评分确定深度兴趣用户点对集合。

本实施例中，如图9所示，步骤204可包括以下步骤：

步骤2041，获取收敛后的各用户对各兴趣的无偏置评分对应的收敛后的所有用户的深度兴趣点对集合或收敛后的所有兴趣的深度用户点对集合。

其中，收敛后的所有用户的深度兴趣点对集合可表示为a1。收敛后的所有兴趣的深度用户点对集合可表示为b1。由于a1和b1都是收敛后的，所以a1和b1中的点对近似是相同的。

步骤2042，将收敛后的所有用户的深度兴趣点对集合或收敛后的所有兴趣的深度用户点对集合确定为深度兴趣用户点对集合。

本实施例中，由于a1和b1中的点对近似是相同的，所以可将收敛后的所有用户的深度兴趣点对集合a1或收敛后的所有兴趣的深度用户点对集合b1确定为深度兴趣用户点对集合。

本实施例中，由于收敛后的所有用户的深度兴趣点对集合或收敛后的所有兴趣的深度用户点对集合已无限接近相同，所以采用收敛后的所有用户的深度兴趣点对集合或收敛后的所有兴趣的深度用户点对集合作为深度兴趣用户点对集合均能准确表示深度兴趣用户点对集合。

步骤205，迭代次数加1。

其中，迭代次数可表示为k，kin0,1,2,…当前迭代为k 1，则下一次迭代为k 2。若设置了预设迭代次数，则k的最终取值为预设迭代次数。

在执行完步骤205后，继续执行步骤201。直到确定满足预设收敛条件后，通过步骤204确定出深度兴趣用户点对集合，再执行步骤206。

步骤206，接收数据筛选请求，数据筛选请求为深度用户筛选请求和/或深度兴趣筛选请求。

步骤207，响应于数据筛选请求，从预先确定的深度兴趣用户点对集合中获取对应的深度用户和/或对应的深度兴趣；其中，深度兴趣用户点对集合是根据收敛后的各用户对各兴趣的无偏置评分确定的。

步骤208，输出对应的深度用户和/或对应的深度兴趣。

本实施例中，步骤206-步骤208的实现方式与本申请第一实施例中的步骤101-步骤103的实现方式类似，在此不再一一赘述。

本实施例中，在确定的深度兴趣用户点对集合时，确定当前迭代时各用户对各兴趣的无偏置评分，若确定满足预设收敛条件后，再将当前迭代时各用户对各兴趣的无偏置评分确定为收敛后的各用户对各兴趣的无偏置评分，进而根据收敛后的各用户对各兴趣的无偏置评分确定深度兴趣用户点对集合，能够使确定出的深度兴趣用户点对集合中的兴趣用户点对为消除了长尾效应影响后的深度兴趣用户点对，进而使确定出兴趣的深度用户和/或用户的深度爱好兴趣更加准确。

实施例三

图10为根据本申请第三实施例提供的数据筛选方法的流程示意图，如图10所示，本实施例提供的数据筛选方法，是在本申请实施例一提供的数据筛选方法的基础上，还包括了确定深度兴趣用户点对集合的步骤。该确定深度兴趣用户点对集合的步骤与本申请第二实施例中的确定深度兴趣用户点对集合的步骤有所不同。则本实施例提供的数据筛选方法包括以下步骤。

步骤301，计算当前迭代时各用户对各兴趣的无偏置评分。

本实施例中，步骤301的实现方式与本申请第二实施例中的步骤201的实现方式类似，在此不再一一赘述。

步骤302，根据当前迭代时各用户对各兴趣的无偏置评分计算当前迭代时损失函数对应的数值。

作为一种可选实施方式，如图11所示，步骤302包括以下步骤：

步骤3021，根据当前迭代时各用户对各兴趣的无偏置评分确定当前所有用户的深度兴趣点对集合及当前所有兴趣的深度用户点对集合。

具体地，本实施例中，当前所有用户的深度兴趣点对集合可表示为a。当前所有兴趣的深度用户点对集合可表示为b。

可选地，如图12所示，步骤3021包括以下步骤：

步骤3021a，获取当前迭代时各用户的所有兴趣对应的无偏置评分并分别进行降序排序。

本实施例中，针对每个用户，获取当前迭代时其所有兴趣对应的无偏置评分。比如针对用户u1，其当前迭代时其所有兴趣对应的无偏置评分可表示为其中，i＝1,2,3,…。然后针对每个用户，将当前迭代时其所有兴趣对应的无偏置评分进行降序排序。

步骤3021b，筛选出当前迭代时位于所有用户的前预设百分比分位点对应的兴趣。

其中，预设百分比分位点可以为10％、30％等，优选地，根据二八定律，该预设百分比分位点为20％。

本实施例中，针对每个用户，确定当前迭代时位于该用户前预设百分比分位点对应的兴趣。然后对当前迭代时所有用户的前预设百分比分位点对应的兴趣取交集，可筛选出当前迭代时位于所有用户的前预设百分比分位点对应的兴趣。

步骤3021c，将当前迭代时所有用户及对应的兴趣组成的点对确定为当前所有用户的深度兴趣点对集合。

例如若预设百分比分为点为20％，则当前所有用户的深度兴趣点对集合可表示为式(2)所示：

步骤3021d，获取当前迭代时各兴趣的所有用户对应的无偏置评分并分别进行降序排序。

本实施例中，针对每个兴趣，获取当前迭代时其所有用户对应的无偏置评分。比如，针对兴趣i1，其当前迭代时其所有用户对应的无偏置评分可表示为其中，u＝1,2,3,…。然后针对每个兴趣，将当前迭代时其所有用户对应的无偏置评分进行降序排序。

步骤3021e，筛选出当前迭代时位于所有兴趣的前预设百分比分位点对应的用户。

本实施例中，针对每个兴趣，确定当前迭代时位于该兴趣前预设百分比分位点对应的用户。然后对当前迭代时所有兴趣的前预设百分比分位点对应的用户取交集，可筛选出当前迭代时位于所有兴趣的前预设百分比分位点对应的用户。

步骤3021f，将当前迭代时所有兴趣及对应的用户组成的点对确定为当前所有兴趣的深度用户点对集合。

例如若预设百分比分为点为20％，则当前所有用户的深度兴趣点对集合可表示为式(3)所示：

本实施例中，在确定当前所有用户的深度兴趣点对集合及当前所有兴趣的深度用户点对集合，采用对应的无偏置评分位于前预设百分比分位点的方式来确定，能够准确确定出当前所有用户的深度兴趣点对集合及当前所有兴趣的深度用户点对集合。

步骤3022，根据当前所有用户的深度兴趣点对集合和当前所有兴趣的深度用户点对集合计算当前迭代时损失函数对应的数值。

作为一种可选实施方式，步骤3022包括以下步骤：

步骤3022a，计算当前所有用户的深度兴趣点对集合与当前所有兴趣的深度用户点对集合的当前交集。

其中，当前所有用户的深度兴趣点对集合与当前所有兴趣的深度用户点对集合的当前交集可表示为a∩b。在当前交集中包括了a和b中共同的点对。

步骤3022b，计算当前交集中的点对个数与当前所有用户的深度兴趣点对集合中的点对个数的当前商值。

其中，当前交集中的点对个数可表示为|a∩b|。当前所有用户的深度兴趣点对集合中的点对个数可表示为|a|。当前商值可表示为|a∩b|/|a|。

步骤3022c，将数值1与当前商值的差值确定为当前迭代时损失函数对应的数值。

其中，当前迭代时损失函数对应的数值可表示为式(4)所示：

cost^{(k 1)}＝1-|a∩b|/|a|(4)

其中，cost^{(k 1)}表示当前迭代时损失函数。

可以理解的是，|a∩b|/|a|的值越大，表示当前所有用户的深度兴趣点对集合与当前所有兴趣的深度用户点对集合越接近。当前迭代时损失函数对应的数值越小。

本实施例中，由于当前交集中的点对个数与当前所有用户的深度兴趣点对集合中的点对个数的当前商值越大，表示当前所有用户的深度兴趣点对集合与当前所有兴趣的深度用户点对集合越接近，对应的当前迭代时损失函数对应的数值越小，所以在损失函数的数值在零附近时，说明当前所有用户的深度兴趣点对集合与当前所有兴趣的深度用户点对集合已非常接近。所以采用这种方式确定出的当前迭代时损失函数更加准确。

步骤303，判断当前迭代时损失函数的数值与上次迭代时损失函数的数值的差值是否小于预设阈值，若是，则执行步骤304，否则执行步骤306。

其中，判断当前迭代时损失函数的数值与上次迭代时损失函数的数值的差值是否小于预设阈值为采用损失函数的数值判断是否满足预设的收敛条件。若确定当前迭代时损失函数的数值与上次迭代时损失函数的数值的差值小于预设阈值，则确定满足预设的收敛条件，若确定当前迭代时损失函数的数值与上次迭代时损失函数的数值的差值大于或等于预设阈值，则确定不满足预设的收敛条件。

其中，预设阈值的取值不作限定。

可以理解的是，若确定满足预设的收敛条件，则当前迭代时损失函数对应的数值已非常接近于1。

步骤304，确定满足预设的收敛条件，将当前迭代时各用户对各兴趣的无偏置评分确定为收敛后的各用户对各兴趣的无偏置评分。

步骤305，采用收敛后的各用户对各兴趣的无偏置评分确定深度兴趣用户点对集合。

本实施例中，步骤305的实现方式与本申请第二实施例中的步骤204的实现方式类似，在此不再一一赘述。

步骤306，迭代次数加1。

本实施例中，若确定当前迭代时损失函数的数值与上次迭代时损失函数的数值的差值大于或等于预设阈值，则确定不满足预设的收敛条件。则继续进行迭代，由于当前迭代为k 1，所以迭代次数加1后，下一次迭代为k 2。

可以理解的是，在步骤306之后，继续执行步骤301-步骤303，在执行步骤303后，选择执行步骤304-步骤305，或执行步骤306，直到达到预设收敛条件，执行完步骤305后执行步骤307。

即在步骤306之后，计算下次迭代时各用户对各兴趣的无偏置评分；根据下一次迭代时各用户对各兴趣的无偏置评分计算下次迭代时的损失函数对应的数值，判断下次迭代时损失函数的数值与上次迭代时损失函数的数值的差值是否小于预设阈值，若是，则确定满足预设的收敛条件，将下一次迭代时各用户对各兴趣的无偏置评分确定为收敛后的各用户对各兴趣的无偏置评分。采用收敛后的各用户对各兴趣的无偏置评分确定深度兴趣用户点对集合。否则迭代次数继续加1。

可以理解的是，针对每次迭代步骤301-步骤306的实现方式均是类似的，所以在此不再一一赘述。

步骤307，接收数据筛选请求，数据筛选请求为深度用户筛选请求和/或深度兴趣筛选请求。

步骤308，响应于数据筛选请求，从预先确定的深度兴趣用户点对集合中获取对应的深度用户和/或对应的深度兴趣；其中，深度兴趣用户点对集合是根据收敛后的各用户对各兴趣的无偏置评分确定的。

步骤309，输出对应的深度用户和/或对应的深度兴趣。

本实施例中，步骤307-步骤309的实现方式与本申请第一实施例中的步骤101-步骤103的实现方式类似，在此不再一一赘述。

本实施例中，采用损失函数的方式不断对各用户对各兴趣的无偏置评分进行迭代计算，由于损失函数对应的数值能够准确表示收敛程度，所以采用损失函数的方式不断对各用户对各兴趣的无偏置评分进行迭代计算，能够使计算出的收敛后的各兴趣的无偏置评分更加准确，并且使确定出的深度兴趣用户点对集合更加准确。

实施例四

图13为根据本申请第四实施例提供的数据筛选装置的结构示意图，如图13所示，本实施例提供的数据筛选装置位于电子设备中。该数据筛选装置1300包括：请求接收模块1301，数据筛选模块1302和数据输出模块1303。

其中，请求接收模块1301，用于接收数据筛选请求，数据筛选请求为深度用户筛选请求和/或深度兴趣筛选请求。数据筛选模块1302，用于响应于数据筛选请求，从预先确定的深度兴趣用户点对集合中获取对应的深度用户和/或对应的深度兴趣；其中，深度兴趣用户点对集合是根据收敛后的各用户对各兴趣的无偏置评分确定的。数据输出模块1303，用于输出对应的深度用户和/或对应的深度兴趣。

本实施例提供的数据筛选装置可以执行图2所示方法实施例的技术方案，其实现原理和技术效果与图2所示方法实施例类似，在此不再一一赘述。

实施例五

图14为根据本申请第五实施例提供的数据筛选装置的结构示意图，如图14所示，本实施例提供的数据筛选装置位于电子设备中。该数据筛选装置1400在本申请第四实施例提供的数据筛选装置1300的基础上，还包括：无偏置评分计算模块1401，收敛判断模块1402，无偏置评分确定模块1403，点对集合确定模块1404和损失函数数值计算模块1405。

进一步地，无偏置评分计算模块1401，具体用于：

获取上次迭代时各用户对各兴趣的无偏置评分；根据上次迭代时各用户对各兴趣的无偏置评分计算上次迭代时各用户偏置分值及上次迭代时各兴趣偏置分值；根据上次迭代时各用户对各兴趣的无偏置评分、上次迭代时对应的用户偏置分值及上次迭代时对应的兴趣偏置分值计算当前迭代时各用户对各兴趣的无偏置评分。

进一步地，无偏置评分计算模块1401，在根据上次迭代时各用户对各兴趣的无偏置评分计算上次迭代时各用户偏置分值及上次迭代时各兴趣偏置分值时，具体用于：

获取上次迭代时各用户所有兴趣对应的无偏置评分并分别进行降序排序；将排在各用户所有兴趣中预设百分比分位点的无偏置评分确定为上次迭代时各用户偏置分值；获取上次迭代时各兴趣所有用户对应的无偏置评分并分别进行降序排序；将排在各兴趣所有用户中预设百分比分位点的无偏置评分确定为上次迭代时各兴趣偏置分值。

进一步地，无偏置评分计算模块1401，在根据上次迭代时各用户对各兴趣的无偏置评分、上次迭代时对应的用户偏置分值及上次迭代时对应的兴趣偏置分值计算当前迭代时各用户对各兴趣的无偏置评分时，具体用于：

计算上次迭代时各用户对各兴趣的无偏置评分与上次迭代时对应的用户偏置分值的各第一差值；计算各第一差值与上次迭代时对应的兴趣偏置分值的各第二差值；将各第二差值确定为当前迭代时各用户对各兴趣的无偏置评分。

进一步地，损失函数数值计算模块1405，用于根据当前迭代时各用户对各兴趣的无偏置评分计算当前迭代时损失函数对应的数值。

相应地，收敛判断模块1402，具体用于：

判断当前迭代时损失函数的数值与上次迭代时损失函数的数值的差值是否小于预设阈值；若差值小于预设阈值，则确定满足预设的收敛条件；若差值大于或等于预设阈值，则确定不满足预设的收敛条件。

进一步地，损失函数数值计算模块1405，具体用于：

根据当前迭代时各用户对各兴趣的无偏置评分确定当前所有用户的深度兴趣点对集合及当前所有兴趣的深度用户点对集合；根据当前所有用户的深度兴趣点对集合和当前所有兴趣的深度用户点对集合计算当前迭代时损失函数对应的数值。

进一步地，损失函数数值计算模块1405，在根据当前迭代时各用户对各兴趣的无偏置评分确定当前所有用户的深度兴趣点对集合及当前所有兴趣的深度用户点对集合时，具体用于：

获取当前迭代时各用户的所有兴趣对应的无偏置评分并分别进行降序排序；筛选出当前迭代时位于所有用户的前预设百分比分位点对应的兴趣；将当前迭代时所有用户及对应的兴趣组成的点对确定为当前所有用户的深度兴趣点对集合；获取当前迭代时各兴趣的所有用户对应的无偏置评分并分别进行降序排序；筛选出当前迭代时位于所有兴趣的前预设百分比分位点对应的用户；将当前迭代时所有兴趣及对应的用户组成的点对确定为当前所有兴趣的深度用户点对集合。

进一步地，损失函数数值计算模块1405，在根据当前所有用户的深度兴趣点对集合和当前所有兴趣的深度用户点对集合计算当前迭代时损失函数对应的数值时，具体用于：

计算当前所有用户的深度兴趣点对集合与当前所有兴趣的深度用户点对集合的当前交集；计算当前交集中的点对个数与当前所有用户的深度兴趣点对集合中的点对个数的当前商值；将数值1与当前商值的差值确定为当前迭代时损失函数对应的数值。

进一步地，点对集合确定模块1404，具体用于：

获取收敛后的各用户对各兴趣的无偏置评分对应的收敛后的所有用户的深度兴趣点对集合或收敛后的所有兴趣的深度用户点对集合；将收敛后的所有用户的深度兴趣点对集合或收敛后的所有兴趣的深度用户点对集合确定为深度兴趣用户点对集合。

进一步地，无偏置评分计算模块1401，还用于：

若确定不满足预设的收敛条件，则计算下次迭代时各用户对各兴趣的无偏置评分；损失函数数值计算模块，还用于：根据下一次迭代时各用户对各兴趣的无偏置评分计算下次迭代时的损失函数对应的数值。

本实施例提供的数据筛选装置可以执行图5-图12所示方法实施例的技术方案，其实现原理和技术效果与图5-图12所示方法实施例类似，在此不再一一赘述。

根据本申请的实施例，本申请还提供了一种电子设备和一种可读存储介质。

如图15所示，是根据本申请实施例的数据筛选方法的电子设备的框图。电子设备旨在各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图15所示，该电子设备包括：一个或多个处理器1501、存储器1502，以及用于连接各部件的接口，包括高速接口和低速接口。各个部件利用不同的总线互相连接，并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理，包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如，耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中，若需要，可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样，可以连接多个电子设备，各个设备提供部分必要的操作(例如，作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图15中以一个处理器1501为例。

存储器1502即为本申请所提供的非瞬时计算机可读存储介质。其中，存储器存储有可由至少一个处理器执行的指令，以使至少一个处理器执行本申请所提供的数据筛选方法。本申请的非瞬时计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行本申请所提供的数据筛选方法。

存储器1502作为一种非瞬时计算机可读存储介质，可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块，如本申请实施例中的数据筛选方法对应的程序指令/模块(例如，附图13所示的请求接收模块1301，数据筛选模块1302和数据输出模块1303)。处理器1501通过运行存储在存储器1502中的非瞬时软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述方法实施例中的数据筛选方法。

存储器1502可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据图15的电子设备的使用所创建的数据等。此外，存储器1502可以包括高速随机存取存储器，还可以包括非瞬时存储器，例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中，存储器1502可选包括相对于处理器1501远程设置的存储器，这些远程存储器可以通过网络连接至图15的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

图15的电子设备还可以包括：输入装置1503和输出装置1504。处理器1501、存储器1502、输入装置1503和输出装置1504可以通过总线或者其他方式连接，图15中以通过总线连接为例。

输入装置1503可接收输入的语音、数字或字符信息，以及产生与图15的电子设备的用户设置以及功能控制有关的键信号输入，例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置1504可以包括语音播放设备、显示设备、辅助照明装置(例如，led)和触觉反馈装置(例如，振动电机)等。该显示设备可以包括但不限于，液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中，显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令，并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(pld))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案，由于预先确定了深度兴趣用户点对集合，在深度兴趣用户点对集合中的每个用户兴趣点对均是根据收敛后的各用户对各兴趣的无偏置评分确定的，能够有效消除各用户对各兴趣的评分中与兴趣相关的偏置分值及与用户相关的偏置分值，所以可有效消除长尾效应的影响，能够准确确定出兴趣的深度用户和/或用户的深度爱好兴趣。进而能够提高应用程序的智能化水平。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本申请公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本申请保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等，均应包含在本申请保护范围之内。

技术特征：

1.一种数据筛选方法，其特征在于，所述方法应用于电子设备，所述方法包括：

接收数据筛选请求，所述数据筛选请求为深度用户筛选请求和/或深度兴趣筛选请求；

响应于所述数据筛选请求，从预先确定的深度兴趣用户点对集合中获取对应的深度用户和/或对应的深度兴趣；其中，所述深度兴趣用户点对集合是根据收敛后的各用户对各兴趣的无偏置评分确定的；

输出所述对应的深度用户和/或所述对应的深度兴趣。

2.根据权利要求1所述的方法，其特征在于，所述从预先确定的深度兴趣用户点对集合中获取对应的深度用户和/或对应的深度兴趣之前，还包括；

计算当前迭代时各用户对各兴趣的无偏置评分；

判断是否满足预设的收敛条件；

若确定满足预设的收敛条件，则将当前迭代时各用户对各兴趣的无偏置评分确定为收敛后的各用户对各兴趣的无偏置评分；

采用所述收敛后的各用户对各兴趣的无偏置评分确定所述深度兴趣用户点对集合。

3.根据权利要求2所述的方法，其特征在于，所述计算当前迭代时各用户对各兴趣的无偏置评分，包括：

获取上次迭代时各用户对各兴趣的无偏置评分；

根据上次迭代时各用户对各兴趣的无偏置评分计算上次迭代时各用户偏置分值及上次迭代时各兴趣偏置分值；

根据所述上次迭代时各用户对各兴趣的无偏置评分、所述上次迭代时对应的用户偏置分值及所述上次迭代时对应的兴趣偏置分值计算所述当前迭代时各用户对各兴趣的无偏置评分。

4.根据权利要求3所述的方法，其特征在于，所述根据上次迭代时各用户对各兴趣的无偏置评分计算上次迭代时各用户偏置分值及上次迭代时各兴趣偏置分值，包括：

获取上次迭代时各用户所有兴趣对应的无偏置评分并分别进行降序排序；

将排在各用户所有兴趣中预设百分比分位点的无偏置评分确定为所述上次迭代时各用户偏置分值；

获取上次迭代时各兴趣所有用户对应的无偏置评分并分别进行降序排序；

将排在各兴趣所有用户中预设百分比分位点的无偏置评分确定为所述上次迭代时各兴趣偏置分值。

5.根据权利要求3所述的方法，其特征在于，所述根据所述上次迭代时各用户对各兴趣的无偏置评分、所述上次迭代时对应的用户偏置分值及所述上次迭代时对应的兴趣偏置分值计算所述当前迭代时各用户对各兴趣的无偏置评分，包括：

计算所述上次迭代时各用户对各兴趣的无偏置评分与所述上次迭代时对应的用户偏置分值的各第一差值；

计算各第一差值与所述上次迭代时对应的兴趣偏置分值的各第二差值；

将所述各第二差值确定为所述当前迭代时各用户对各兴趣的无偏置评分。

6.根据权利要求2所述的方法，其特征在于，所述计算当前迭代时各用户对各兴趣的无偏置评分之后，还包括：

根据所述当前迭代时各用户对各兴趣的无偏置评分计算当前迭代时损失函数对应的数值；

所述判断是否满足预设的收敛条件包括：

判断当前迭代时损失函数的数值与上次迭代时损失函数的数值的差值是否小于预设阈值；

若所述差值小于预设阈值，则确定满足预设的收敛条件；

若所述差值大于或等于预设阈值，则确定不满足预设的收敛条件。

7.根据权利要求6所述的方法，其特征在于，所述根据所述当前迭代时各用户对各兴趣的无偏置评分计算当前迭代时损失函数对应的数值，包括：

根据所述当前迭代时各用户对各兴趣的无偏置评分确定当前所有用户的深度兴趣点对集合及当前所有兴趣的深度用户点对集合；

根据所述当前所有用户的深度兴趣点对集合和所述当前所有兴趣的深度用户点对集合计算所述当前迭代时损失函数对应的数值。

8.根据权利要求7所述的方法，其特征在于，所述根据所述当前迭代时各用户对各兴趣的无偏置评分确定当前所有用户的深度兴趣点对集合及当前所有兴趣的深度用户点对集合，包括：

获取当前迭代时各用户的所有兴趣对应的无偏置评分并分别进行降序排序；

筛选出当前迭代时位于所有用户的前预设百分比分位点对应的兴趣；

将所述当前迭代时所有用户及所述对应的兴趣组成的点对确定为当前所有用户的深度兴趣点对集合；

获取当前迭代时各兴趣的所有用户对应的无偏置评分并分别进行降序排序；

筛选出当前迭代时位于所有兴趣的前预设百分比分位点对应的用户；

将所述当前迭代时所有兴趣及所述对应的用户组成的点对确定为当前所有兴趣的深度用户点对集合。

9.根据权利要求7所述的方法，其特征在于，所述根据所述当前所有用户的深度兴趣点对集合和所述当前所有兴趣的深度用户点对集合计算所述当前迭代时损失函数对应的数值，包括：

计算所述当前所有用户的深度兴趣点对集合与所述当前所有兴趣的深度用户点对集合的当前交集；

计算所述当前交集中的点对个数与所述当前所有用户的深度兴趣点对集合中的点对个数的当前商值；

将数值1与所述当前商值的差值确定为所述当前迭代时损失函数对应的数值。

10.根据权利要求7所述的方法，其特征在于，所述采用所述收敛后的各用户对各兴趣的无偏置评分确定所述深度兴趣用户点对集合，包括：

获取所述收敛后的各用户对各兴趣的无偏置评分对应的收敛后的所有用户的深度兴趣点对集合或收敛后的所有兴趣的深度用户点对集合；

将所述收敛后的所有用户的深度兴趣点对集合或所述收敛后的所有兴趣的深度用户点对集合确定为所述深度兴趣用户点对集合。

11.根据权利要求6所述的方法，其特征在于，若确定不满足预设的收敛条件，则还包括：

计算下次迭代时各用户对各兴趣的无偏置评分；

根据所述下一次迭代时各用户对各兴趣的无偏置评分计算下次迭代时的损失函数对应的数值。

12.一种数据筛选装置，其特征在于，所述装置位于电子设备中，所述装置包括：

请求接收模块，用于接收数据筛选请求，所述数据筛选请求为深度用户筛选请求和/或深度兴趣筛选请求；

数据筛选模块，用于响应于所述数据筛选请求，从预先确定的深度兴趣用户点对集合中获取对应的深度用户和/或对应的深度兴趣；其中，所述深度兴趣用户点对集合是根据收敛后的各用户对各兴趣的无偏置评分确定的；

数据输出模块，用于输出所述对应的深度用户和/或所述对应的深度兴趣。

13.根据权利要求12所述的装置，其特征在于，还包括；

无偏置评分计算模块，用于计算当前迭代时各用户对各兴趣的无偏置评分；

收敛判断模块，用于判断是否满足预设的收敛条件；

无偏置评分确定模块，用于若确定满足预设的收敛条件，则将当前迭代时各用户对各兴趣的无偏置评分确定为收敛后的各用户对各兴趣的无偏置评分；

点对集合确定模块，用于采用所述收敛后的各用户对各兴趣的无偏置评分确定所述深度兴趣用户点对集合。

14.根据权利要求13所述的装置，其特征在于，所述无偏置评分计算模块，具体用于：

15.根据权利要求14所述的装置，其特征在于，所述无偏置评分计算模块，在根据上次迭代时各用户对各兴趣的无偏置评分计算上次迭代时各用户偏置分值及上次迭代时各兴趣偏置分值时，具体用于：

16.根据权利要求14所述的装置，其特征在于，所述无偏置评分计算模块，在根据所述上次迭代时各用户对各兴趣的无偏置评分、所述上次迭代时对应的用户偏置分值及所述上次迭代时对应的兴趣偏置分值计算所述当前迭代时各用户对各兴趣的无偏置评分时，具体用于：

17.根据权利要求14所述的装置，其特征在于，还包括：

损失函数数值计算模块，用于根据所述当前迭代时各用户对各兴趣的无偏置评分计算当前迭代时损失函数对应的数值；

所述收敛判断模块，具体用于：

判断当前迭代时损失函数的数值与上次迭代时损失函数的数值的差值是否小于预设阈值；若所述差值小于预设阈值，则确定满足预设的收敛条件；若所述差值大于或等于预设阈值，则确定不满足预设的收敛条件。

18.根据权利要求17所述的装置，其特征在于，所述损失函数数值计算模块，具体用于：

19.根据权利要求18所述的装置，其特征在于，所述损失函数数值计算模块，在根据所述当前迭代时各用户对各兴趣的无偏置评分确定当前所有用户的深度兴趣点对集合及当前所有兴趣的深度用户点对集合时，具体用于：

20.根据权利要求18所述的装置，其特征在于，所述损失函数数值计算模块，在根据所述当前所有用户的深度兴趣点对集合和所述当前所有兴趣的深度用户点对集合计算所述当前迭代时损失函数对应的数值时，具体用于：

21.根据权利要求18所述的装置，其特征在于，所述点对集合确定模块，具体用于：

22.根据权利要求17所述的装置，其特征在于，所述无偏置评分计算模块，还用于：

23.一种电子设备，其特征在于，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-11中任一项所述的方法。

24.一种存储有计算机指令的非瞬时计算机可读存储介质，其特征在于，所述计算机指令用于使所述计算机执行权利要求1-11中任一项所述的方法。

技术总结
本申请公开了数据筛选方法、装置、设备及存储介质，涉及智能搜索领域。具体实现方案为：该方法应用于电子设备，该方法包括：接收数据筛选请求，数据筛选请求为深度用户筛选请求和/或深度兴趣筛选请求；响应于数据筛选请求，从预先确定的深度兴趣用户点对集合中获取对应的深度用户和/或对应的深度兴趣；其中，深度兴趣用户点对集合是根据收敛后的各用户对各兴趣的无偏置评分确定的；输出对应的深度用户和/或对应的深度兴趣。能够有效消除各用户对各兴趣的评分中与兴趣相关的偏置分值及与用户相关的偏置分值，所以可有效消除长尾效应的影响，能够准确确定出兴趣的深度用户和/或用户的深度爱好兴趣。进而能够提高应用程序的智能化水平。

技术研发人员：许金泉
受保护的技术使用者：北京百度网讯科技有限公司
技术研发日：2020.01.20
技术公布日：2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-23515.html

专利

最新回复(0)