一种检测盗版书籍售卖的方法及其装置与流程

专利2022-06-29  126


本发明属于计算机信息
技术领域
,具体涉及一种检测盗版书籍售卖的方法及其装置。
背景技术
:在现有的方法中,通常采用人工筛查的方式,对电商平台中各商家所出售的图书进行筛查。然而电商平台中图书交易的数据非常之庞大,人工筛查的效率过低,无法有效打击盗版。技术实现要素:本发明旨在至少解决现有技术中存在的技术问题之一,提供一种检测盗版书籍售卖的方法,其可以自动监测盗版书籍的售卖,且能够较为准确地筛查出盗版书籍,提高检测盗版书籍的效率和准确性。解决本发明技术问题所采用的技术方案是一种检测盗版书籍售卖的方法,包括以下步骤:获取网络中各图书的图书交易数据以及各图书所关联的卖方信息,其中,图书交易数据包括图书的销量、售价、好评率、书名、国际标准书号中的任意多项;将获取到的各图书的图书交易数据,按照书名或国际标准书号进行分组,建立每本图书的图书交易数据组;按照预设的第一算法计算每本图书的平均售价;获取每本图书的图书交易数据组中,售价低于该图书的平均售价的图书交易数据,再结合该图书的好评率,按照预设的第二算法分别计算该图书的每条图书交易数据的售价异常值;根据各个卖方所出售的图书的售价异常值,按照预设的第三算法分别计算各个卖方的卖方异常值;结合卖方异常值和售价异常值计算每本图书的图书异常值,并判断计算出的图书异常值是否大于预设的图书异常阀值,若是,则该图书是盗版书籍,若否,则该图书不是盗版书籍。本发明提供的上述方法,通过自动获取网络中的图书交易数据,并根据图书交易数据计算各图书的售价异常值和各卖方的卖方异常值,再结合售价异常值和卖方异常值计算出图书异常值,之后根据图书异常值判断图书是否为盗版书籍,从而可以自动监测盗版书籍的售卖,且能够较为准确地筛查出盗版书籍,提高检测盗版书籍的效率和准确性。优选的是,在本发明提供的上述方法中,该方法还包括:若该图书是盗版书籍,则将回馈值1加入售卖该图书的卖方对应的卖方异常值中,对所述卖方异常值进行更新;若该图书不是盗版书籍,则将回馈值2加入售卖该图书的卖方对应的卖方异常值中,对所述卖方异常值进行更新。优选的是,在本发明提供的上述方法中,所述回馈值1的算法满足:v1=log2(m);所述回馈赠2的算法满足:v2=-log2(m);其中,v1为回馈值1,v2为回馈值2,m为图书的售价异常值。优选的是,在本发明提供的上述方法中,所述预设的第一算法满足:其中,p为图书的平均售价,pi该图书在对应的卖方的售价,si为该图书在对应的卖方的销量。优选的是,在本发明提供的上述方法中,所述预设的第二算法满足:其中,m为图书的售价异常值,p为该图书的平均售价,pi该图书在对应的卖方的售价,c为该图书在售价pi对应的卖方的好评率。优选的是,在本发明提供的上述方法中,所述预设的第三算法满足:rn=log2(∑m)其中,rn为卖方异常值,m为图书的售价异常值。优选的是,在本发明提供的上述方法中,所述预设的第三算法满足:rn=r1 log2(∑m) v1或者,rn=r1 log2(∑m) v2其中,rn为卖方异常值,r1为rn最近一次的历史卖方异常值,m为图书的售价异常值,v1为回馈值1,v2为回馈值2。优选的是,在本发明提供的上述方法中,所述按照预设的第一算法计算每本图书的平均售价,具体包括:将每本图书的图书交易数据,按照售价进行排序,取预设排序范围中的图书交易数据,按照预设的第一算法计算每本图书的平均售价。优选的是,在本发明提供的上述方法中,所述图书异常值f满足:f=rn×m;其中,rn为卖方异常值,m为图书的售价异常值。相应地,本发明还提供一种检测盗版书籍售卖的装置,包括:数据获取单元,用于获取网络中各图书的图书交易数据以及各图书所关联的卖方信息,其中,图书交易数据包括图书的销量、售价、好评率、书名、国际标准书号中的任意多项;数据分组单元,用于根据书名或国际标准书号,将获取到的各图书的图书交易数据进行分组,建立每本图书的图书交易数据组;均价计算单元,用于按照预设的第一算法计算每本图书的平均售价;售价异常值计算单元,用于获取每本图书的图书交易数据组中,售价低于该图书的平均售价的图书交易数据,再结合该图书的好评率,按照预设的第二算法分别计算该图书的每条图书交易数据的售价异常值;卖方异常值计算单元,用于根据各个卖方所出售的图书的售价异常值,按照预设的第三算法分别计算各个卖方的卖方异常值;盗版图书判断单元,用于结合卖方异常值和售价异常值计算每本图书的图书异常值,并判断计算出的图书异常值是否大于预设的图书异常阀值,若是,则该图书是盗版书籍,若否,则该图书不是盗版书籍。附图说明图1为本实施例提供的一种检测盗版书籍售卖的方法的一种实施例的流程图;图2为本实施例提供的一种检测盗版书籍售卖的方法的另一种实施例的流程图;图3为本实施例提供的一种检测盗版书籍售卖的装置的一种实施例的结构示意图;图4为本实施例提供的一种检测盗版书籍售卖的装置的另一种实施例的结构示意图。具体实施方式为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步地详细描述,显然,所描述的实施例仅是本发明的部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。附图中各部件的形状和大小不反映真实比例,目的只是为了便于对本发明实施例的内容的理解。如图1所示,本实施例提供一种检测盗版书籍售卖的方法,包括以下步骤:s1、获取网络中各图书的图书交易数据以及各图书所关联的卖方信息。具体地,可以通过爬虫技术(webcrawler)提取网络中,例如电商平台中,售卖图书的网页所包含的图书交易数据和相关的卖方(商家)信息。当然,也可以通过其他方式获取图书交易数据和卖方信息,具体的可以根据需要设计,在此不做限定。其中,图书交易数据可以包括图书的销量、售价、好评率、书名、国际标准书号(internationalstandardbooknumber,isbn)、售卖平台等信息中的任意多项。每条图书交易数据包括该图书所对应的卖方信息,即出售该图书的卖方信息,卖方信息可以为每条图书交易数据所对应的卖方,以便获知各图书交易数据中,出售某图书的卖方清单,以及对应的卖方所出售的图书清单。s2、将获取到的各图书的图书交易数据,按照书名或isbn进行分组,建立每本图书的图书交易数据组。具体地,获取每条图书交易数据中,包含的书名或isbn,将书名相同或isbn相同的图书交易数据分为一个图书交易数据组,即为该书名或isbn对应的图书的图书交易数据组。通过将多条图书交易数据按照书名或isbn分组,可以将各个卖方的图书交易数据组中,售卖同一图书的数据整合在一起,便于进行盗版图书的检测。例如,s1中获取到三条图书交易数据,如下表:对三条图书交易数据组进行分组,则图书交易数据1和图书交易数据3分为图书交易数据组a,对应isbn为issn1908-789的图书,相应地,图书交易数据2分为图书交易数据组b,对应isbn为issn1969-725的图书。具体的对图书交易数据进行分组的方法,可以根据需要设计,只要能将同一图书在各个卖方的图书交易数据归类在该图书下即可,在此不做限定。s3、按照预设的第一算法计算每本图书的平均售价。具体地,在本实施例提供的上述方法中,获取每本图书的图书交易数据组中,出售每本图书的各个卖家所对应的该图书的销量和售价,并计算该图书的平均售价,计算该图书的平均售价所用的预设的第一算法可以为多种方式,例如预设的第一算法可以满足:其中,p为所计算的图书的平均售价,pi该图书在对应的卖方的售价,si为该图书在对应的卖方的销量。将出售所计算的图书的各个卖家中,每个卖家下该图书的售价和销量相乘,可以得到每个卖家下该图书的总销售额,再将各个卖家下该图书的总销售额相加,得到该图书的总销量额,再将各个卖家下该图书的销量相加,得到该图书的总销量,用该图书的总销量额除以该图书的总销量,即可得到该图书的平均售价。按照上述方法,依次获取每本图书的图书交易数据组中的图书交易数据,计算出每本图书的平均售价。可选地,在本实施例提供的上述方法中,在s3中,还可以先将每本图书的图书交易数据组中的图书交易数据,按照售价进行排序,取预设排序范围中的图书交易数据,按照预设的第一算法计算每本图书的平均售价。由于盗版图书通常为了获利售价较低,因此可以通过将图书交易数据按售价进行排序后,选取预设排序范围的图书交易数据进行计算,从而可以过滤掉售价正常(极大概率为正版书籍)的图书交易数据,减少数据的处理量,在加快计算速度的同时,能够减少系统资源的占用率。其中,每本图书的图书交易数据可以按照售价从高到底排序,也可以按照售价从低到高排序,预设的排序范围也可以根据需要自定,在此不做限定。若图书交易数据按照售价从高到低排序,则可选取排序靠后(即售价低)的图书交易数据进行计算,若图书交易数据按照售价从低到高排序,则可选取排序靠前(即售价低)的图书交易数据进行计算,具体的可以根据需要设计,在此不做限定。例如,图书a的图书交易数据组中,图书a在各个卖方的售价和销量按照售价从低到高进行排序后如下表:卖方信息售价(元)销量(本)店铺e25632店铺f44269店铺a45200店铺b50300店铺c53354店铺d55256选取前50%的图书交易数据进行计算,则图书a的平均售价p可以按照以下计算:则可以计算出图书a的平均售价为52.36元。s4、获取每本图书的图书交易数据组中,售价低于该图书的平均售价p的图书交易数据,再结合该图书的好评率,按照预设的第二算法分别计算该图书的每条图书交易数据的售价异常值。具体地,在本实施例提供的上述方法中,获取每本图书的图书交易数据组中,售价低于该图书的平均售价p的图书交易数据,每条图书交易数据中包括但不限于该图书在对应的卖方的售价pi,以及该图书的好评率c,根据s3中计算出的该图书的平均售价p、该图书在各个对应的卖方的售价pi以及该图书在对应的卖方的好评率c,计算该图书的售价低于平均售价的各条图书交易数据的售价异常值m,计算m的预设的第二算法可以为多种方式,例如,预设的第二算法可以满足:若某一图书的某条图书交易数据中,该图书的出售售价低于该图书的平均售价,则这条图书交易数据有较大的概率可能为该图书的盗版图书的出售记录。并且,通常盗版图书的好评率较低。在每本图书的图书交易数据组中筛选出售价低于平均售价的图书交易数据,将这些数据视为售价异常数据,再结合每条售价异常数据对应的卖家下该图书的好评率去计算该图书的售价异常值,能够更准确地检测到出售图书的异常数据。具体的售价异常值的计算方法可以根据需要设计,在此不做限定。s5、根据各个卖方所出售的图书的售价异常值m,按照预设的第三算法分别计算各个卖方的卖方异常值。具体地,在本实施例提供的上述方法中,在s4中得到售价低于平均售价的各条图书交易数据的售价异常值m,根据各条售价异常值对应的卖方信息,可以计算每个卖方的卖方异常值rn,计算卖方异常值rn的预设的第三算法可以为多种方式,例如,预设的第三算法可以满足:rn=log2(∑m)通过将某一卖家对应的所有售价低于平均售价的图书交易数据的售价异常值相加m,可以得出该卖家所出售的所有售价异常的图书的售价异常总值(∑m),再对售价异常总值取对数,即对售价异常总值进行平滑处理,得到更准确的卖方异常值rn。具体的计算卖方异常值rn的算法还可以有多种方式,具体的可以根据需要设计,在此不做限定。s6、结合卖方异常值rn和售价异常值m计算每本图书的图书异常值f,并判断计算出的图书异常值f是否大于预设的图书异常阀值fn,若是,则该图书是盗版书籍,若否,则该图书不是盗版书籍。具体地,在本实施例提供的上述方法中,对于一本图书,结合s4中计算得到该图书的售价异常值m,以及s5中计算得到的售卖该图书的卖方的卖方异常值rn,可以计算该图书的图书异常值f,计算f的算法可以为多种方式,例如图书异常值f满足:f=rn×m。可以预设一个图书异常阀值fn,实时检测每本图书的图书异常值f,将每本图书的图书异常值f与图书异常阀值fn进行比较,判断该图书的图书异常值f是否大于预设的图书异常阀值fn,若是,即若f>fn,则该图书的图书异常值超标,该图书为盗版图书,若否,即若f≤fn,则该图书的图书异常值在正常范围之内,该图书不是盗版图书。可选地,为了更准确地判断盗版图书,将每本图书的图书异常值f与图书异常阀值fn进行比较后,若该图书的图书异常值f大于预设的图书异常阀值fn,可以将该图书的异常图书交易数据输出给人工进行核查,再根据核查结果判定该图书是否为盗版图书。可选地,如图2所示,在本实施例提供的上述方法中,该方法还可以包括:若在s6中判断该图书是盗版书籍,则进行s71。s71、将回馈值1加入售卖该图书的卖方对应的卖方异常值中,对卖方异常值进行更新。若在s6中判断该图书不是盗版书籍,则进行s72。s72、将回馈值2加入售卖该图书的卖方对应的卖方异常值中,对卖方异常值进行更新。具体地,在本实施例提供的上述方法中,s71中回馈值1的算法可以为多种方式,例如回馈值1的算法可以满足:v1=log2(m)。s72中回馈值2的算法可以为多种方式,例如回馈值2的算法可以满足:v2=-log2(m)。其中,v1为回馈值1,v2为回馈值2,m为图书的售价异常值。若该图书为盗版图书,则对该图书的售价异常值m做平滑处理(取对数)后,将平滑处理后的售价异常值的正项加入卖方异常值rn中,增加卖方的异常程度,rn越大该卖家售卖盗图书的概率越大。若该图书不是盗版图书,则对该图书的售价异常值m做平滑处理(取对数)后,将平滑处理后的售价异常值的负项加入卖方异常值rn中,减少卖方的异常程度,rn越小该卖家售卖盗图书的概率越小。通过上述方法,可以使得卖方异常值rn更加准确,从而使盗版图书的检测更正准确。进一步地,若在本实施例提供的检测盗版图书售卖的方法中,加入回馈值的反馈,则计算卖家异常值rn所用的预设的第三算法具体可以按照下列公式进行计算:若s6中判断该图书为盗版图书,则进行s71,将回馈值1(v1)返回至s5中计算卖家异常值rn=r1 log2(∑m) v1。或者,若s6中判断该图书为盗版图书,则进行s72,将回馈值2(v2)返回至s5中计算卖家异常值rn=r1 log2(∑m) v2。其中,rn为卖方异常值,r1为rn最近一次(即上一次反馈的)的历史卖方异常值,m为图书的售价异常值,v1为回馈值1,v2为回馈值2。通过上述计算卖家异常值的方法,即可以基于大数据的变化,也就是基于网络中各卖方的图书交易数据的变化,实施更新卖家异常值rn,卖家异常值rn会在反馈回馈值1或回馈值2的过程中自我学习,从而使得卖家异常值rn越来越准确,进而使得对盗版书籍售卖的检测越来越准确。相应地,如图3所示,本实施例还提供一种检测盗版书籍售卖的装置,包括:数据获取单元1,其用于获取网络中各图书的图书交易数据以及各图书所关联的卖方信息,其中,图书交易数据包括图书的销量、售价、好评率、书名、国际标准书号中的任意多项。数据分组单元2,其用于根据书名或国际标准书号,将获取到的各图书的图书交易数据进行分组,建立每本图书的图书交易数据组。均价计算单元3,其用于按照预设的第一算法计算每本图书的平均售价。售价异常值计算单元4,其用于获取每本图书的图书交易数据组中,售价低于该图书的平均售价的图书交易数据,再结合该图书的好评率,按照预设的第二算法分别计算该图书的每条图书交易数据的售价异常值。卖方异常值计算单元5,其用于根据各个卖方所出售的图书的售价异常值,按照预设的第三算法分别计算各个卖方的卖方异常值。盗版图书判断单元6,其用于结合卖方异常值和售价异常值计算每本图书的图书异常值,并判断计算出的图书异常值是否大于预设的图书异常阀值,若是,则该图书是盗版书籍,若否,则该图书不是盗版书籍。可选地,如图4所示,在本实施例提供的上述装置中,该装置还可以包括:回馈值单元7,其同于若该图书是盗版书籍,则将回馈值1加入售卖该图书的卖方对应的卖方异常值中,对所述卖方异常值进行更新。若该图书不是盗版书籍,则将回馈值2加入售卖该图书的卖方对应的卖方异常值中,对所述卖方异常值进行更新。可选地,在本实施例提供的上述装置中,在回馈值单元7中,回馈值1的算法可以是v1=log2(m)。回馈赠2的算法可以是v2=-log2(m)。其中,v1为回馈值1,v2为回馈值2,m为图书的售价异常值。可选地,在本实施例提供的上述装置中,在均价计算单元3中,预设的第一算法满足:其中,p为图书的平均售价,pi该图书在对应的卖方的售价,si为该图书在对应的卖方的销量。可选地,在本实施例提供的上述装置中,在售价异常值计算单元4中,预设的第二算法满足:其中,m为图书的售价异常值,p为该图书的平均售价,pi该图书在对应的卖方的售价,c为该图书在售价pi对应的卖方的好评率。可选地,在本实施例提供的上述装置中,在卖方异常值计算单元5中,预设的第三算法可以为多种方式,例如预设的第三算法可以满足:rn=log2(∑m)其中,rn为卖方异常值,m为图书的售价异常值。又例如,预设的第三算法可以满足:rn=r1 log2(∑m) v1或者,rn=r1 log2(∑m) v2其中,rn为卖方异常值,r1为rn最近一次的历史卖方异常值,m为图书的售价异常值,v1为回馈值1,v2为回馈值2。具体的可以根据需要设计,在此不做限定。可选地,在本实施例提供的上述装置中,均价计算单元3具体用于:将每本图书的图书交易数据,按照售价进行排序,取预设排序范围中的图书交易数据,按照预设的第一算法计算每本图书的平均售价。可选地,在本实施例提供的上述装置中,在盗版图书判断单元6中,图书异常值f满足:f=rn×m;其中,rn为卖方异常值,m为图书的售价异常值。综上所述,本发明提供的检测盗版书籍售卖的方法,通过自动获取网络中的图书交易数据,并根据图书交易数据计算各图书的售价异常值和各卖方的卖方异常值,再结合售价异常值和卖方异常值计算出图书异常值,之后根据图书异常值判断图书是否为盗版书籍,从而可以自动监测盗版书籍的售卖,且能够较为准确地筛查出盗版书籍,提高检测盗版书籍的效率和准确性。可以理解的是,以上实施方式仅仅是为了说明本发明的原理而采用的示例性实施方式,然而本发明并不局限于此。对于本领域内的普通技术人员而言,在不脱离本发明的精神和实质的情况下,可以做出各种变型和改进,这些变型和改进也视为本发明的保护范围。当前第1页1 2 3 
技术特征:

1.一种检测盗版书籍售卖的方法,其特征在于,包括以下步骤:

获取网络中各图书的图书交易数据以及各图书所关联的卖方信息,其中,图书交易数据包括图书的销量、售价、好评率、书名、国际标准书号中的任意多项;

将获取到的各图书的图书交易数据,按照书名或国际标准书号进行分组,建立每本图书的图书交易数据组;

按照预设的第一算法计算每本图书的平均售价;

获取每本图书的图书交易数据组中,售价低于该图书的平均售价的图书交易数据,再结合该图书的好评率,按照预设的第二算法分别计算该图书的每条图书交易数据的售价异常值;

根据各个卖方所出售的图书的售价异常值,按照预设的第三算法分别计算各个卖方的卖方异常值;

结合卖方异常值和售价异常值计算每本图书的图书异常值,并判断计算出的图书异常值是否大于预设的图书异常阀值,若是,则该图书是盗版书籍,若否,则该图书不是盗版书籍。

2.根据权利要求1所述的方法,其特征在于,该方法还包括:

若该图书是盗版书籍,则将回馈值1加入售卖该图书的卖方对应的卖方异常值中,对所述卖方异常值进行更新;

若该图书不是盗版书籍,则将回馈值2加入售卖该图书的卖方对应的卖方异常值中,对所述卖方异常值进行更新。

3.根据权利要求2所述的方法,其特征在于,所述回馈值1的算法满足:v1=log2(m);

所述回馈赠2的算法满足:v2=-log2(m);

其中,v1为回馈值1,v2为回馈值2,m为图书的售价异常值。

4.根据权利要求1所述的方法,其特征在于,所述预设的第一算法满足:

其中,p为图书的平均售价,pi该图书在对应的卖方的售价,si为该图书在对应的卖方的销量。

5.根据权利要求1所述的方法,其特征在于,所述预设的第二算法满足:

其中,m为图书的售价异常值,p为该图书的平均售价,pi该图书在对应的卖方的售价,c为该图书在售价pi对应的卖方的好评率。

6.根据权利要求1所述的方法,其特征在于,所述预设的第三算法满足:

rn=log2(∑m)

其中,rn为卖方异常值,m为图书的售价异常值。

7.根据权利要求2所述的方法,其特征在于,所述预设的第三算法满足:

rn=r1 log2(∑m) v1

或者,

rn=r1 log2(∑m) v2

其中,rn为卖方异常值,r1为rn最近一次的历史卖方异常值,m为图书的售价异常值,v1为回馈值1,v2为回馈值2。

8.根据权利要求1所述的方法,其特征在于,所述按照预设的第一算法计算每本图书的平均售价,具体包括:

将每本图书的图书交易数据,按照售价进行排序,取预设排序范围中的图书交易数据,按照预设的第一算法计算每本图书的平均售价。

9.根据权利要求1所述的方法,其特征在于,所述图书异常值f满足:f=rn×m;

其中,rn为卖方异常值,m为图书的售价异常值。

10.一种检测盗版书籍售卖的装置,其特征在于,包括:

数据获取单元,用于获取网络中各图书的图书交易数据以及各图书所关联的卖方信息,其中,图书交易数据包括图书的销量、售价、好评率、书名、国际标准书号中的任意多项;

数据分组单元,用于根据书名或国际标准书号,将获取到的各图书的图书交易数据进行分组,建立每本图书的图书交易数据组;

均价计算单元,用于按照预设的第一算法计算每本图书的平均售价;

售价异常值计算单元,用于获取每本图书的图书交易数据组中,售价低于该图书的平均售价的图书交易数据,再结合该图书的好评率,按照预设的第二算法分别计算该图书的每条图书交易数据的售价异常值;

卖方异常值计算单元,用于根据各个卖方所出售的图书的售价异常值,按照预设的第三算法分别计算各个卖方的卖方异常值;

盗版图书判断单元,用于结合卖方异常值和售价异常值计算每本图书的图书异常值,并判断计算出的图书异常值是否大于预设的图书异常阀值,若是,则该图书是盗版书籍,若否,则该图书不是盗版书籍。

技术总结
本发明提供一种检测盗版书籍售卖的方法及其装置,属于计算机信息技术领域。本发明提供的一种推检测盗版书籍售卖的方法,包括获取网络中的图书交易数据和卖方信息,建立每本图书的图书交易数据组,计算每本图书的平均售价,根据平均售价和好评率计算每本图书的售价异常值,计算各个卖方的卖方异常值,结合售价异常值和卖方异常值计算图书的图书异常值,根据图书异常值判断该图书是否为盗版书籍。通过自动获取网络中的图书交易数据,并结合售价异常值和卖方异常值计算出图书异常值,之后根据图书异常值判断图书是否为盗版书籍,从而可以自动监测盗版书籍的售卖,且能够较为准确地筛查出盗版书籍,提高检测盗版书籍的效率和准确性。

技术研发人员:孙艺恬;孙全智;耿溟
受保护的技术使用者:北京十分科技有限公司
技术研发日:2019.10.29
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-12955.html

最新回复(0)