一种演职人员命名实体消歧方法及系统与流程

专利2022-06-29  61


本发明涉及软件技术领域,特别涉及一种演职人员命名实体消歧方法及系统。



背景技术:

利用智能电视上的软件播放电视剧、电影等艺术作品时,通常通过媒资库存储艺术作品的相关信息,相应的,电视剧的演职人员信息会存在媒资库中。但是经常出现同一演职人员的演职人员信息多次存储在媒资库中,造成占用媒资库的大量资源。

所以,如何避免媒资库中存储有同一演职人员的多个演职人员信息成为本领域技术人员亟待解决的问题。



技术实现要素:

基于上述技术问题,本发明的发明目的在于提供一种演职人员命名实体消歧方法及系统。

本申请实施例第一方面示出一种演职人员命名实体消歧方法,包括:

获取演职人员信息,其中,所述演职人员信息包括姓名;

根据所述演职人员信息,确定歧义姓名,所述歧义姓名是指数量不小于两个的姓名;

利用搜索引擎,确定所述歧义姓名对应的搜索信息;

根据所述演职人员信息和搜索信息,处理歧义姓名对应的演职人员信息。

本申请实施例第二方面示出一种演职人员命名实体消歧装置,包括:

服务器,服务器被配置为:

获取演职人员信息,其中,所述演职人员信息包括姓名;

根据所述演职人员信息,确定歧义姓名,所述歧义姓名是指数量不小于两个的姓名;

利用搜索引擎,确定所述歧义姓名对应的搜索信息;

根据所述演职人员信息和搜索信息,处理歧义姓名对应的演职人员信息

由以上技术方案可以看出,本申请实施例示出一种演职人员命名实体消歧方法及系统,本申请实施例示出的技术方案中,所述方法包括:获取演职人员信息,其中,所述演职人员信息包括姓名;根据所述演职人员信息,确定歧义姓名,所述歧义姓名是指数量不小于两个的姓名;利用搜索引擎,确定所述歧义姓名对应的搜索信息;根据所述演职人员信息和搜索信息,处理歧义姓名对应的演职人员信息。本申请实施例中,通过利用搜索引擎,得到搜索信息,通过搜索信息和媒资库中的演职人员信息的对应关系,处理歧义姓名对应的演职人员信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1中示例性示出了根据实施例中的一种演职人员命名实体消歧方法的流程图;

图2中示例性示出了根据实施例中的具有歧义姓名的数个人物的界面;

图3中示例性示出了根据实施例中的根据演职人员信息和搜索信息,处理歧义姓名对应的演职人员信息的流程图;

图4中示例性示出了根据实施例中的确定演职人员信息和搜索信息的相似度的流程图。

具体实施方式

为使本申请示例性实施例的目的、技术方案和优点更加清楚,下面将结合本申请示例性实施例中的附图,对本申请示例性实施例中的技术方案进行清楚、完整地描述,显然,所描述的示例性实施例仅是本申请一部分实施例,而不是全部的实施例。

现有技术中,利用智能电视上的软件播放电视剧、电影等艺术作品时,通常通过媒资库存储艺术作品的相关信息,相应的,电视剧的演职人员信息会存在媒资库中。但是经常出现同一演职人员的演职人员信息多次存储在媒资库中,造成占用媒资库的大量资源。

基于上述技术问题,本申请第一方面示出一种演职人员命名实体消歧方法。由于演职人员可能存在具有歧义姓名的情况,所述歧义姓名是指媒资库中数量不小于两个的姓名。如果直接将媒资库中具有歧义姓名的演职人员信息删除,只留有歧义名字的一个演职人员信息,则会存在媒资库中演职人员信息不全的情况。所以本申请实施例中,不是采取直接将媒资库中具有歧义姓名的演职人员信息删除的方法,而是采用在确定包含歧义姓名的演职人员信息后,通过搜索引擎确定的搜索信息,利用搜索信息继续确定具有歧义姓名的演职人员是否为同一个演职人员,最终来处理歧义姓名对应的演职人员信息的方法。该方法可以避免媒资库中存储有指示同一演职人员的多个演职人员信息,实现一个演职人员在媒资库中仅存有一个演职人员信息,避免重复占用媒资库的资源。

本申请实施例的一种演职人员命名实体消歧方法,如图1所示,所述方法包括:

s100、获取媒资库中的全部演职人员信息,其中,所述演职人员信息包括姓名;

s200、根据所述演职人员信息,确定歧义姓名;

s300、利用搜索引擎,确定所述歧义姓名对应的搜索信息;

需要说明的是,所述搜索引擎为第三方搜索引擎,可以为百度,谷歌、雅虎等。当利用搜索引擎,搜索歧义姓名后,会确定所述歧义姓名对应的搜索信息。所述搜索信息包括具有歧义姓名的数个人物,例如,如图2所示,包括中国内地男演员、盲人歌手、辽宁经济职业技术学院副教授等。

在一些实施例中,所述利用搜索引擎,确定所述歧义姓名对应的搜索信息的步骤包括:

利用搜索引擎,确定所述歧义姓名对应的粗略搜索信息,所述粗略搜索信息包括职业;

根据所述粗略搜索信息,筛选出预设职业的粗略搜索信息,所述预设职业的粗略搜索信息为搜索信息。

具体的,所述预设职业可以设置为导演、演员、运动员、歌手、编剧等适配演职人员特点的职业。由于利用搜索引擎,得到的具有歧义姓名的人物数量众多,很多人物偏离了演职人员的特点,所以本申请实施例中,通过设置预设职业,将符合演职人员特点的粗略搜索信息作为搜索信息。

s400、根据所述演职人员信息和搜索信息,处理歧义姓名对应的演职人员信息。

具体的,根据媒资库的演职人员信息和通过搜索引擎确认的搜索信息,确定与每个歧义姓名对应的演职人员信息最相似的搜索信息,如果歧义姓名对应的演职人员信息对应的最相似的搜索信息相同,则指示歧义姓名对应的演职人员信息为同一个演职人员。如果是同一个演职人员,则将对应的演职人员信息进行组合后保留在媒资库中,其余内容删除。如果歧义姓名对应的演职人员信息对应的最相似的搜索信息不同,则指示歧义姓名对应的演职人员不是同一个。如果不是同一个演职人员,则保留歧义姓名对应的全部演职人员信息。

在一些实施例中,如图3所示,所述根据演职人员信息和搜索信息,处理歧义姓名对应的演职人员信息的步骤包括:

s401、确定演职人员信息和搜索信息的相似度;

s402、筛选出与演职人员信息相似度最高的搜索信息;

s403、根据每个演职人员信息对应的相似度最高的搜索信息,处理歧义姓名对应的演职人员信息。

例如,本申请实施例中每一个演职人员信息均有一个id,该id为演职人员的唯一标识号,id为001的王凯对应的在媒资库中的演职人员信息a中包括代表作名称为大江大河、琅琊榜和伪装者;id为002的王凯对应的在媒资库中的演职人员信息b中包括代表作名称为欢乐颂、北平无战事;id为003的王凯对应的在媒资库中的演职人员信息c中包括代表作名称为暹罗密码、我的播音系女友、同城邂逅;利用搜索引擎,搜索王凯得到的搜索信息a中包括代表作名称为大江大河、欢乐颂、琅琊榜和北平无战事;搜索信息b中包括代表作名称为暹罗密码、我的播音系女友、同城邂逅。

依次确定每个演职人员信息与所述搜索信息的相似度,见表1。

表1中,演职人员信息a与搜索信息a的相似度为0.5,演职人员信息a与搜索信息b的相似度为0.1,此时确定与演职人员信息a相似度最高的搜索信息为搜索信息a。演职人员信息b与搜索信息a的相似度为0.4,演职人员信息b与搜索信息b的相似度为0.1,此时确定与演职人员信息b相似度最高的搜索信息为搜索信息a。演职人员信息c与搜索信息a的相似度为0.1,演职人员信息c与搜索信息b的相似度为0.5,此时确定与演职人员信息c相似度最高的搜索信息为搜索信息b。

演职人员信息a和演职人员信息b与同一个搜索信息a相似度最高,所以说明演职人员a和演职人员b所指示的是同一个演职人员。而演职人员信息c与演职人员a和演职人员b所指示的不是同一个演职人员。当指示演职人员信息指示同一个演职人员时,将演职人员信息a和演职人员信息b组合成一个演职人员信息,此时可以将id为001的王凯在媒资库中的的代表作名称添加上欢乐颂和北平无战事,同时将id为002对应的演职人员信息b删除。当然,也可以将id为002的王凯在媒资库中的代表作名称添加上大江大河、琅琊榜和伪装者,同时将id为001对应的演职人员信息a删除,而演职人员c所指示的与演职人员信息a,b均不同,所以保留id为003的演职人员信息c。需要说明的是,除了代表作名称需要重新组合,演职人员信息中的其他信息也一同重新组合。

为了能更准确的判断与媒资库中的演职人员信息对应的相似度最高的搜索信息,本申请实施例利用包括人物相似度和代表作相似度的二度特征,避免了单独依靠一度特征不能准确消歧的困扰,利用二度特征更准确的确定演职人员信息和搜索信息的相似度。

在一些可能的实施方式中,如图4所示,所述确定演职人员信息和搜索信息的相似度的步骤包括:

需要说明的是,代表作信息是演职人员的一个最重要的属性,因此本申请实施例所述演职人员信息和搜索信息均包括代表作信息和人物简介;

s4011、根据所述演职人员信息和搜索信息中的代表作信息,确定代表作相似度。

具体的,所述根据所述演职人员信息和搜索信息中的代表作信息,确定代表作相似度按照以下公式计算:

其中,所述代表作信息包括代表作名称和代表作简介,simp为代表作相似度,sim(wi,mi)为代表作名称相似度,sim(ii,li)为代表作简介相似度,w为搜索信息中的代表作名称集合,wi为搜索信息中的一个代表作名称,mi为演职人员信息中的一个代表作名称,m为演职人员信息中的代表作名称集合,ii为将wi对应的代表作简介,li为将mi对应的代表作简介。

例如,王凯在媒资库中的演职人员信息中包括代表作名称为大江大河(m1)、琅琊榜(m2)和伪装者(m3);搜索信息中包括代表作名称为大江大河(w1)、欢乐颂(w2)、琅琊榜(w3)和北平无战事(w4);

代表作相似度simp=sim(w1,m1)*sim(i1,l1) sim(w1,m2)*sim(i1,l2) sim(w1,m3)*sim(i1,l3) sim(w2,m1)*sim(i2,l1) sim(w2,m2)*sim(i2,l2) sim(w2,m3)*sim(i2,l3) sim(w3,m1)*sim(i3,l1) sim(w3,m2)*sim(i3,l2) sim(w3,m3)*sim(i3,l3) sim(w4,m1)*sim(i4,l1) sim(w4,m2)*sim(i4,l2) sim(w4,m3)*sim(i4,l3)。

所述代表作名称相似度sim(wi,mi)通过编辑距离算法确定。具体的,所述编辑距离算法指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果距离越大,越不同。

所述代表作简介相似度sim(ii,li)的确定方法包括:

将代表作简介进行分词,筛选出名词;

根据所述名词,利用余弦相似度,确定代表作简介相似度。

具体的,余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似。

s4012、根据所述演职人员信息和搜索信息中的人物简介,确定人物相似度;

具体的,所述根据所述演职人员信息和搜索信息中的人物简介,确定人物相似度的方法为根据余弦相似度确定。

s4013、根据所述代表作相似度和人物相似度,确定最终相似度。

本申请实施例中,利用二度特征,更准确的确定最终相似度,即演职人员信息和搜索信息的相似度。

在一些实施例中,所述根据代表作相似度和人物相似度,确定最终相似度按照以下公式计算:

sim=a*simp (1-a)*simt;

其中,sim为最终相似度,simp为代表作相似度,simt为人物相似度,a为参数。

其中,参数a的确定过程为:确定媒资库中一些演职人员的演职人员信息应该对应的搜索信息,随后通过计算代表作相似度和人物相似度,通过尝试的方法,确定参数a。本申请实施例中,还可以加大演职人员的演职人员信息和搜索信息的数量,不断调整参数a,使参数a有助于最终相似度更加准确。

本申请实施例示出一种演职人员命名实体消歧装置,包括:

服务器,服务器被配置为:

获取演职人员信息,其中,所述演职人员信息包括姓名;

根据所述演职人员信息,确定歧义姓名,所述歧义姓名是指数量不小于两个的姓名;

利用搜索引擎,确定所述歧义姓名对应的搜索信息;

根据所述演职人员信息和搜索信息,处理歧义姓名对应的演职人员信息。

本申请示出示出一种可读存储介质,所述可读存储介质中存储有一种演职人员命名实体消歧程序,所述演职人员命名实体消歧程序被处理器执行时实现演职人员命名实体消歧的步骤。

由以上技术方案可以看出,本申请实施例示出一种演职人员命名实体消歧方法及系统,本申请实施例示出的技术方案中,所述方法包括:获取演职人员信息,其中,所述演职人员信息包括姓名;根据所述演职人员信息,确定歧义姓名,所述歧义姓名是指数量不小于两个的姓名;利用搜索引擎,确定所述歧义姓名对应的搜索信息;根据所述演职人员信息和搜索信息,处理歧义姓名对应的演职人员信息。本申请实施例中,通过利用搜索引擎,得到搜索信息,通过搜索信息和媒资库中的演职人员信息的对应关系,处理歧义姓名对应的演职人员信息。

基于本申请中示出的示例性实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。此外,虽然本申请中公开内容按照示范性一个或几个实例来介绍,但应理解,可以就这些公开内容的各个方面也可以单独构成一个完整技术方案。

此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖但不排他的包含,例如,包含了一系列组件的产品或设备不必限于清楚地列出的那些组件,而是可包括没有清楚地列出的或对于这些产品或设备固有的其它组件。

最后应说明的是:以上各实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述各实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围。


技术特征:

1.一种演职人员命名实体消歧方法,其特征在于,包括:

获取演职人员信息,其中,所述演职人员信息包括姓名;

根据所述演职人员信息,确定歧义姓名,所述歧义姓名是指数量不小于两个的姓名;

利用搜索引擎,确定所述歧义姓名对应的搜索信息;

根据所述演职人员信息和搜索信息,处理歧义姓名对应的演职人员信息。

2.根据权利要求1所述的方法,其特征在于,所述根据演职人员信息和搜索信息,处理歧义姓名对应的演职人员信息的步骤包括:

确定演职人员信息和搜索信息的相似度;

筛选出与演职人员信息相似度最高的搜索信息;

根据每个演职人员信息对应的相似度最高的搜索信息,处理歧义姓名对应的演职人员信息。

3.根据权利要求2所述的方法,其特征在于,所述确定演职人员信息和搜索信息的相似度的步骤包括:

所述演职人员信息和搜索信息均包括代表作信息和人物简介;

根据所述演职人员信息和搜索信息中的代表作信息,确定代表作相似度;

根据所述演职人员信息和搜索信息中的人物简介,确定人物相似度;

根据所述代表作相似度和人物相似度,确定最终相似度。

4.根据权利要求3所述的方法,其特征在于,所述根据所述演职人员信息和搜索信息中的代表作信息,确定代表作相似度按照以下公式计算:

其中,所述代表作信息包括代表作名称和代表作简介,simp为代表作相似度,sim(wi,mi)为代表作名称相似度,sim(ii,li)为代表作简介相似度,w为搜索信息中的代表作名称集合,wi为搜索信息中的一个代表作名称,mi为演职人员信息中的一个代表作名称,m为演职人员信息中的代表作名称集合,ii为将wi对应的代表作简介,li为将mi对应的代表作简介。

5.根据权利要求4所述的方法,其特征在于,所述代表作名称相似度通过编辑距离算法确定。

6.根据权利要求4所述的方法,其特征在于,所述代表作简介相似度的确定方法包括:

将代表作简介进行分词,筛选出名词;

根据所述名词,利用余弦相似度,确定代表作简介相似度。

7.根据权利要求3所述的方法,其特征在于,所述根据所述演职人员信息和搜索信息中的人物简介,确定人物相似度的方法为根据余弦相似度确定。

8.根据权利要求3所述的方法,其特征在于,所述根据代表作相似度和人物相似度,确定最终相似度按照以下公式计算:

sim=a*simp (1-a)*simt;

其中,sim为最终相似度,simp为代表作相似度,simt为人物相似度,a为参数。

9.根据权利要求1所述的方法,其特征在于,所述利用搜索引擎,确定所述歧义姓名对应的搜索信息的步骤包括:

利用搜索引擎,确定所述歧义姓名对应的粗略搜索信息,所述粗略搜索信息包括职业;

根据所述粗略搜索信息,筛选出预设职业的粗略搜索信息,所述预设职业的粗略搜索信息为搜索信息。

10.一种演职人员命名实体消歧装置,其特征在于,包括:

服务器,服务器被配置为:

获取演职人员信息,其中,所述演职人员信息包括姓名;

根据所述演职人员信息,确定歧义姓名,所述歧义姓名是指数量不小于两个的姓名;

利用搜索引擎,确定所述歧义姓名对应的搜索信息;

根据所述演职人员信息和搜索信息,处理歧义姓名对应的演职人员信息。

技术总结
本申请实施例示出一种演职人员命名实体消歧方法及系统,本申请实施例示出的技术方案中,所述方法包括:获取演职人员信息,其中,所述演职人员信息包括姓名;根据所述演职人员信息,确定歧义姓名,所述歧义姓名是指数量不小于两个的姓名;利用搜索引擎,确定所述歧义姓名对应的搜索信息;根据所述演职人员信息和搜索信息,处理歧义姓名对应的演职人员信息。本申请实施例中,通过利用搜索引擎,得到搜索信息,通过搜索信息和媒资库中的演职人员信息的对应关系,处理歧义姓名对应的演职人员信息。

技术研发人员:隋雪芹
受保护的技术使用者:青岛聚看云科技有限公司
技术研发日:2020.01.13
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-19507.html

最新回复(0)