1.本发明涉及一种基于嵌入的不一致容忍本体推理方法,属于本体论工程领域。
背景技术:2.长期以来,概念化一个领域被认为是理解该领域和处理有关它的信息的先决条件。本体是概念化的明确规范,被认为是信息系统和信息处理的重要组成部分。本体对于语义web的成功至关重要,因为它提供了在语义web应用程序中共享的知识的正式表示。随着知识图谱(knowledge graph)的提出,语义网的发展进一步加快,能够为用户提供更智能的服务,如更准确的推荐和搜索。本体对知识图推理的性能也有重要影响。然而,本体中的知识冲突是不可避免的。例如,本体融合、本体演化、本体迁移都可能导致本体不一致。因此,针对不一致本体进行推理的问题,是本体论工程中的一个重要问题。不一致本体推理有两类方法,第一类是对不一致本体进行修复,得到一个一致本体,这类方法一般需要计算不一致本体的最小一致子集,或者计算不一致本体中导致不一致的公理,从而通过评分来删除某些公理。第二类是不一致兼容推理方法,这类方法不计算最小不一致本体或者导致不一致的公理,而是从语义上入手,定义新的推论关系,可以从不一致本体直接推理,给出一致的查询结果。
3.当前,学术界对不一致兼容的本体推理已经提出了一些研究方法。第一种基本方法称为怀疑推理(skeptical inference),即如果一条公理能被不一致本体的每个最大一致本体推理出,则这条公理能被推理出来。怀疑推理的一个改进是利用本体的基数-最大一致子集进行推理。第二种方法是利用全局不一致性来考虑公式所携带信息的可靠性,然后对最大一致子集进行评分,选择分数最高的最大一致性子集作为结果。第三种方法是利用线性扩展策略,通过定义句法关联函数来检查包含是否可以推断。
4.现有技术中存在的问题如下:
5.1)基于最大一致子集的怀疑推理方法
6.这个方法考虑不一致本体的每个最大一致子集,一个公理能被推理出来仅当它被每一个最大一致子集推理出来。怀疑推理将公理知识库中的全部公理视为同等地位,忽略了公理的信息不对称性,推理能力相对较低。
7.2)基于全局不一致性选择最大一致子集的推理方法
8.这种方法是利用全局不一致性来考虑公理所携带信息的可靠性,然后对最大一致子集进行评分,选择分数最高的最大一致性子集作为推理的结果,并可以用于后续的查询。然而,由于本体中的公理包含语义信息,这种方法会忽略公理中的语义特征,造成信息的丢失。
9.3)基于线性扩展的句法关联检验推理方法
10.这种方法是利用线性扩展策略,通过定义句法关联函数来检查包含是否可以推断。然而,这种方法可能无法找到最大的一致子集,并且可能导致查询出冲突的结果。
技术实现要素:11.本发明针对现有的不一致兼容推理方法的不足,提供一种基于嵌入的不一致容忍本体推理方法,该技术方案为对不一致本体的推理提供了基于嵌入将公理映射为高维空间中向量的处理方法,从而保留了公理更多的语义信息,与现有技术相比能充分考虑到公理的语义信息,具备更强的推理能力。
12.为达到上述目的,本发明是采用下述技术方案实现的:一种基于嵌入的对不一致本体的不一致容忍推理方法,所述方法包括以下步骤:
13.步骤(1)生成不一致本体的所有最大一致子集;
14.步骤(2)将owl语言形式的公理转化成自然语言形式的句子;
15.步骤(3)将公理对应的自然语言形式的句子映射成高维空间的语义向量;
16.步骤(4)为最大一致子集打分;
17.步骤(5)选出赋分最高的最大一致子集作为不一致容忍推理的结果,可利用这个本体选择出的最大一致子集进行查询。
18.进一步的,所述步骤(1)生成不一致本体的所有最大一致子集。假设有本体k,所生成的最大一致子集k'有如下定义:
19.·
20.·
k'是一致的;
21.·
若那么k”是不一致的。
22.进一步的,所述步骤(2)具体包含如下子步骤:
23.(2.1)使用naturalowl方法将owl语言形式的公理处理为三元组;
24.(2.2)针对数据集通过自编制代码将三元组转换为自然语言句子。
25.进一步的,所述步骤(3)将自然语言形式的公理转化成高维空间的语义向量,在步骤(2)中我们将owl语言形式的公理转化成自然语言形式的句子,为了表示公理的语义信息并计算公理之间的语义关联,我们通过sentence-bert技术将公理所转成的句子映射成高维空间的语义向量。公理所映射成的语义向量具备如下特征,语义相似的公理所映射成的语义向量在高维空间中距离更近。
26.进一步的,所述步骤(4)具体包含如下子步骤:
27.(4.1)计算语义向量之间的相似度,具体相似度计算方法可以利用欧几里得距离、余弦距离等。两个公理之间语义相似程度越高,则它们对应的语义向量相似度越大。基于余弦距离的相似度函数和基于欧几里得距离的相似度函数定义如下:
[0028][0029][0030]
其中,v1,v2分别为在步骤(3)中由两个不同公理转成的语义向量,cosine_distance(v1,v2)表示v1,v2的余弦距离,euclidean_distance(v1,v2)表示v1,v2的欧几里得距离;
[0031]
(4.2)代入(4.1)中计算得到的相似度,定义公理在最大一致子集中的聚合度函数,一条公理在一个最大一致子集中的聚合度汇总了该公理和最大一致子集中公理的相似
度,该公理在最大一致子集中的公理语义相似关联程度越高,则它在该最大一致子集中的聚合程度越高;给出不同的聚合度函数定义方法如下:
[0032][0033][0034][0035][0036]
其中,ki为本体k的一个最大一致子集,α,β分别为本体k中公理,sim(α,β)为公理α和β的相似度,即通过步骤(2)(3)将公理α和β转成语义向量再通过余弦距离或欧几里得距离计算相似度,k为一个用于调节的参数,mk(ki,α,k)为由ki中与α相似度值最小的k个公理形成的集合,h(ki,α),t(ki,α)分别为ki中与公理α头实体或尾实体相同的公理组成的集合;
[0037]
(4.3)利用(4.2)中定义的聚合度函数,为每条公理打分,一条公理如果出现在更多的最大一致子集中,并且在它出现在的最大一致子集中聚合度更高,则认为这条公理更可信,它的赋分更高,利用上面定义的公理在最大一致子集中聚合度计算方法,定义如下四种公理打分函数:
[0038][0039][0040][0041][0042]
其中,其中,本体k是一个不一致本体,ki为本体k的最大一致子集,α为本体k中公理,mcs(k)为由本体k所有最大一致子集组成的集合,agg(ki,α)
global
、agg(ki,α,k)
knn
、、为(4.2)中定义的聚合度函数,k是可调的参数。
[0043]
(4.4)汇总每个最大一致子集中公理的赋分,得到最大一致子集的打分。包含更多公理、包含的公理赋分更高的最大一致子集拥有更高的分数。选出得分最高的最大一致子集,作为我们推理的结果,并可以用于后续的公理推理和查询。集合打分函数定义如下:
[0044][0045][0046][0047][0048]
其中,本体k是一个不一致本体,ki为本体k的最大一致子集,α为本体k中公理,
mc(k,α)
global
、mc(k,α,k)
knn
、mc(k,α)
local
为(4.3)中定义的公理打分函数。
[0049]
相对于现有技术,本发明的优点如下:
[0050]
1)本发明在对不一致本体进行不一致兼容推理时,相对于已有利用最大一致子集的方法仅在命题逻辑下进行推理,本发明充分考虑到本体中公理的语义信息,在描述逻辑下进行推理,可以尽可能地减少语义丢失,从而本发明的不一致兼容推理方法具备更强的推理能力;
[0051]
2)本发明在对不一致本体进行不一致兼容推理时,相对于已有方法,更加充分地考虑到本体中公理地位的差异,从而定义出更加合理的推理关系,该推理关系满足相关逻辑性质,同时能在不一致本体中推理出更加合理的结果;
[0052]
3)本发明首次在利用最大一致子集对不一致本体进行推理时使用嵌入的方法,将本体中的公理映射成连续语义空间中的嵌入向量,在语义空间中充分表示了本体的结构和语义,也便于计算机对公理之间的语义联系进行计算。
附图说明
[0053]
图1是本发明所述的一种基于嵌入的不一致容忍本体推理方法的流程示意图。
具体实施方式
[0054]
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
[0055]
实施例1:
[0056]
一种基于嵌入的不一致容忍本体推理方法,在本实施例中,步骤(1)生成不一致本体的所有最大一致子集。假设有本体k,所生成的最大一致子集k'有如下定义:
[0057]
·
[0058]
·
k'是一致的;
[0059]
·
若那么k”是不一致的。
[0060]
在本实施例中,步骤(2)将owl语言形式的公理转化成自然语言形式的句子,通过将本体文件导入protege软件,使用naturalowl插件将owl语言形式的公理处理为三元组,针对数据集通过自编制代码将三元组转换为自然语言句子。下以一个例子展示这个过程:
[0061]
1)owl语言:classassertion(objectmaxcardinality(1:madefromgrape):product145)
[0062]
2)三元组:《:product145,maxcardinality(:madefromgrape),1》
[0063]
3)自然语言:product 145is made from at most one grape.
[0064]
在本实施例中,步骤(3)将自然语言形式的公理转化成高维空间的语义向量,在步骤(2)中我们将owl语言形式的公理转化成自然语言形式的句子,为了表示公理的语义信息并计算公理之间的语义关联,我们通过sentence-bert技术将公理所转成的句子映射成高维空间的语义向量。公理所映射成的语义向量具备如下特征,语义相似的公理所映射成的语义向量在高维空间中距离更近。
[0065]
在本实施例中,步骤(4.1)计算语义向量之间的相似度,具体相似度计算方法可以
利用欧几里得距离、余弦距离等。两个公理之间语义相似程度越高,则它们对应的语义向量相似度越大。基于余弦距离的相似度函数定义如下:
[0066][0067]
其中,v1,v2分别为在步骤(3)中由两个不同公理转成的语义向量。
[0068]
进一步地,运用该函数,任意两个公理ψ,他们的相似度sim(ψ)有值域[0,1],函数值越接近于1,则两公理的相似度越高,反之,越接近于0,相似度越低。
[0069]
在本实施例中,步骤(4.2)代入(4.1)中计算得到的相似度,定义公理在最大一致子集中的聚合度函数。一条公理在一个最大一致子集中的聚合度汇总了该公理和最大一致子集中公理的相似度,该公理在最大一致子集中的公理语义相似关联程度越高,则它在该最大一致子集中的聚合程度越高。我们给出不同的聚合度函数定义方法如下:
[0070][0071][0072][0073][0074]
其中,ki为本体k的一个最大一致子集,α,β分别为本体k中公理,sim(α,β)为cosine_similarity(α,β),k为一个用于调节的参数,mk(ki,α,k)为由ki中k个与α形成的相似度函数值最小的公理形成的集合,h(ki,α),t(ki,α)分别为ki中与公理α头实体或尾实体相同的公理组成的集合。
[0075]
在本实施例中,步骤(4.3)利用(4.2)中定义的聚合度函数,为每条公理打分。一条公理如果出现在更多的最大一致子集中,并且在它出现在的最大一致子集中聚合度更高,则认为这条公理更可信,它的赋分更高。利用上面定义的公理在最大一致子集中聚合度计算方法,我们定义如下四种公理打分函数:
[0076][0077][0078][0079][0080]
其中,mc(k)为由本体k所有最大一致子集组成的集合。
[0081]
在本实施例中,步骤(4.4)汇总每个最大一致子集中公理的赋分,得到最大一致子集的打分。包含更多公理、包含的公理赋分更高的最大一致子集拥有更高的分数。选出得分最高的最大一致子集,作为我们推理的结果,并可以用于后续的公理推理和查询。集合打分
函数定义如下:
[0082][0083][0084][0085][0086]
在本实施例中,步骤(5)选出分数最高的最大一致子集作为不一致容忍推理的结果。若有大于一个一致本体分数相同且均为最高分,则这些分数最高的最大一致本体形成一个集合,取这个集合元素的交集为不一致容忍推理的结果。可利用这个本体选择出的最大一致子集进行查询。
[0087]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。
技术特征:1.一种基于嵌入的不一致容忍本体推理方法,其特征在于,包含如下步骤:步骤(1)生成不一致本体的所有最大一致子集;步骤(2)将owl语言形式的公理转化成自然语言形式的句子;步骤(3)将公理对应的自然语言形式的句子映射成高维空间的语义向量;步骤(4)为最大一致子集打分;步骤(5)选出赋分最高的最大一致子集作为不一致容忍推理的结果。2.根据权利要求1所述的一种基于嵌入的不一致容忍推理推理方法,其特征在于,所述步骤(1)生成不一致本体的所有最大一致子集,假设有本体k,所生成的最大一致子集k'有如下定义:
·
k'是一致的;
·
若那么k”是不一致的;用mcs(k)表示由本体k所有最大一致子集组成的集合。3.根据权利要求1所述的一种基于嵌入不一致容忍本体推理方法,其特征在于,所述步骤(2)具体包含如下子步骤:2.1)使用naturalowl方法将owl语言形式的公理处理为三元组;2.2)针对数据集通过自编制代码将三元组转换为自然语言句子。4.根据权利要求1所述的一种基于嵌入的不一致容忍本体推理方法,其特征在于,所述步骤(2)将owl语言形式的公理转化成自然语言形式的句子,具体如下:1)通过将本体文件导入protege软件,使用naturalowl插件将owl语言形式的公理处理为三元组,针对数据集通过自编制代码将三元组转换为自然语言句子。5.根据权利要求1所述的一种基于嵌入的不一致容忍本体推理方法,其特征在于,所述步骤(3)将自然语言形式的公理转化成高维空间的语义向量,具体如下:1)在步骤(2)中将owl语言形式的公理转化成自然语言形式的句子,为了表示公理的语义信息并计算公理之间的语义关联,通过sentence-bert技术将公理所转成的句子映射成高维空间的语义向量,公理所映射成的语义向量具备如下特征,语义相似的公理所映射成的语义向量在高维空间中距离更近。6.根据权利要求1所述的一种基于嵌入的不一致容忍本体推理方法,其特征在于,所述步骤(4)具体包含如下子步骤:4.1)计算语义向量之间的相似度,具体相似度计算方法利用余弦距离、欧几里得距离,两个公理之间语义相似程度越高,则它们对应的语义向量相似度越大,基于余弦距离的相似度函数和基于欧几里得距离的相似度函数定义如下:得距离的相似度函数定义如下:其中,v1,v2分别为在步骤(3)中由两个不同公理转成的语义向量,cosine_distance(v1,v2)表示v1,v2的余弦距离,euclidean_distance(v1,v2)表示v1,v2的欧几里得距离;4.2)代入(4.1)中计算得到的相似度,定义公理在最大一致子集中的聚合度函数,一条
公理在一个最大一致子集中的聚合度汇总了该公理和最大一致子集中公理的相似度,该公理在最大一致子集中的公理语义相似关联程度越高,则它在该最大一致子集中的聚合程度越高;给出不同的聚合度函数定义方法如下:给出不同的聚合度函数定义方法如下:给出不同的聚合度函数定义方法如下:给出不同的聚合度函数定义方法如下:其中,k
i
为本体k的一个最大一致子集,α,β分别为本体k中公理,sim(α,β)为公理α和β的相似度,即通过步骤(2)(3)将公理α和β转成语义向量再通过余弦距离或欧几里得距离计算相似度,k为一个用于调节的参数,m
k
(k
i
,α,k)为由k
i
中与α相似度值最小的k个公理形成的集合,h(k
i
,α),t(k
i
,α)分别为k
i
中与公理α头实体或尾实体相同的公理组成的集合;4.3)利用(4.2)中定义的聚合度函数,为每条公理打分,一条公理如果出现在更多的最大一致子集中,并且在它出现在的最大一致子集中聚合度更高,则认为这条公理更可信,它的赋分更高,利用上面定义的公理在最大一致子集中聚合度计算方法,定义如下四种公理打分函数:分函数:分函数:分函数:其中,其中,本体k是一个不一致本体,k
i
为本体k的最大一致子集,α为本体k中公理,mcs(k)为由本体k所有最大一致子集组成的集合,agg(k
i
,α)
global
、agg(k
i
,α,k)
knn
、、为(4.2)中定义的聚合度函数,k是可调的参数;4.4)汇总每个最大一致子集中公理的赋分,得到最大一致子集的打分,包含更多公理、包含的公理赋分更高的最大一致子集拥有更高的分数,选出得分最高的最大一致子集,作为推理的结果,并可以用于后续的公理推理和查询,集合打分函数定义如下:合打分函数定义如下:合打分函数定义如下:
其中,本体k是一个不一致本体,k
i
为本体k的最大一致子集,α为本体k中公理,mc(k,α)
global
、mc(k,α,k)
knn
、mc(k,α)
local
为(4.3)中定义的公理打分函数。7.根据权利要求1所述的一种基于嵌入的不一致容忍本体推理方法,其特征在于,所述步骤(5)选出分数最高的最大一致子集作为不一致容忍推理的结果,具体如下:1)若有大于一个一致本体分数相同且均为最高分,则这些分数最高的最大一致本体形成一个集合,取这个集合元素的交集为不一致容忍推理的结果,可利用这个本体选择出的最大一致子集进行查询。
技术总结本发明公开了一种基于嵌入不一致容忍本体推理方法,该方法用于不一致本体推理相关任务并增强在不一致本体上的查询能力。首先,将本体中的公理转化成自然语言形式的句子。随后利用嵌入技术,将自然语言形式的公理句子映射成高维空间的语义向量,利用语义向量计算公理之间的语义联系。最后,通过语义向量之间的语义联系定义不一致容忍的推理关系。使用该推理关系,可以在不一致本体上推理出一致的结果。该推理关系拓展经典逻辑到了描述逻辑领域,具备良好的逻辑性质,同时充分考虑到本体中公理的语义,具备更强的不一致容忍推理能力。具备更强的不一致容忍推理能力。具备更强的不一致容忍推理能力。
技术研发人员:汪可予 李思特 李嘉烨 漆桂林 季秋
受保护的技术使用者:东南大学
技术研发日:2022.09.26
技术公布日:2022/12/16