一种基于视觉显著性信息共享的三维模型分类和检索方法与流程

专利2022-06-29  88


本发明涉及三维模型特征提取和三维模型分类和检索等领域,尤其涉及一种基于视觉显著性信息共享的三维模型分类和检索方法。



背景技术:

近年来,随着3d技术在影视行业中的应用逐渐普及,人们几乎可以在任何地方看到3d模型,因此探索更高效的方法来学习三维模型的表示形式是自然而合理的。此外,随着计算机视觉和3d重建技术的发展,3d形状识别已成为形状分析的一项基本任务,这是处理和分析3d数据的最关键技术。得益于强大的深度学习神经网络和大规模标记的3d形状集合的使用,已经研究了各种用于3d形状识别的深度网络。通常,3d形状识别方法大致可分为两类:基于模型的方法和基于视图的方法。

基于模型的方法可直接从3d数据格式中学习模型的形状特征,例如:体素网格[1],多边形网格或表面[2]和点云[3]。例如,文献[4]提出了一种新颖的深度学习模型,即网格卷积受限玻尔兹曼机(mcrbm),用于3d网格的无监督特征学习。文献[5]为了学习全局特征提出了使用面部单元和特征分割的meshnet(网格神经网络),它可以解决网格的复杂性和不规则性,并表示三维形状。在文献[6]中,提出kd(k维搜索)网络可以处理非结构化的点云并使用学习功能来执行检索任务。但限制的形状表示(例如,平滑流形)或较高的计算复杂性给基于模型的方法带来了局限性。尤其是对于基于体素的方法而言,这种局限性更为明显。

在基于视图的方法中,输入数据是从3d对象的不同角度获取的视图,与其他方法(例如点云结构和多边形网格)相比,这些视图可以轻松捕获。基于mvcnn[7](多视图卷积神经网络)的结构,可以使用带有池化层的cnn(卷积神经网络)从对象的多个渲染视图中提取紧凑的形状描述符。deep-pano[8]使用cnn学习panorama(全景)视图的特征。文献[9]提出了一种捕获全景图像特征的方法,该方法旨在通过构造增强的三维模型表示来实现三维模型的连续性。文献[10]中提出了一种实时3d形状搜索引擎gift(图形处理器双加速反转文件)来加速gpu(图形处理器)和两个反向文件。但大多数基于视图的方法会平等地对待所有视图,这导致忽略了多个视图的相关性和区分信息,限制了现有方法的性能。

三维模型分类和检索目前面临的主要挑战为:

1)由于三维模型信息量大,导致三维模型分类和检索任务有较高的时间和空间复杂度;

2)在考虑计算时间和空间复杂度的同时,保证所设计的特征描述符具有较高的区分度。



技术实现要素:

本发明提供了一种基于视觉显著性信息共享的三维模型分类和检索方法,本发明基于视图卷积神经网络(mvcnn)与视觉显著性两个分支,然后融合两个分支的特征描述符,以生成用于3d形状分类和检索的特征描述符,详见下文描述:

一种基于视觉显著性信息共享的三维模型分类和检索方法,所述方法包括:

围绕三维模型z轴方向每隔30度提取一张视图,通过深度卷积神经网络来提取每个虚拟图像的特征描述符;

将特征描述符作为视觉显著性分支的输入,经过第一个lstm模块和软注意力机制生成视图的权重,经过第二个lstm模块生成视觉显著性分支的特征描述符;

将特征描述符作为mvcnn分支的输入,运用视图权重来指导mvcnn模块中的视觉信息融合,再经过一个cnn得到mvcnn分支的特征描述符;

将两个分支的描述符串联,再经过一个全连接层和一个softmax层做出决策判决,进行分类,执行相似性度量进行检索。

其中,所述将特征描述符作为视觉显著性分支的输入,经过第一个lstm模块和软注意力机制生成视图的权重,经过第二个lstm模块生成视觉显著性分支的特征描述符具体为:

将12个特征描述符按照提取顺序依次输入视觉显著性分支中,经过第一个lstm模块和软注意力机制生成各个视图的权重,通过隐藏状态ht和内部存储状态ct之间的关系计算得到ht-1,进一步得到各个视图的权重;

最后一个隐藏状态线性加权之后作为第二个lstm模块的输入,得到视觉显著性分支的特征描述符。

进一步地,所述运用视图权重来指导mvcnn模型中的视觉信息融合,再经过一个cnn得到mvcnn分支的特征描述符具体为:

应用视图显著性池化对二维视图进行特征融合;

再经过一层深度神经卷积网络得到mvcnn分支的特征描述符。

本发明提供的技术方案的有益效果是:

1、本发明通过更新视觉显著性模型中不同视图的权重来保存视图的视觉信息和相关信息,增加了特征描述符的灵活性和稳定性;

2、本发明利用视觉显著性模型定义的视图权重来指导mvcnn模型中的视觉信息融合,保留视图中的视觉信息和相关信息,使得对三维模型的描述更加全面;

3、本发明使用基于深度学习的方法不断更新参数,得到三维模型特征描述符时,确保了得到的权重为最优解,增加了特征描述符的科学性和准确性;

4、本发明通过对比实验,证实了本发明算法不仅优于各个分支算法,而且优于经典3d分类检索方法。

附图说明

图1为一种基于视觉显著性信息共享的三维模型分类和检索方法的流程图;

图2为三维模型数据库内容的示例图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚,下面对本发明实施方式作进一步地详细描述。

现阶段,大多数基于多视图的方法会平等地对待所有视图,这导致忽略了多个视图的相关性和区分信息,限制了现有方法的性能。

本发明实施例提出了一种基于视觉显著性信息共享的三维模型分类和检索方法。对一个三维模型进行旋转拍照,每间隔30°提取一张视图,对每一个视图都提取特征描述符,在视觉显著性部分,输入是12个视图对应的特征描述符。由于lstm(长短期记忆)网络结构的优越性,在视觉显著性分支中使用了软注意力机制和两个lstm模块。软注意力机制和第一个lstm模块用于生成卷积特征的视图权重,第二个lstm模块生成视觉显著性分支的特征。在mvcnn分支部分,输入同样是12个视图对应的特征描述符,利用视图权重来指导mvcnn模型中的视觉信息融合,然后再经过一个cnn得到mvcnn部分的特征描述符。该网络既用于分类任务,又用于检索任务。最终结果的获得是通过融合判决得出的。文末提供本方法与其它几种方法的对比结果,在modelnet40和shapenetcore55数据集中的评估显示对三维模型分类和检索的准确性。

实施例1

一种基于视觉显著性信息共享的三维模型分类和检索方法,参见图1,主要包含三部分:一是基于注意力的视图权重计算;二是视图注意力池化;最终形状描述符的生成,具体实施步骤如下:

101:给定三维模型,围绕三维模型z轴方向每隔30度提取一张视图,通过深度卷积神经网络来提取每个虚拟图像的特征描述符;

102:将特征描述符作为视觉显著性分支的输入,经过第一个lstm模块和软注意力机制生成视图的权重,经过第二个lstm模块生成视觉显著性分支的特征描述符;

103:同样将特征描述符作为mvcnn分支的输入,运用视图权重来指导mvcnn模型中的视觉信息融合,然后再经过一个cnn得到mvcnn部分的特征描述符;

104:通过上述步骤101-103获得了两个分支的特征描述符,将两个分支的描述符串联,再经过一个全连接层和一个softmax层做出决策判决,进行分类,执行相似性度量进行检索。

其中,上述步骤101中的通过卷积神经网络提取虚拟视图的特征描述符的操作具体为:

1)提取12张视图;

2)对每一个视图提取特征描述符。

其中,上述步骤102的视觉显著性分支以步骤101的输出作为输入,最终得到每个视图的权重以及视觉显著性分支的特征,具体步骤为:

1)将12个特征描述符按照步骤101的提取顺序依次输入视觉显著性分支中,经过第一个lstm模块和软注意力机制生成各个视图的权重,视图权重与上一个隐藏状态ht-1有关,故通过隐藏状态ht和内部存储状态ct之间的关系计算得到ht-1,从而进一步得到各个视图的权重。

ei=wttanh(uh[ht-1,vi,t] bv)

其中,ei为第i个视图的相关性得分;uh为ht-1的权重矩阵;vi,t为t时间中第i个视图的特征描述符;bv为ht-1的权重偏差;ej为第j个视图的相关性得分,t为矩阵转置。w、uh、bv为需要优化的参数。

2)最后一个隐藏状态线性加权之后作为第二个lstm模块的输入,得到视觉显著性分支的特征描述符。

其中,上述步骤103的mvcnn分支同样以步骤101的输出作为输入,最终得到mvcnn分支的特征,具体步骤为:

1)应用视图显著性池化对二维视图进行特征融合;

2)再经过一层深度神经卷积网络得到mvcnn分支的特征描述符。

其中,上述步骤104中的通过融合两个分支,最终完成分类和检索任务,具体步骤为:

1)串联两个分支的特征描述符,得到最终三维模型的特征描述符;

2)特征描述符经过一个全连接层和一个softmax层即可获得分类结果;

3)执行相似性度量可获得检索结果。

综上所述,本发明实施例通过上述步骤101-步骤103提取到两个分支的特征描述符,然后通过步骤104融合特征并用于分类和检索,使得对三维模型的描述更加全面,使得相似度的量化更加准确和科学。

实施例2

下面结合网络结构、图1、图2对实施例1中的方案进行进一步地介绍,详见下文描述:

对于提取第一个特征描述符,本发明以z轴为旋转中心,间隔30°对三维模型进行视角采样,通过成熟的深度卷积神经网络提取视图的特征描述符,具体如下:

1、用npca(三维主分量分析)方法规范化每个三维模型。然后,由opengl开发的可视化工具作为人类观察者围绕每个三维模型z轴方向每隔30度提取一张视图。提取到12个视图来表示三维模型的视觉和结构信息。因此,这些视图可以看作是一系列图像v1,v2,...v12,这对于本发明的网络结构非常重要。

2、采用cnn的网络结构提取每张视图的特征描述符得到f1,f2,...,f12,cnn网络参数是共享的。

对于视觉显著性分支,通过软注意力机制和两个lstm模块得到各个视图的权重以及生成特征描述符来表征三维模型,具体如下:

1)输入特征描述符f1,f2,...,f12,通过隐藏状态ht和内部存储状态ct之间的关系ht=ot⊙ct计算得到上一个隐藏状态ht-1,其中ot为输出门。

2)计算基于先前隐藏状态ht-1的各个视图权重ai,其中,vi,t是t时刻虚拟视图的特征描述符,wtuh与bv与整个网络参数一起更新。

对于mvcnn分支,通过视图显著性池化按权重大小融合多视图的特征描述符来表征三维模型,具体如下:

(1)将本发明第一步得到的12个特征描述符f1,f2,...,f12输入mvcnn分支中,并采用视觉显著性池化,得到多视图特征描述符的动态加权和的平均值;

(2)聚合后的特征描述符输入最后的cnn网络进行训练,获得mvcnn分支的特征描述符。

对于得到两个分支的特征描述符之后,进行融合,具体如下:

(1)设定两个分支得到的特征描述符维度均是(1,4096),则通过串联方式得到一个(2,4096)的特征描述符;

(2)再经过一个全连接层得到各个分类的分数,softmax层通过分数做出分类;

(3)经过相似性度量完成检索任务。

综上所述,本发明实施例通过上述步骤增强对三维模型的表达性,排除了相同视图权重各个视图对分类和检索结果的影响,使三维模型分类检索的准确性得到提高。

实施例3

下面结合具体的实例,对实施例1和2中的方案进行可行性验证,详见下文描述:

本发明实施例中的数据库是基于modelnet40与shapenetcore55进行的。modelnet40是modelnet的子集,它包含12,311个cad模型,分为40个类别。模型已手动清理,但未进行姿势归一化,本发明实施例所用到的modelnet40模型均为*.off格式。shapenetcore55是shapenet的子集,包含55个类别,约51,300个三维模型,每个类别又细分为几个子类别,其中包含70%训练集、10%验证集、20%测试集。本发明实施例所用到的shapenetcore55模型为*.obj格式。

下表展示网络的不同部分在modelnet40数据集中进行分类实验的准确率,结果表明注意力权重可以使模型专注于更具代表性的视图,从而在3d形状识别上获得更好的性能,并且将已拍摄视图作为视图序列并提取其结构信息,网络体系结构对于获得更好的3d对象表示是有效的。

表1为框架的不同组件在modelnet40数据集的分类结果

本发明实施例在modelnet40上进行了分类和检索实验,并与各种模型进行了比较,包括3dshapenets[10],sph[11],lfd[12],mvcnn[7],pointnet[3],pointnet [13],kd-network[6]等。下表展示了各个方法的分类和检索结果。检索任务中,在mvcnn中进一步应用了低秩的mahalanobis度量学习,以提高检索性能。本方法直接使用由序列化特征和卷积特征所压缩的最终特征描述符,获得90.7%的最新性能。

结果表明,本发明提出的方法可以达到最佳性能,分类精度为92.69%,检索map为90.7%。与mvcnn的最佳结果相比,本方法的双流网络在分类和检索任务上分别提高了1.7%和7.7%。

表2为各个模型在modelnet40数据集的分类精确度

下表是在shapenetcore55数据集中进行了检索实验,并对比了包括rotationnet、improvedgift、revgg、dlan、shrec16baigift、shrec16sumvcnn在内的三维模型检索方法,从下表中可得到结论:在micro-averaged中,本方法具有更好的性能,并且始终非常接近此数据集的最佳结果,但在macro-averaged中,比rotationnet的f-score低,但是优于其他三维模型检索方法。

表3为各个模型在shapenetcore55数据集中的检索精确度

为了研究视图数量对分类性能和检索性能的影响,本发明围绕z轴以角度θ依次为180°、90°、60°、45°、36°、30°、18°提取虚拟视图,每个三维模型分别生成4、6、8、10、12、20个视图。

下表是不同数量视图作为算法的输入进行分类和检索实验的结果。结果表明,可以通过增加视图数量来提高性能,但是,过多的视图图像会导致信息的冗余,因此性能会下降。当视图数设置为12时,nn、ft、st、f_measure、dcg、anmrr、acc分别提高15.8%-46.7%、11.8%-118.8%、17.0%-71.5%、18.0%-52.4%、12.0%-95.6%、43.6%-77.9%。因此,将最佳观看次数设置为12。

表4为改变视图数量在modelnet40数据集中的分类与检索准确度

为了研究视图顺序对三维模型分类和检索结果的影响,本实施例设置了50次乱序视图实验,下表提供了分类和检索结果。结果表明输入混乱视图的结果甚至比有序视图的结果还要好。显然,本网络可以自适应地计算各个视图的重要性,不受相机设置的限制,从而实现强大的三维模型视觉信息、结构信息的学习。

表5视图乱序和正序在modelnet40数据集中的分类与检索准确度

参考文献

[1]z.wu,s.song,a.khosla,f.yu,l.zhang,x.tang,andj.xiao.3dshapenets:adeeprepresentationforvolumetricshapes.inproceedingsoftheieeeconferenceoncomputervisionandpatternrecognition,pages19121920,2015.

[2]d.boscaini,j.masci,e.rodol‘a,andm.bronstein.learningshapecorrespondencewithanisotropicconvolutionalneuralnetworks.innips,pages31893197,2016.

[3]c.r.qi,h.su,k.mo,andl.j.guibas.pointnet:deeplearningonpointsetsfor3dclassificationandsegmentation.incvpr,2017.

[4]z.han,z.liu,j.han,c.m.vong,s.bu,andc.l.chen,meshconvolutionalrestrictedboltzmannmachinesforunsupervisedlearningoffeatureswithstructurepreservationon3-dmeshes,ieeetransactionsonneuralnetworkslearningsystems,28(10):22682281,2017.

[5]y.feng,y.feng,h.you,x.zhao,andy.gao,meshnet:meshneuralnetworkfor3dshaperepresentation,arxiv:1811.11424,2018.

[6]r.klokovandv.lempitsky.escapefromcells:deepkd-networksfortherecognitionof3dpointcloudmodels.arxiv:1704.01222,2017.

[7]h.su,s.maji,e.kalogerakis,ande.learned-miller,multiviewconvolutionalneuralnetworksfor3dshaperecognition.inproceedingsoftheieeeinternationalconferenceoncomputervision,pages945953,2015.

[8]k.sfikas,t.theoharis,andi.pratikakis,exploitingthepanoramarepresentationforconvolutionalneuralnetworkclassificationandretrieval,ineurographicsworkshopon3dobjectretrieval,i.pratikakis,f.dupont,andm.ovsjanikov,eds.theeurographicsassociation,2017.

[9]k.sfikas,i.pratikakis,andt.theoharis,ensembleofpanoramabasedconvolutionalneuralnetworksfor3dmodelclassificationandretrieval,computersgraphics,vol.71,pages208218.[online].available:http://www.sciencedirect.com/science/article/pii/s0097849317301978,2018.

[10]s.bai,x.bai,z.zhou,z.zhang,andl.janlatecki,gift:arealtimeandscalable3dshapesearchengine,inproc.ieeeconf.comput.vis.patternrecognit,pages50235032,2016.

[11]m.kazhdan,t.funkhouser,ands.rusinkiewicz,rotationinvariantsphericalharmonicrepresentationof3dshapedescriptors,inproc.symp.geometryprocess.vol.6,pp.156164,2003.

[12]d.chen,x.tian,y.shen,andm.ouhyoung,onvisualsimilaritybased3dmodelretrieval,comput.graph.forum,vol.22,no.3,pp.223232,2003.

[13]c.r.qi,l.yi,h.su,andl.j.guibas.pointnet :deephierarchicalfeaturelearningonpointsetsinametricspace.innips,2017.

本领域技术人员可以理解附图只是一个优选实施例的示意图,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。


技术特征:

1.一种基于视觉显著性信息共享的三维模型分类和检索方法,其特征在于,所述方法包括:

围绕三维模型z轴方向每隔30度提取一张视图,通过深度卷积神经网络来提取每个虚拟图像的特征描述符;

将特征描述符作为视觉显著性分支的输入,经过第一个lstm模块和软注意力机制生成视图的权重,经过第二个lstm模块生成视觉显著性分支的特征描述符;

将特征描述符作为mvcnn分支的输入,运用视图权重来指导mvcnn模块中的视觉信息融合,再经过一个cnn得到mvcnn分支的特征描述符;

将两个分支的描述符串联,再经过一个全连接层和一个softmax层做出决策判决,进行分类,执行相似性度量进行检索。

2.根据权利要求1所述的一种基于视觉显著性信息共享的三维模型分类和检索方法,其特征在于,所述将特征描述符作为视觉显著性分支的输入,经过第一个lstm模块和软注意力机制生成视图的权重,经过第二个lstm模块生成视觉显著性分支的特征描述符具体为:

将12个特征描述符按照提取顺序依次输入视觉显著性分支中,经过第一个lstm模块和软注意力机制生成各个视图的权重,通过隐藏状态ht和内部存储状态ct之间的关系计算得到ht-1,进一步得到各个视图的权重;

最后一个隐藏状态线性加权之后作为第二个lstm模块的输入,得到视觉显著性分支的特征描述符。

3.根据权利要求1所述的一种基于视觉显著性信息共享的三维模型分类和检索方法,其特征在于,所述运用视图权重来指导mvcnn模型中的视觉信息融合,再经过一个cnn得到mvcnn分支的特征描述符具体为:

应用视图显著性池化对二维视图进行特征融合;

再经过一层深度神经卷积网络得到mvcnn分支的特征描述符。

技术总结
本发明公开了一种基于视觉显著性信息共享的三维模型分类和检索方法,包括:围绕三维模型Z轴方向每隔30度提取一张视图,通过深度卷积神经网络来提取每个虚拟图像的特征描述符;将特征描述符作为视觉显著性分支的输入,经过第一个LSTM模块和软注意力机制生成视图的权重,经过第二个LSTM模块生成视觉显著性分支的特征描述符;将特征描述符作为MVCNN分支的输入,运用视图权重来指导MVCNN模块中的视觉信息融合,再经过一个CNN得到MVCNN分支的特征描述符;将两个分支的描述符串联,再经过一个全连接层和一个softmax层做出决策判决,进行分类,执行相似性度量进行检索。本发明基于视图卷积神经网络与视觉显著性两个分支,融合特征描述符,以生成用于3D形状分类和检索的特征描述符。

技术研发人员:聂为之;王亚;屈露
受保护的技术使用者:天津大学
技术研发日:2020.01.08
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-53008.html

最新回复(0)