本发明涉及一种特征聚合类别划分器,特别涉及一种深度多层网络驱动的特征聚合类别划分器,属于计算机实体分类技术领域。
背景技术:
随着网络技术的进步和快速发展,互联网成为信息传播的重要角色,是人们获取各类信息的重要方式之一。越来越丰富的资源开始在互联网上大量出现,这些资源表现出多模态的特点,包括音频、文字、图片、视频等多种信息。以新闻报道为例,通常一个新闻页面有新闻的文字描述以及配图信息等,有的还配有视频介绍等,尽管这些信息分属不同的模态,但其内容都是围绕新闻事件展开的,它们的描述在语义上存在非常强的关联性。总体而言,互联网上的多模态数据呈现出数据量大、模态混合方式多样、模态间语义关联性强等特点。
从现实世界中收集的信息越来越多的表现为多模态的混合体,如网络图片与相关的叙述性描述文稿,一篇新闻报道文章以及与其配对插图等。同样,百科页面中越来越多的出现多媒体内容,社交网络更是从纯文稿到图片、表情、视频等多媒体资源的极大丰富。因此,对多模态数据的类别划分具有重要的现实意义,它既是跨模态的信息检索、跨模态的问答系统等专业领域的方向,也能极大促进关联实体背后分析技术和应用的进步。
互联网上大量涌现的丰富资源表现出关联性和多模态性,在资源实体间,它们越来越普遍的与彼此发生关联,相互链接、相互引用等,而在资源实体内,它们又蕴含多种不同表现形式的数据,如音频、文字、图片、视频等,这些表现形式不同的数据从人类不同的感观对概念进行描绘,通过不同感观的混合刺激,使人们更全面、便携的获取信息,扩大了信息数量,也提升了信息流动速度。这些资源极大了丰富了人们的生活,但对于管理和挖掘这些信息的人和系统而言则提出了更高的要求。
结合多模态特性对关联的实体分类,既遵循了网络世界信息内容不断丰富的客观事实,又是进一步探索各类信息在相互作用规律的需要。现有技术提供了分析单模态数据的有力方法,但在处理表现力更强的混合数据时,却受限于浅层结构的表达能力,而深度多层网络为多模态数据表示和建模开辟了新的机遇。
在多模态数据不断增长的大数据时代,对多模态数据挖掘的需求也在不断增加。从理论上而言,由于多模态的信息之间存在关联,使用二个或多个模态的信息必然大于单一模态的信息。因此,现有技术的数据挖掘方法对单个模态的信息完成处理和挖掘从某种程度上来说丢弃了其余模态中的有用信息,产生了巨大的资源浪费,而分别对每个模态分析和学习,又不可避免的增加了大量的计算量和存储资源,而由于模态的分离,模态间的关联难以被有效挖掘。因此,在面向多模态数据时,传统的单模态数据挖掘方法,难以避免信息的巨大浪费,不能满足日益增长的多模态数据挖掘的需求。为充分利用各模态自身的信息资源,又考虑多模态信息之间的相互关联,提出多模态学习方法,以提高多模态相关的各个任务的性能。
由于网络上快速增长的多媒体数据,给多媒体信息检索和多媒体内容推荐等多媒体分析工作带来了新的巨大挑战,多模态数据的研究备受各界关注,传统的基于单模态的分析框架,专注于特定领域的知识学习,对存在语义鸿沟的多模态数据的探索能力非常有限。在多媒体领域,多模态学习变的越来越重要,不同模态表面上携带着不同的信息,然而在表述一个概念时,模态之间可以是语义上相近或是互补的。多模态学习和多模态数据的表示在许多不同的应用中显著优于单模态方法。本发明研究了关联实体网络中关联实体的类别划分问题,区别于单模态的类别划分方法以及多类别划分器、多特征的混合方案,本发明的多模态学习和表示方法,使用深度多层网络为多模态高层语义特征的关联建模,提出了一种多模态深层聚合的特征聚合类别划分器。
综合来看,现有技术的信息类别划分存在以下缺陷:一是现有技术的数据挖掘方法是对单个模态的信息处理和挖掘,丢弃了其余模态中的有用信息,产生了巨大的资源浪费,而分别对每个模态分析和学习,又不可避免的增加了大量的计算量和存储资源,而由于模态的分离,模态间的关联难以被有效挖掘,在面向多模态数据时,现有技术的单模态数据挖掘方法,难以避免信息的巨大浪费,不能满足日益增长的多模态数据挖掘的需求;二是现有技术多模态学习器中使用各模态的原始特征输入,是对低层原始特征的聚合,聚合在较低的层次,无法对多模态的强语义特征聚合,对存在语义鸿沟的多模态数据的探索能力非常有限,分类效果较差;三是现有技术单模态的方法性能较差,现有技术的学习分类方法明显错误多,错误原因不容易查找和解决,浅层模型分类效果差,在对统计差异性大的不同模态特征的关联学习上,性能完全不能满足要求,而且特征提取速度慢,整个过程获的效率和准确率都很低;四是由于现有技术模态内的特征学习和模态间的特征聚合不能相互分离,不具有的模块化的特点,不可处理跨模态任务,不通用普适性,伸缩扩展性差,不能处理不完整数据。
由于高层语义特征的提取使用了模态数据中较为先进的处理方法,不同于现有技术多模态学习器中使用各模态的原始特征输入,本发明探寻的高层语义关联,充分利用了现有的单模态特征学习和提取的优势,对多模态的信息完成充分预学习,再对高层的语义特征完成聚合,由于高层语义特征之间不论表现上还是统计上都具有非常强的差异性,以往浅层的特征聚合器无法满足这一需要,因此本发明利用了深层网络的自适应性和学习能力,提出一种使用高层语义特征的深度聚合器,由于模态内的特征学习在特征输入网络时就已经学习完成,网络只用通过模态间的学习对这些特征完成调优。考虑到类别划分器的复用性和扩展性,本发明所设计的类别划分器可通过简单的改造以适应多模态环境下不同领域的学习问题。同时文稿的类别划分器具有较强的通用普适性,这一类别划分器可扩展到更多类型模态的数据上,如音频数据、视频数据等,而整个网络的结构不会因此发生变化。
本发明从百科实体类别划分的实际任务出发,结合现有的多模态特征提取方法,配合深度多层网络的学习能力,构造并实现了一种基于深度多层网络的多模态特征聚合类别划分器。本发明提出的类别划分器,建立在多模态的高层语义特征之上,形成一个模态内特征独立,模态内与模态间解耦的模块化结构,经过参量的调整和训练,最终在百科实体上的实验证明了它的优越性。
技术实现要素:
针对现有技术的不足,本发明提出的一种深度多层网络驱动的特征聚合类别划分器,比单模态的方法有较大提升,通过对每个类别的错误分类实例进行分析,发现多模态的学习分类方法明显错误更少,错误原因更易查找和解决。在多模态分类方法中,使用cca模型分类效果提升十分有限,而使用本发明深度多层网络驱动的特征聚合类别划分器使得分类效果有明显提升,可见使用深层融合的模型比浅层的模型获得了更好的效果。在对统计差异性大的不同模态特征的关联学习上,深层的学习模型更具优势。而对于使用不同特征的同一模型,实验发现使用区域卷积神经网络驱动的模态聚合模型在单个类上的准确率大都优于使用文档主题和卷积神经网络驱动的模态聚合模型。另外,在性能上,由于使用区域卷积神经网络驱动的模态聚合模型具有运算性能上的优势,特征提取速度更快,从而使整个过程获得了更高的效率和准确率。
为达到以上技术效果,本发明所采用的技术方案如下:
一种深度多层网络驱动的特征聚合类别划分器,包括类别划分器建模、训练和分类,特征选择包括文稿特征和图片特征,根据模态聚合模型完成特征聚合类别划分,类别划分器采用五层神经网络模型完成多模态数据类别划分,其中a0为输入,分别接收事先训练的图片和文稿的高层语义特征,a1对输入的多模态特征完成拼接,a2至a3学习一个图片和文稿聚合的多模态混合表示,是一个全连接的多层神经网络,a4完成类别划分预测,产生类别划分结果,多层网络训练是一个有监督的过程,利用类别标记,训练得到的联合表示利于类别划分,在多层神经网络中,a0的节点数与模态特征的长度一致,a1中的节点数是a0中各模态输入节点数的总和,a2的节点数与问题相关,a3的结点数与类标记的个数一致。
一种深度多层网络驱动的特征聚合类别划分器,进一步的,类别划分器训练和分类过程为:
假设多模态信息的向量表示分别为b1,b2,…,bm,则在a1,拼接后的向量为:
y(1)=[b1;b2;...;bm]
在聚合层,多模态的表示将被聚合,形成多模态联合语义特征,过程为:
y(i)=c(w(i)y(i-1) e(i)),i=2,3
其中c是非线性函数sigmoid,w(i)和e(i)分别是第i层网络的权重和偏置,在获得多模态联合语义特征后,a4完成类别划分预测,产生类别划分概率:
k、j分别为类别区分下标,n为类别总数,在训练过程中,通过引入softmax的损失函数,通过梯度下降算法进行参数优化,根据类别划分概率,将实体和信息划分到不同的类别中。
一种深度多层网络驱动的特征聚合类别划分器,进一步的,文稿特征提取过程中,词组向量空间模型使用词为单位的向量表示文稿,通过空间内的向量的相似性表达语义相似性,向量空间模型中,一个文稿向量的每一维表示一个词,用向量间的夹角表示文稿间的相关程度,文稿表示方法通过词的权重向量构成的文稿表示;
假设文档集合g中,给定单词wi和文档dj,词条频度tfi,j表示词wi在dj中的出现次数,文档频度dfi表示g中出现了单词wi的文档篇数,收集频度cfi表示g中出现单词wi的总次数,词条频度表达词条在一篇文档中的重要程度,这一重要程度与词条频度值呈正相关,文档频度反映词的信息量,tf-idf为词与文档之间关系的度量方法,表示如下:
使用tf-idf反映词与文档的关系,本发明的词组向量空间模型建立在以tf-idf为权重的词-文档的矩阵上。
一种深度多层网络驱动的特征聚合类别划分器,进一步的,本发明采用循环神经网络与卷积神经网络相结合的区域卷积神经网络,解决卷积神经网络中词窗口大小难以确定的问题,通过正向和逆向的循环神经网络,解决由于输入文稿的顺序性产生的有偏问题,循环神经网络与卷积神经网络相结合的类别划分器保留词序信息,在文稿特征上,以摘要内容作为一篇描述定义性的文档使用,通过循环卷积神经网络学习向量表示,本发明选取摘要作为文稿语义特征来源,作为多模态聚合模型文稿模态的输入。
一种深度多层网络驱动的特征聚合类别划分器,进一步的,图片特征提取过程中,利用多层卷积神经网络完成图片特征的提取,并将提取得到的图片特征作为本发明多模态聚合模型的视觉模态输入;
利用多层卷积神经网络获取图片特征的方法为:
第一步,对图片进行预处理,生成像素大小相同的图片;
第二步,在不同的色彩通道上对图片完成多核卷积、池化操作;
第三步,重复第二步,直到获得充足数量和深度的图片语义信息;
第四步,将不同核、不同通道上的特征值拼接,形成特征向量;
第五步,使用全连接层减小特征向量的维度。
一种深度多层网络驱动的特征聚合类别划分器,进一步的,本发明提出了两种模态聚合模型,分别为文档主题和卷积神经网络驱动的模态聚合模型、区域卷积神经网络驱动的模态聚合模型。
一种深度多层网络驱动的特征聚合类别划分器,进一步的,文档主题和卷积神经网络驱动的模态聚合模型中,文档主题生成模型是一种概率生成模型,捕获词语、主题、文档之间的统计关系,使文档可被主题表示,是一种文稿建模方法,将文稿表示成长度一致的主题分布,包含丰富的潜在语义信息;文档主题生成模型提供对语料库的建模方法,是一个层次的贝叶斯模型,建立在词袋假设忽略词语在文稿中顺序的基础上,假设一篇文档可看作是隐含主题的混合,每个主题都是词汇集上的一个分布;
文档主题生成模型描述一篇文稿文档的生成,为通过语料g={d1,d2,…,dm}生成一个长度为n的文稿d={w1,w2,…,wnd},模型将要生成的文档看作是服从t个主题的多项式分布multinomial(h),而分布参量h服从dirichlet先验分布dir(c),每一个主题又是词汇集上的多项式分布multinomial(m),当生成每个词wi时,先由多项式分布multinomial(h)采样得到的主题zi,再由多项式分布multinomial(m)从zi中采样得到一个词,从而赋给wi,m从一个dir(g)的先验分布得到。
一种深度多层网络驱动的特征聚合类别划分器,进一步的,使用文档主题和卷积神经网络驱动的模态聚合模型进行文稿表示的过程概括为:
第1步,对文档集中的文档分词,获得文档集的词汇表;
第2步,去除词汇表中的停用词和词条频度为1的词;
第3步,构建文档词汇矩阵,用tf-idf作为矩阵权重;
第4步,设定主题个数,通过文档主题生成模型对文档词汇矩阵完成分解,获得文档主题分布和主题词分布;
第5步,以文档主题分布作为文档的特征向量。
一种深度多层网络驱动的特征聚合类别划分器,进一步的,区域卷积神经网络驱动的模态聚合模型中,采用谷歌开源的词向量训练工具word2vec进行词向量训练,采用skip-gram模型在大规模的语料上进行词向量的训练;
区域卷积神经网络训练过程是网络参量的学习过程,采用随机方式对参量进行初始化,模型采用softmax类别划分器,使用损失参量进行误差评估,然后通过随机梯度下降算法对网络进行训练。
一种深度多层网络驱动的特征聚合类别划分器,进一步的,使用区域卷积神经网络模型进行文稿表示的过程概括为:
步骤一,通过已有的大型语料预学习词向量;
步骤二,对文稿分词并将转为词向量,对于未出现的词,采用随机给定的方法;
步骤三,随机初始化区域卷积神经网络模型网络参量;
步骤四,利用随机梯度下降算法对网络参量进行调整,得到最终模型。
相比于现有技术,本发明的主要优点如下:
1.本发明提出的一种深度多层网络驱动的特征聚合类别划分器,解决了现有技术的数据挖掘方法对单个模态的信息完成处理和挖掘,丢弃了其余模态中的有用信息,产生了巨大的资源浪费,而分别对每个模态分析和学习,又不可避免的增加了大量的计算量和存储资源,而由于模态的分离,模态间的关联难以被有效挖掘的问题。在面向多模态数据时,本发明的多模态数据挖掘方法,有效避免信息的巨大浪费,能够满足日益增长的多模态数据挖掘的需求,本发明充分利用各模态自身的信息资源,又考虑多模态信息之间的相互关联,提高了多模态相关的各个任务的性能。
2.本发明提出的一种深度多层网络驱动的特征聚合类别划分器,高层语义特征的提取使用了模态数据中先进的处理方法,不同于现有技术多模态学习器中使用各模态的原始特征输入,本发明探寻的高层语义关联,充分利用了现有的单模态特征学习和提取的优势,对多模态的信息完成充分预学习,再对高层的语义特征完成聚合,由于高层语义特征之间不论表现上还是统计上都具有非常强的差异性,对存在语义鸿沟的多模态数据的探索能力很强,分类效果较好。
3.本发明提出的一种深度多层网络驱动的特征聚合类别划分器,比单模态的方法有较大提升,通过对每个类别的错误分类实例进行分析,发现多模态的学习分类方法明显错误更少,错误原因更易查找和解决。在多模态分类方法中,使用cca模型分类效果提升十分有限,而使用本发明深度多层网络驱动的特征聚合类别划分器使得分类效果有明显提升,可见使用深层融合的模型比浅层的模型获得了更好的效果。在对统计差异性大的不同模态特征的关联学习上,深层的学习模型更具优势。而对于使用不同特征的同一模型,实验发现使用区域卷积神经网络驱动的模态聚合模型在单个类上的准确率大都优于使用文档主题和卷积神经网络驱动的模态聚合模型。另外,在性能上,由于使用区域卷积神经网络驱动的模态聚合模型具有运算性能上的优势,特征提取速度更快,从而使整个过程获得了更高的效率和准确率。
4.本发明提出的一种深度多层网络驱动的特征聚合类别划分器,由于模态内的特征学习和模态间的特征聚合相互分离,类别划分器具有的模块化的特点,可处理跨模态任务,具有一个聚合多种特征的公共表示,适合应用于跨模态检索,具有通用普适性,伸缩扩展性好,能处理不完整数据,模型收敛速度快,安全性较高,在实际运用中效果较好,灵活性好,类别划分器逻辑清楚、结构清晰、健壮性好,能快速的推广到特征聚合类别划分应用中,市场前景广阔。
附图说明
图1是本发明提出的一种深度多层网络驱动的特征聚合类别划分器的结构示意图。
图2是本发明基于文档主题生成模型和卷积神经网络的文稿和视觉模态聚合模型。
图3是本发明基于区域卷积神经网络的文稿和视觉模态聚合模型。
图4是本发明词向量的训练模型的结构示意图。
具体实施方式
下面结合附图,对本发明提供的一种深度多层网络驱动的特征聚合类别划分器的技术方案完成进一步的描述,使本领域的技术人员可以更好的理解本发明并能予以实施。
现有技术的文稿特征更多选择向量空间模型或词向量表示,多采用概率图模型,如条件随机场或循环神经网络,文稿和图片、视频等其它媒体都可以按顺序方向输入到模型中,共享相同编码层实现多模态间的特征聚合。由于本发明重点在于将多模态的高层语义特征聚合,本发明提供的一种深度多层网络驱动的特征聚合类别划分器,参见图1至图4,提取的特征包括:通过深度卷积神经多层网络高度抽象得到的图片语义特征,词向量和区域卷积神经网络模型学习得到的文稿特征,图片语义特征和文稿特征都是高层特征。本发明的类别划分器旨在完成更一般的特征聚合,不仅适用于本发明涉及的文稿、图片这两种模态,还能处理其它模态的特征,需要将模态内的特征学习和模态间的特征聚合解耦,不依赖于底层特征聚合结构。
具体实施方式首先从整体上记载了本发明类别划分器的结构,类别划分器建立在高层语义层面上对特征进行聚合,考虑到多模态间数据的差异性,采用多层网络结构。本发明以一个拥有文稿、图片的实体集合为对象,分别记载文稿、图片模态信息的处理方法,最后记载聚合框架下的两种不同方法,阐述不同方法的特点和处理过程。
一、本发明类别划分器概述
本发明提出的深度多层网络模型学习多模态间高度非线性的语义层面的关系,完成语义相关学习,本发明采用深度多层神经网络模型完成特征聚合,深度多层神经网络具有非常强的靠拢能力,提供充足的训练参量和足够深的多层结构,理论上多层神经网络可靠拢多种复杂函数。
(一)类别划分器结构
本发明采用五层神经网络模型完成多模态数据类别划分,参见图1,其中a0为输入,分别接收事先训练的图片和文稿的高层语义特征,a1对输入的多模态特征完成拼接,a2至a3用于学习一个图片和文稿聚合的多模态混合表示,是一个全连接的多层神经网络,a4用于完成类别划分预测,产生类别划分结果,多层网络训练是一个有监督的过程,更好利用了类别标记,使得训练得到的联合表示(a2或a3)更有利于类别划分,在多层神经网络中,a0的节点数与模态特征的长度一致,a1中的节点数是a0中各模态输入节点数的总和,a2的节点数与问题相关,a3的结点数与类标记的个数一致。
(二)训练和分类
假设多模态信息的向量表示分别为b1,b2,…,bm,则在a1,拼接后的向量为:
y(1)=[b1;b2;...;bm]
在聚合层,多模态的表示将被聚合,形成多模态联合语义特征,过程为:
y(i)=c(w(i)y(i-1) e(i)),i=2,3
其中c是非线性函数sigmoid,w(i)和e(i)分别是第i层网络的权重和偏置,在获得多模态联合语义特征后,a4完成类别划分预测,产生类别划分概率:
k、j分别为类别区分下标,n为类别总数,在训练过程中,通过引入softmax的损失函数,通过梯度下降算法进行参数优化,防止网络过拟合。
根据类别划分概率,将实体和信息划分到不同的类别中。
(三)本发明类别划分器的特点
由于模态内的特征学习和模态间的特征聚合相互分离,类别划分器具有的模块化的特点,具有以下优势:
(1)可处理跨模态任务
本发明的类别划分器与跨模态检索器一样,具有一个聚合多种特征的公共表示,适合应用于跨模态检索。
(2)通用普适性
这一类别划分器可扩展到更多类型模态的数据上,由于模态内的特征学习在特征输入网络时就已学习完成,本发明的多层网络模型不用完成这个特征的学习,而只用通过模态间的学习对特征完成调优,例如本发明可以通过不同的方法分别学习了视觉模态、文稿模态的高层语义特征,在处理其它多模态问题时,如视觉听觉模态时,可将输入层的特征替换,而整个网络的结构和训练过程不会变化。
(3)伸缩扩展性
本发明的类别划分器处理了二个多模态的特征聚合问题,而为了处理更多模态的特征聚合,本发明的类别划分器可通过增加输入分支的方式完成扩展,由于模态内的训练可独立于模态间的训练,模态内的特征学习不受影响,而仅在调整聚合层内的隐含层节点数目。当某一模态特征不需要输入时也要通过删减分支的方法解决,不过还有更简单的方法,将模态的输入初始化为0。
(4)处理不完整数据
在一些网络页面中几乎全部有文稿内容,但不是所有页面都会有图片,所以这就存在一个特征缺失,从而导致二个问题:一是训练时出现不完整数据是否能训练,二是对一个不完整数据,是否能预测它的类别。虽然在训练时出现不完整数据有可能导致偏斜,但对类别划分预测而言,本发明的类别划分器仍可以得到一个满意的预测。在类别划分器的a2或a3层,得到一个数据的多模态聚合特征的内部表示,这个表示是多个模态的特征聚合得来的,而多层神经网络定义了它的聚合方式。当有模态缺失的数据完成预测时,类别划分器仍可得到一个近似的表示。
二、特征选择
(一)文稿特征
现有技术的文稿处理算法基于文档特征,不能直接将文稿本身作为输入。选取文稿特征来表示文稿,需在二个目标间权衡:第一个目标是达到一定的语义容量,这将准确表示文稿的含义;第二个目标是使用最实用高效的特征便于发现模式,强调对特征集进行代表性和特异性精简。
单个的数字、字母、特殊字符、空格是构成单词、术语和概念更高层语义的基本单位。字符表示可包含一个文档的所有字符集或一些筛选的子集。对没有位置信息的字符表示,可利用程度非常有限,而包括一定程度位置信息的字符序列如二元、三元序列比较常用。总体而言,由于以字符为单位的文档特征空间是欠优化的,所以不实用。
词组向量空间模型使用词为单位的向量表示文稿。词是最基本、最小、有意义的语言符号,用词表示文稿是最常用的文稿表示方式,向量空间模型概念简单,通过空间内的向量的相似性表达语义相似性。在向量空间模型中,一个文稿向量的每一维都表示一个词,用向量间的夹角表示文稿间的相关程度,文稿表示方法通过词的权重向量构成的文稿表示。
计算词的权重是本发明向量空间表示的重要问题,词的权重有几个重要指标,如词条频度、收集频度、文档频度,假设文档集合g中,给定单词wi和文档dj,词条频度tfi,j表示词wi在dj中的出现次数,文档频度dfi表示g中出现了单词wi的文档篇数,收集频度cfi表示g中出现单词wi的总次数。
词条频度表达词条在一篇文档中的重要程度,这一重要程度与词条频度值呈正相关,尽管词条频度体现词和文档的相似性,但不同文档中的出现次数的比较不能反映出它对哪篇文档更为重要。文档频度反映词的信息量,如果一个词在每个文档中都有出现,这个词与文档的相关性就并不大。理想情况下应把词条频度和文档频度结合,更确切的表示词与文档之间的关系。tf-idf为词与文档之间关系的度量方法,表示如下:
使用tf-idf非常好的反映词与文档的关系,本发明的词组向量空间模型建立在以tf-idf为权重的词-文档的矩阵上的。
概念特征是通过人工统计和规则方法的得到的特征,概念级别的特征需要使用复杂的预处理方法获取。概念特征更为抽象,却是更具表达能力、更为精练的语义特征,通过概念特征表示,类别划分器能更好的处理同义和多义现象,而现有技术的向量空间模型非常难处理。
本发明采用循环神经网络与卷积神经网络相结合的区域卷积神经网络,解决卷积神经网络中词窗口大小难以确定的问题,通过正向和逆向的循环神经网络,解决由于输入文稿的顺序性产生的有偏问题。循环神经网络与卷积神经网络相结合的类别划分器保留了词序信息,非常好的弥补了文档主题生成模型的不足。
文稿是本发明的实体的主要方面。实体类别划分工作中,文稿是重点对象。在文稿特征上,本发明不考虑文稿在的不同表现形式,比如标题、表格项、标记等等,以摘要内容作为一篇描述定义性的文档使用,通过循环卷积神经网络学习本发明的向量表示。原因如下:
第一,摘要一般含有充足长的文稿,是实体的定义或概括性描述,对实体的含义有较完整的表述;此外本发明在单模态实验中发现,单从摘要的文稿信息完成实体类别划分就能达到较高的准确率,证明摘要具有非常强的类别划分能力。
第二,摘要以外的文稿信息,具有标记化的特点,语义表达上过于零散,无法通过应用文档主题生成模型和区域卷积神经网络模型表达它们的深层语义。
第三,尽管标记化的文字内容具有非常强的类别暗示性,比如类别标记中的项目等。但作为开放的协同编辑知识库,非常难避免标记错误的问题,而摘要的内容只在隐含语义层面上对类别有贡献,字面上只体现出实体认识方式,人为出错概率低。
本发明的实体拥有相当规模的摘要文稿信息,为获取更为抽象的语义特征,本发明使用主题模型和区域卷积神经网络模型学习文稿的语义表示,综合以上考虑,本发明选取摘要作为文稿语义特征来源,作为本发明多模态聚合模型文稿模态的输入。
(二)图片特征
图片最常用的特征包括颜色、纹理、形状、空间关系,颜色特征是全局特征,颜色描述图片区域内的表面特性,颜色特征没有大小和方向,只与像素点有关,是一种统计特性。提取颜色特征用颜色直设计图,颜色直设计图从全局描述图片的颜色分布,适用于对物体形状和位置不敏感的图片应用,这也表明了它的局限性,不能对图中的物体完成描述。
纹理特征也是图片的全局特征,纹理特征描述图中物体的表面特性,纹理特征需要在多个像素点区域里统计分析其模式。由于是一种统计特征,纹理特征的匹配性非常强,可有效的回避噪声的影响。但当图片发生变化时,比如缩放或者物体表面发生光照变化时,纹理特征偏差较大,不能完全反映物体的本质特性,纹理特征可通过几何法、统计法、随机场模型法及信号处理法等方法获取。
形状特征有两类,包括轮廓特征和区域特征。轮廓特征对应物体的外部轮廓,是边界特征,而区域特征与形状的所在区域有关。形状特征描述物体,是图片的局部特征。图片的形状特征可用边界特征法、傅里叶形状描述符、几何参量法来描述。
现有技术的图片特征需要人工处理并考虑它们的局部性和全局性来完成组合,这是一项复杂的工作,而且这些特征对语义的表达不够充分。深度学习算法中的卷积神经网络利用深度卷积神经多层网络学习的特征作为图片表示,卷积神经网络特征在图片表示上具有更强的表达能力。深层卷积神经网络结构与大脑认知结构类似,所学习的特征会经由多层结构逐层抽象,从局部的感知逐层扩大到对整个图片的理解。而且深层卷积神经网络支持多通通道学习,对彩色图片的处理优势明显。而且不同于其它人工特征的提取方法需要对图片处理,深层卷积神经网络有一个二维的感受野,与图片二维的结构吻合,因此在图片特征提取时,不需要对图片过多干涉,不需要复杂的预处理过程,只以图片原有的视觉形式栅格点阵的方式作为输入。
卷积神经网络的结构更切合生物对视觉信息的理解方式,使得这些特征更具有语义特性。现有技术的特征提取方法需要对特征筛选和结合才能更好的反映图片的语义特性,这使得难以得到统一有效的图片表示方式。
综合以上的优势,本发明选择利用多层卷积神经网络完成图片特征的提取,并将提取得到的图片特征作为本发明多模态聚合模型的视觉模态输入。
利用多层卷积神经网络获取图片特征的方法为:
第一步,对图片进行预处理,生成像素大小相同的图片;
第二步,在不同的色彩通道上对图片完成多核卷积、池化操作;
第三步,重复第二步,直到获得充足数量和深度的图片语义信息;
第四步,将不同核、不同通道上的特征值拼接,形成特征向量;
第五步,使用全连接层减小特征向量的维度。
例如对于一个多层卷积神经网络,输入图片是32×32规模的灰度图片,第一层的卷积层有20个5×5的卷积核,通过第一层的卷积层后产生的20个28×28的卷积特征,再由2×2的池化层后产生了14×14的特征,后面与之类似,直到倒数第二层产生一个300维的向量,这个300维的向量就可作为图片的表示,而最后一层则通过全连接降低向量维度,以便用于类别划分。
三、模态聚合模型
本发明提出了两种模态聚合模型,分别为文档主题和卷积神经网络驱动的模态聚合模型、区域卷积神经网络驱动的模态聚合模型,两种模态聚合模型各具特点和优势,以下实施例一为文档主题和卷积神经网络驱动的模态聚合模型,实施例二为区域卷积神经网络驱动的模态聚合模型。
(一)实施例一:文档主题和卷积神经网络驱动的模态聚合模型
实施例一提供的是一种文档主题和卷积神经网络驱动的模态聚合模型。一个文稿由多个不同的主题组成,文档主题生成模型是一种概率生成模型,与其它主题模型相似,文档主题生成模型捕获词语、主题、文档之间的统计关系,使文档可被主题表示,文档主题生成模型是一种文稿建模方法,可将文稿表示成长度一致的主题分布,包含丰富的潜在语义信息。本发明的文档主题和卷积神经网络驱动的模态聚合模型生成文稿表示与视觉模态的整合模型,结构参见图2所示,图2表示基于文档主题生成模型和卷积神经网络的文稿和视觉模态聚合模型。
文档主题生成模型提供了一种对语料库的建模方法,从中可发现统计上相近的词语及文档集合内所含的隐含主题。通过文档主题生成模型产生的文稿表示有益于文稿类别划分、文稿摘要以及文稿相似度分析。
文档主题生成模型是一个层次的贝叶斯模型,对文档集合建模,文档主题生成模型建立在词袋假设忽略词语在文稿中顺序的基础上,文档主题生成模型假设一篇文档可看作是隐含主题的混合,而每个主题都是词汇集上的一个分布。
作为生成模型,文档主题生成模型描述一篇文稿文档的生成,为通过语料g={d1,d2,…,dm}生成一个长度为n的文稿d={w1,w2,…,wnd},模型将要生成的文档看作是服从t个主题的多项式分布multinomial(h),而分布参量h服从dirichlet先验分布dir(c),每一个主题又是词汇集上的多项式分布multinomial(m),当生成每个词wi时,先由多项式分布multinomial(h)采样得到的主题zi,再由多项式分布multinomial(m)从zi中采样得到一个词,从而赋给wi,这里的m从一个dir(g)的先验分布得到。
使用文档主题和卷积神经网络驱动的模态聚合模型进行文稿表示的过程概括为:
第1步,对文档集中的文档分词,获得文档集的词汇表;
第2步,去除词汇表中的停用词和词条频度为1的词;
第3步,构建文档词汇矩阵,用tf-idf作为矩阵权重;
第4步,设定主题个数,通过文档主题生成模型对文档词汇矩阵完成分解,获得文档主题分布和主题词分布;
第5步,以文档主题分布作为文档的特征向量。
(二)实施例二:区域卷积神经网络驱动的模态聚合模型
文档主题生成模型基于词袋,其中词在文稿中出现的顺序信息被丢弃,而且文档主题生成模型是一种生成模型,类别标记在模型训练不能被利用。为弥补文档主题生成模型的缺陷,保留词的顺序信息,本发明采用了区域卷积神经网络驱动的模态聚合模型获取文稿表示,模型的结构参见图3所示。
(1)词向量
最简单的词向量方式是one-hot表示,是用一个长度为词典大小的向量表示一个词,向量的分量只有一个1,其它全为0,1的位置对应该词在词典中的位置。但这种词表示的缺点是容易受维数灾难困扰,不能非常好刻画词与词之间的相似性。
词向量skip-gram模型结构参见图4所示,skip-gram模型通过当前词预测上下文,选用skip-gram模型进行词向量的训练。
本发明采用谷歌开源的词向量训练工具word2vec进行词向量训练,采用skip-gram模型在大规模的语料上进行词向量的训练。
(2)区域卷积神经网络的结构与训练
区域卷积神经网络模型解决了原有的现有技术的神经网络对文稿n-gram学习时参量选择的困难,并通过正向和逆向的循环神经网络解决了循环的偏向性问题,区域卷积神经网络模型中,一个词被表示成如下形式:
xi=[cl(wi);p(wi);cr(wi)]
其中,wi表示词,cl和cr分别表示词上下文,p表示该词的词向量,通过卷积层,词和词上下文被映射到潜在的语义空间中:再通过池化层完成子采样,得到:
yi(2)=tanh(w(2)xi e(2))
再完成池化层子采样,得到:
经由全连接层的变换,得到:
y(4)=w(4)y(3) e(4)
最终经由softmax层转变为概率:
得到词在类别上的表示,可取y(3)或y(4)作为文稿的语义表示。
区域卷积神经网络训练过程是网络参量的学习过程,参量包括词的上下文c、网络权重w和偏置e,n为类别总数,i、j分别为类别区分下标。本发明采用随机方式对参量进行初始化,由于模型采用了softmax类别划分器,可以使用损失参量进行误差评估,然后通过随机梯度下降算法对网络进行训练。
使用区域卷积神经网络模型进行文稿表示的过程概括为:
步骤一,通过已有的大型语料预学习词向量;
步骤二,对文稿分词并将转为词向量,对于未出现的词,采用随机给定的方法;
步骤三,随机初始化区域卷积神经网络模型网络参量;
步骤四,利用随机梯度下降算法对网络参量进行调整,得到最终模型。
四、实验分析
通过实验,发现基于多模态的学习分类方法比单模态的方法有较大提升,通过对每个类别的错误分类实例进行分析,发现多模态的学习分类方法明显错误更少,错误原因更易查找和解决。在多模态分类方法中,使用cca模型分类效果提升十分有限,而使用本发明深度多层网络驱动的特征聚合类别划分器使得分类效果有明显提升,可见使用深层融合的模型比浅层的模型获得了更好的效果。在对统计差异性大的不同模态特征的关联学习上,深层的学习模型更具优势。而对于使用不同特征的同一模型,实验发现使用区域卷积神经网络驱动的模态聚合模型在单个类上的准确率大都优于使用文档主题和卷积神经网络驱动的模态聚合模型。另外,在性能上,由于使用区域卷积神经网络驱动的模态聚合模型具有运算性能上的优势,特征提取速度更快,从而使整个过程获得了更高的效率和准确率。
综上,信息网络逐渐呈现大规模化和复杂化,互联网技术的飞速发展和社交网络的兴起,网络内容越来越丰富,单纯文字的描述已满足不了人们对文化的需求,图片、音频、视频等多媒体信息被大量的上传到互联网。人们获取知识的方式和容量在发生着重大变化。结合多模态特性对关联的实体完成研究,既遵循了网络世界信息内容不断丰富的客观事实,又是进一步探索各类信息在相互作用规律的需要。传统的学习方法为本发明提供了分析单模态数据的有力方法,但在处理表现力更强的混合数据时,却受限于其浅层结构的表达能力。而深度学习在近年来的发展,为多模态数据表示和建模这一领域开辟了新的机遇。
本发明从百科实体类别划分的实际任务出发,结合了现有的多模态特征的提取方式,配合深度多层网络的学习能力,构造并实现了一种基于深度多层网络的多模态特征聚合类别划分器。本发明提出的类别划分器,建立在多模态的高层语义特征之上,形成一个模态内特征独立,模态内与模态间解耦的模块化结构。经过参量的调整和训练,最终在百科实体上的实验证明了它的优越性。本发明的类别划分器与之前大多数模型的区别之处在于,之前的类别划分器是对低层原始特征的聚合,而本发明尝试在更高的层次,对多模态的强语义特征完成聚合,而为了增强模型表达异构数据的能力,采用了多层网络结构对特征完成深度聚合。此外,为了利用单一模态特征学习的最新成果,类别划分器将模态内特征学习和模态间特征聚合的过程分离,设计出一个模块化的学习类别划分器,本发明可以轻易的更换多模态的特征选择方法,从而可以设计出更多的用于处理多模态的特征聚合问题的类别划分器。
1.一种深度多层网络驱动的特征聚合类别划分器,其特征在于:包括类别划分器建模、训练和分类,特征选择包括文稿特征和图片特征,根据模态聚合模型完成特征聚合类别划分,类别划分器采用五层神经网络模型完成多模态数据类别划分,其中a0为输入,分别接收事先训练的图片和文稿的高层语义特征,a1对输入的多模态特征完成拼接,a2至a3学习一个图片和文稿聚合的多模态混合表示,是一个全连接的多层神经网络,a4完成类别划分预测,产生类别划分结果,多层网络训练是一个有监督的过程,利用类别标记,训练得到的联合表示利于类别划分,在多层神经网络中,a0的节点数与模态特征的长度一致,a1中的节点数是a0中各模态输入节点数的总和,a2的节点数与问题相关,a3的结点数与类标记的个数一致。
2.根据权利要求1所述的一种深度多层网络驱动的特征聚合类别划分器,其特征在于,类别划分器训练和分类过程为:
假设多模态信息的向量表示分别为b1,b2,…,bm,则在a1,拼接后的向量为:
y(1)=[b1;b2;...;bm]
在聚合层,多模态的表示将被聚合,形成多模态联合语义特征,过程为:
y(i)=c(w(i)y(i-1) e(i)),i=2,3
其中c是非线性函数sigmoid,w(i)和e(i)分别是第i层网络的权重和偏置,在获得多模态联合语义特征后,a4完成类别划分预测,产生类别划分概率:
k、j分别为类别区分下标,n为类别总数,在训练过程中,通过引入softmax的损失函数,通过梯度下降算法进行参数优化,根据类别划分概率,将实体和信息划分到不同的类别中。
3.根据权利要求1所述的一种深度多层网络驱动的特征聚合类别划分器,其特征在于,文稿特征提取过程中,词组向量空间模型使用词为单位的向量表示文稿,通过空间内的向量的相似性表达语义相似性,向量空间模型中,一个文稿向量的每一维表示一个词,用向量间的夹角表示文稿间的相关程度,文稿表示方法通过词的权重向量构成的文稿表示;
假设文档集合g中,给定单词wi和文档dj,词条频度tfi,j表示词wi在dj中的出现次数,文档频度dfi表示g中出现了单词wi的文档篇数,收集频度cfi表示g中出现单词wi的总次数,词条频度表达词条在一篇文档中的重要程度,这一重要程度与词条频度值呈正相关,文档频度反映词的信息量,tf-idf为词与文档之间关系的度量方法,表示如下:
使用tf-idf反映词与文档的关系,本发明的词组向量空间模型建立在以tf-idf为权重的词-文档的矩阵上。
4.根据权利要求1所述的一种深度多层网络驱动的特征聚合类别划分器,其特征在于,本发明采用循环神经网络与卷积神经网络相结合的区域卷积神经网络,解决卷积神经网络中词窗口大小难以确定的问题,通过正向和逆向的循环神经网络,解决由于输入文稿的顺序性产生的有偏问题,循环神经网络与卷积神经网络相结合的类别划分器保留词序信息,在文稿特征上,以摘要内容作为一篇描述定义性的文档使用,通过循环卷积神经网络学习向量表示,本发明选取摘要作为文稿语义特征来源,作为多模态聚合模型文稿模态的输入。
5.根据权利要求1所述的一种深度多层网络驱动的特征聚合类别划分器,其特征在于,图片特征提取过程中,利用多层卷积神经网络完成图片特征的提取,并将提取得到的图片特征作为本发明多模态聚合模型的视觉模态输入;
利用多层卷积神经网络获取图片特征的方法为:
第一步,对图片进行预处理,生成像素大小相同的图片;
第二步,在不同的色彩通道上对图片完成多核卷积、池化操作;
第三步,重复第二步,直到获得充足数量和深度的图片语义信息;
第四步,将不同核、不同通道上的特征值拼接,形成特征向量;
第五步,使用全连接层减小特征向量的维度。
6.根据权利要求1所述的一种深度多层网络驱动的特征聚合类别划分器,其特征在于,本发明提出了两种模态聚合模型,分别为文档主题和卷积神经网络驱动的模态聚合模型、区域卷积神经网络驱动的模态聚合模型。
7.根据权利要求6所述的一种深度多层网络驱动的特征聚合类别划分器,其特征在于,文档主题和卷积神经网络驱动的模态聚合模型中,文档主题生成模型是一种概率生成模型,捕获词语、主题、文档之间的统计关系,使文档可被主题表示,是一种文稿建模方法,将文稿表示成长度一致的主题分布,包含丰富的潜在语义信息;文档主题生成模型提供对语料库的建模方法,是一个层次的贝叶斯模型,建立在词袋假设忽略词语在文稿中顺序的基础上,假设一篇文档可看作是隐含主题的混合,每个主题都是词汇集上的一个分布;
文档主题生成模型描述一篇文稿文档的生成,为通过语料g={d1,d2,…,dm}生成一个长度为n的文稿d={w1,w2,…,wnd},模型将要生成的文档看作是服从t个主题的多项式分布multinomial(h),而分布参量h服从dirichlet先验分布dir(c),每一个主题又是词汇集上的多项式分布multinomial(m),当生成每个词wi时,先由多项式分布multinomial(h)采样得到的主题zi,再由多项式分布multinomial(m)从zi中采样得到一个词,从而赋给wi,m从一个dir(g)的先验分布得到。
8.根据权利要求6所述的一种深度多层网络驱动的特征聚合类别划分器,其特征在于,使用文档主题和卷积神经网络驱动的模态聚合模型进行文稿表示的过程概括为:
第1步,对文档集中的文档分词,获得文档集的词汇表;
第2步,去除词汇表中的停用词和词条频度为1的词;
第3步,构建文档词汇矩阵,用tf-idf作为矩阵权重;
第4步,设定主题个数,通过文档主题生成模型对文档词汇矩阵完成分解,获得文档主题分布和主题词分布;
第5步,以文档主题分布作为文档的特征向量。
9.根据权利要求6所述的一种深度多层网络驱动的特征聚合类别划分器,其特征在于,区域卷积神经网络驱动的模态聚合模型中,采用谷歌开源的词向量训练工具word2vec进行词向量训练,采用skip-gram模型在大规模的语料上进行词向量的训练;
区域卷积神经网络训练过程是网络参量的学习过程,采用随机方式对参量进行初始化,模型采用softmax类别划分器,使用损失参量进行误差评估,然后通过随机梯度下降算法对网络进行训练。
10.根据权利要求6所述的一种深度多层网络驱动的特征聚合类别划分器,其特征在于,使用区域卷积神经网络模型进行文稿表示的过程概括为:
步骤一,通过已有的大型语料预学习词向量;
步骤二,对文稿分词并将转为词向量,对于未出现的词,采用随机给定的方法;
步骤三,随机初始化区域卷积神经网络模型网络参量;
步骤四,利用随机梯度下降算法对网络参量进行调整,得到最终模型。
技术总结