基于多模态对齐与多向量表征的人格检测方法与流程

专利2022-06-29  98


本发明涉及数据处理领域,特别涉及一种基于多模态对齐与多向量表征的人格检测方法。



背景技术:

有人利用语音和视频两个模态的数据预测人物性格,具体而言,对原视频进行随机采样得到一定帧数的视频和语音频谱。对于每一帧,利用残差网络提取视频的特征,利用傅里叶变换提取语音频谱的mfcc特征。将每一帧的视频特征及音频的mfcc特征进行拼接,输入一个多层的双向lstm网络对视频和音频特征进行共同编码。之后,对于每一帧编码后的向量,输入线性层,利用sigmoid函数进行回归。最后利用平均池化得到一个5维向量,分别表示五类人格的得分。有人利用语音、文本、视频三个模态的数据进行建模。具体地,对于语音,该论文直接将初始的音频信号输入神经网络,而不是利用傅里叶变换提取出来的mfcc特征。利用卷积神经网络将音频信号转化为64维的向量。对于文本,同样利用卷积神经网编码为64维的向量。对于视频,从中随机抽样出一帧的图像,将该图像输入卷积神经网络,编码为64维的向量。其中,三个模态使用的卷积神经网络结构及参数不同。最后,将三个模态的向量拼接为196维的向量,经线性变换后,对大五类分别做回归预测。

这些现有技术主要考虑地是语音和视频两个模态,而忽略了其说话的具体内容,导致模型的表现能力受限。通常而言,我们仅根据说话的语音语调及表情动作无法很准确的判断说话者的情绪和性格特点。其实,个体说话的语音语调、说话内容、表情动作都能反映其人格特点。如能把说话者具体的说话内容考虑进来,尤其是其具体的用词特点,则能极大的丰富我们获得的信息,帮助我们更精准的判断其人格特点。再者,现有技术中各不同模态之间的编码都是独立的,限制了模型的表现能力。其次,现有技术对同一个样本,在训练前采样一次,整个训练过程只重复全名用本次采样后得到的少数帧的视频和音频,缺乏数据量的问题。然后,现有技术对于每个样本,只学习一个向量表征,利该向量表征进行5个回归任务,不能很好地区分5类人格。一个向量表征无法很有效全面的将该个体在5类人格里的特点都刻画出来,每一类人格用一个向量进行表示理应能更全面的刻画该个体的此类人格的特点。



技术实现要素:

本发明的主要目的是提出一种基于多模态对齐与多向量表征的人格检测方法,旨在克服以上问题。

为实现上述目的,本发明提出的一种基于多模态对齐与多向量表征的人格检测方法,包括如下步骤:

s10将语音和视频模态数据按每个epoch进行重采样,生成数个彼此具有差异性的样本;

s20将数个样本及其文本模态数据输入模态内表征模块,模态内表征模块分别对音频、视频和文本三个模态数据进行独立编码,得到语音序列、视频序列和文本序列;

s30将语音序列、视频序列和文本序列输入模态间对齐表征模块,模态间对齐表征模块分别将语音序列、视频序列和文本序列两两对齐交互后拼接,得到增强后的语音表征、视频表征和文本表征;

s40将所有语音表征拼接成语音向量,将所有视频表征拼接成视频向量,将所有文本表征拼接成文本向量,利用卷积神经网络分别将语音向量、视频向量和文本向量转化为至少两类人格向量;

s50将至少两类人格向量分别线性化后通过sigmoid函数映射得到至少两类人格特点的预测概率。

优选地,所述s20包括:

模态内表征模块通过傅里叶变换提取样本中音频的梅尔频率倒谱系数和响应fbank特征,并将其输入多层双向lstm网络进行编码以捕获语音语调变化特征,将所捕获语音语调变化特征编码为语音序列,并将其输出;

模态内表征模块通过具有残差结构的卷积神经网络对样本中视频进行编码得到视频特征的高维向量,将视频特征的高维向量输入多层的双向lstm网络中将所学习的表情和动作变化编码为视频序列,并将其输出;

模态内表征模块通过基于transformer结构的bert模型对样本中的文本进行编码得到具备深层语义信息的文本序列。

优选地,所述人格向量为5类人格向量,所述5类人格向量包括:

开放人格向量,用于提取个体所具有的想象、审美、情感丰富、求异、创造、智能的特质;

责任人格向量,用于提取个体所显示出的胜任、公正、条理、尽职、成就、自律、谨慎、克制的特点;

外倾人格向量,用于提取个体所表现出的热情、社交、果断、活跃、冒险、乐观的特质;

宜人人格向量,用于提取个体所具有的信任、利他、直率、依从、谦虚、移情的特质;

神经质人格向量,用于提取个体所具有的难以平衡焦虑、敌对、压抑、自我意识、冲动、脆弱的情绪特质。

优选地,所述卷积神经网络包括5组一层一维卷积,每组卷积的卷积核的大小为1。

优选地,所述s50之后还包括:

s60将至少两类人格向量加权平均得到综合人格向量,将综合人格向量线性化后通过sigmoid函数得到综合人格概率。

优选地,所述文本模态数据根据视频字幕文本的向量表征采集,基于transformer结构的bert模型进行编码,所述bert模型是经过英文文本数据集预训练后具有编码语义信息的模型。

优选地,所述模态间对齐表征模块采用注意力机制分别将语音序列、视频序列和文本序列两两对齐交互。

优选地,所述模态间对齐表征模块利用文本转语音text2audio的注意力将文本序列向语音序列对齐,以增强语音表征;利用语音转视频audio2video的注意力将语音序列向视频序列对齐,以增强视频表征。

优选地,所述s10中将语音和视频模态数据按每个epoch同步进行重采样。

优选地,所述卷积神经网络包括5组一层一维卷积,每组卷积的卷积核的大小为1;所述将所捕获语音语调变化特征编码为语音序列的方法为:将每一帧语音语调变化特征编码为一个语音高维向量作为语音序列输出;所述多层的双向lstm网络将所学习的表情和动作变化编码为视频序列的方法为:多层的双向lstm网络学习第一帧图片中表情和动作变化并将之转化为图片特征及将图片特征编码为一个图片高维向量输出。

优选地,所述多层双向lstm网络是使用大规模的音频数据集训练后的具有提取音频特征的多层双向lstm网络;所述卷积神经网络是在imagenet任务上预训练后的具有提取图片特征的卷积神经网络。

本发明利用在不同的训练epoch,都对样本的语音及视频模态进行一次采样;模态间的相互注意力进行对齐,加强各个模态的表征,在模态融合模块,本发明将每个个体映射为至少两类人格向量表征,分别对应该个体在至少两类人格特点的得分。本发明主要有以下三个优点:

1、充分利用数据,利用重采样达到数据增强的效果,提高模型的鲁棒性。对于每个个体,本发明在每个epoch开始前都对其语音及视频模态进行采样,使得对于每个个体,不同epoch的训练样本有细微差异。这样能充分利用视频及音频的每一帧数据。而现有技术只在训练前进行一次采样,整个训练过程只使用此次采样的结果,因而没有充分利用数据。

2、本发明利用注意力机制,对不同模态进行充分的交互,极大的强化了各个模态的表征能力。利用模态间的相互交互与对齐增进各个模态间的表征,提高模型的表现能力。

3、对多类人格特点的每一类都用一个向量表征,能更精确地刻画该个体的每一个人格特点,进而更全面地描绘该个体的人格特点。分别利用多个向量表征,对人格特点进行分类预测。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。

图1为本发明一实施例的方法流程图;

图2为本发明模型结构示意图,

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

需要说明,若本发明实施例中有涉及方向性指示(诸如上、下、左、右、前、后……),则该方向性指示仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。

另外,若本发明实施例中有涉及“第一”、“第二”等的描述,则该“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。

如图1-2所示,本发明提出的一种基于多模态对齐与多向量表征的人格检测方法,包括如下步骤:

s10将语音和视频模态数据按每个epoch进行重采样,生成数个彼此具有差异性的样本;

s20将数个样本及其文本模态数据输入模态内表征模块,模态内表征模块分别对音频、视频和文本三个模态数据进行独立编码,得到语音序列、视频序列和文本序列;

s30将语音序列、视频序列和文本序列输入模态间对齐表征模块,模态间对齐表征模块分别将语音序列、视频序列和文本序列两两对齐交互后拼接,得到增强后的语音表征、视频表征和文本表征;

s40将所有语音表征拼接成语音向量,将所有视频表征拼接成视频向量,将所有文本表征拼接成文本向量,利用卷积神经网络分别将语音向量、视频向量和文本向量转化为至少两类人格向量;

s50将至少两类人格向量分别线性化后通过sigmoid函数映射得到至少两类人格特点的预测概率。

本发明技术方案利用模态间的相互注意力进行对齐,加强各个模态的表征,在模态融合模块,本发明将每个个体映射为5个向量表征,分别对应该个体在5类人格特点中的得分。

优选地,所述s20包括:

模态内表征模块通过傅里叶变换提取样本中音频的梅尔频率倒谱系数和响应fbank特征,并将其输入多层双向lstm网络进行编码以捕获语音语调变化特征,将所捕获语音语调变化特征编码为语音序列,并将其输出;

模态内表征模块通过具有残差结构的卷积神经网络对样本中视频进行编码得到视频特征的高维向量,将视频特征的高维向量输入多层的双向lstm网络中将所学习的表情和动作变化编码为视频序列,并将其输出;

模态内表征模块通过基于transformer结构的bert模型对样本中的文本进行编码得到具备深层语义信息的文本序列。

在本发明实施例中,本发明的模态内表征模块负责独立的对语音、文本、视频三个模态数据进行编码,得到各个模态的表征。对于重采样后的音频序列,利用傅里叶变换提取其mfcc((melfrequencycepstralcoefficents)梅尔频率倒谱系数和fbank(filterbank)特征,输入多层的双向lstm网络进行编码,捕获其语音语调变化的特点。对于重采样后的图片序列,对每一张图片,利用具有残差结构的卷积神经网络进行编码得到一个高维向量,将该向量输入多层的双向lstm网络中进行编码,学习其表情和动作的变化。对于该样本的字幕文本序列,利用当前先进的基于transformer结构的bert模型进行编码。

优选地,所述人格向量为5类人格向量,所述5类人格向量包括:

开放人格向量,用于提取个体所具有的想象、审美、情感丰富、求异、创造、智能的特质;

责任人格向量,用于提取个体所显示出的胜任、公正、条理、尽职、成就、自律、谨慎、克制的特点;

外倾人格向量,用于提取个体所表现出的热情、社交、果断、活跃、冒险、乐观的特质;

宜人人格向量,用于提取个体所具有的信任、利他、直率、依从、谦虚、移情的特质;

神经质人格向量,用于提取个体所具有的难以平衡焦虑、敌对、压抑、自我意识、冲动、脆弱的情绪特质。

优选地,所述s50之后还包括:

s60将至少两类人格向量加权平均得到综合人格向量,将综合人格向量线性化后通过sigmoid函数得到综合人格概率。

在本发明实施例中,本发明进行两个任务的预测。主任务为预测该个体在5类人格上的得分,具体做法为:将上一模块得到的5个向量分别经过5个线性层,再利用sigmoid函数映射为[0,1]之间的数,分别表示该个体在5类对应人格特点上的得分。辅助任务为:预测具备此人格特点的个体在面试中被聘用的概率。将上一模块得到的5个向量经过加权平均得到新的向量,表示该个体的综合性格,将此向量经过1个线性层,再利用sigmoid函数得到概率。其中,权重由模型学习得到。此模块得到的6个概率作为模型最终的输出。

优选地,所述文本模态数据根据视频字幕文本的向量表征采集,基于transformer结构的bert模型进行编码,所述bert模型是经过英文文本数据集预训练后具有编码语义信息的模型。

在本发明实施例中,本发明的bert模型是利用当前先进的已在大规模英文文本数据集上预训练后的模型。

优选地,所述模态间对齐表征模块采用注意力机制分别将语音序列、视频序列和文本序列两两对齐交互。

优选地,所述模态间对齐表征模块利用文本转语音text2audio的注意力将文本序列向语音序列对齐,以增强语音表征;利用语音转视频audio2video的注意力将语音序列向视频序列对齐,以增强视频表征。

优选地,所述s10中将语音和视频模态数据按每个epoch同步进行重采样。

优选地,所述卷积神经网络包括5组一层一维卷积,每组卷积的卷积核的大小为1;所述将所捕获语音语调变化特征编码为语音序列的方法为:将每一帧语音语调变化特征编码为一个语音高维向量作为语音序列输出;所述多层的双向lstm网络将所学习的表情和动作变化编码为视频序列的方法为:多层的双向lstm网络学习第一帧图片中表情和动作变化并将之转化为图片特征及将图片特征编码为一个图片高维向量输出。

优选地,所述多层双向lstm网络是使用大规模的音频数据集训练后的具有提取音频特征的多层双向lstm网络;所述卷积神经网络是在imagenet任务上预训练后的具有提取图片特征的卷积神经网络。

实操实例:

采集语音-文本-视频三个模态的日志文件进行人格检测的任务,设置重采样模块、模态内表征模块、模态间对齐表征模块、模态融合模块、预测模块。重采样模块负责对输入样本的语音及视频进行采样,得到一定帧数的频谱和图片输入网络;模态内表征模块负责独立的对各个模态的数据进行编码,得到各个模态的表征;模态间对齐表征模块负责学习不同模态间的相互联系,利用其它模态与之对齐的信息丰富本模态的表征;模态融合模块负责将三个模态学习到的表征融合起来,对于每一类的人格都得到一个最终的向量表征,即一共有5个向量表征。预测模块进行两个预测任务,一是辅助任务,即预测该个体在面试中是否会被雇用,二是分别预测该个体在五类人格特点中的得分,作为模型最终的输出。

大5类人格向量包括开放人格向量、责任人格向量、外倾人格向量、宜人人格向量、神经质人格向量,开放人格向量提取个体所具有的想象、审美、情感丰富、求异、创造、智能等特质;责任人格向量提取个体所显示出的胜任、公正、条理、尽职、成就、自律、谨慎、克制等特点;外倾人格向量提取个体所表现出的热情、社交、果断、活跃、冒险、乐观等特质;宜人人格向量提取个体所具有的信任、利他、直率、依从、谦虚、移情等特质;神经质人格向量提取个体所具有的难以平衡焦虑、敌对、压抑、自我意识、冲动、脆弱的情绪特质,即不具有保持情绪稳定能力。

1、subsamplingmodule(重采样模块)

该模块主要负责对样本的语音和视频进行随机采样。与其他方法不同的是,对于同一个样本,在每个epoch,本发明都会采样一次。通过该方法可以使得由一个样本可以产生多个有这一定差异性的样本,进而达到数据增强的效果,提高模型的鲁棒性。采样时,为保证语音和视频能够严格对齐,将对语音和视频进行同步采样,即采样出相同时刻的音频和图片。将采样得到的音频和图片,连同该样本的文本,输入in-modalitymodule中分别进行编码。

2、in-modalitymodule(模态内表征模块)

该模块负责对语音、文本、视频三个模态的数据进行独立的编码。其中,对于重采样后的音频序列,利用傅里叶变换提取其mfcc((melfrequencycepstralcoefficents)梅尔频率倒谱系数和fbank(filterbank)特征,输入多层的双向lstm网络进行编码,捕获其语音语调变化的特点。最终每一帧编码为一个高维向量。值得注意的是,该双向lstm网络由大规模的音频数据集进行预训练,具备了提取音频特征的能力。对于重采样后的图片序列,对每一张图片,利用具有残差结构的卷积神经网络进行编码得到一个高维向量,将该向量输入多层的双向lstm网络中进行编码,学习其表情和动作的变化。最后,每一帧图片均编码为一个高维向量。此处的深层卷积神经网络已在imagenet任务上进行预训练,具备了提取图片中特征的能力。对于该样本的字幕文本序列,利用当前先进的基于transformer结构的bert模型进行编码。(《bert:pre-trainingofdeepbidirectionaltransformersforlanguageunderstanding》),bert模型已在大规模英文文本数据集上预训练,具备强大的编码语义信息的能力。文本序列经bert模型编码后,得到一个具备深层语义信息的向量序列。

3、cross-modalityalignmentmodule(模态间对齐表征模块)

该模块接收模态内独立编码后的向量表征序列,即语音序列、文本序列与图片序列,将这三个模态的表征进行相互交互,加强各自的编码。本发明使用的交互方式为注意力机制。例如,利用audio2text和video2text的两个注意力,分别将语音与文本对齐、视频与文本对齐,并利用相关的语音的表征和视频的表征得到包含语音和视频信息的文本的表征,将该表征与文本的原表征拼接起来,得到加强后的文本的表征。同理,可得到利用文本和视频加强后的语音表征以及用语音和文本加强后的视频表征。

modalitiesfusionmodule(模态融合模块)

本模块负责将上一模块得到的三个模态每一帧的向量表征进行融合,融合的方式为拼接,得到一个新的向量。此后,利用卷积神经网络(卷积网络的具体细节是:使用一层一维卷积,卷积核大小为1,组数为5)将这些向量表征转化为5个向量,每个向量表示该个体在某一类人格上的特点。

predictionmodule(预测模块)

本发明使用了一个辅助任务来促进原人格检测任务的学习,因此,我们将进行两个任务的预测。主任务为预测该个体在5类人格上的得分,具体做法为:将上一模块得到的5个向量分别经过5个线性层,再利用sigmoid函数映射为[0,1]之间的数,分别表示该个体在5类对应人格特点上的得分。辅助任务为:预测具备此人格特点的个体在面试中被聘用的概率。将上一模块得到的5个向量经过加权平均得到新的向量,表示该个体的综合性格,将此向量经过1个线性层,再利用sigmoid函数得到概率。其中,权重由模型学习得到。此模块得到的6个概率作为模型最终的输出。

以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的发明构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。


技术特征:

1.一种基于多模态对齐与多向量表征的人格检测方法,其特征在于,包括如下步骤:

s10将语音和视频模态数据按每个epoch进行重采样,生成数个彼此具有差异性的样本;

s20将数个样本及其文本模态数据输入模态内表征模块进行独立编码,得到语音序列、视频序列和文本序列;

s30将语音序列、视频序列和文本序列输入模态间对齐表征模块,模态间对齐表征模块分别将语音序列、视频序列和文本序列两两对齐交互后拼接,得到增强后的语音表征、视频表征和文本表征;

s40将所有语音表征拼接成语音向量,将所有视频表征拼接成视频向量,将所有文本表征拼接成文本向量,利用卷积神经网络分别将语音向量、视频向量和文本向量转化为至少两类人格向量;

s50将至少两类人格向量分别线性化后通过sigmoid函数映射得到至少两类人格特点的预测概率。

2.如权利要求1所述的基于多模态对齐与多向量表征的人格检测方法,其特征在于,所述s20包括:

模态内表征模块通过傅里叶变换提取样本中音频的梅尔频率倒谱系数和响应fbank特征,并将其输入多层双向lstm网络进行编码以捕获语音语调变化特征,将所捕获语音语调变化特征编码为语音序列,并将其输出;

模态内表征模块通过具有残差结构的卷积神经网络对样本中视频进行编码得到视频特征的高维向量,将视频特征的高维向量输入多层的双向lstm网络中将所学习的表情和动作变化编码为视频序列,并将其输出;

模态内表征模块通过基于transformer结构的bert模型对样本中的文本进行编码得到具备深层语义信息的文本序列。

3.如权利要求1所述的基于多模态对齐与多向量表征的人格检测方法,其特征在于,所述人格向量为5类人格向量,所述5类人格向量包括:

开放人格向量,用于提取个体所具有的想象、审美、情感丰富、求异、创造、智能的特质;

责任人格向量,用于提取个体所显示出的胜任、公正、条理、尽职、成就、自律、谨慎、克制的特点;

外倾人格向量,用于提取个体所表现出的热情、社交、果断、活跃、冒险、乐观的特质;

宜人人格向量,用于提取个体所具有的信任、利他、直率、依从、谦虚、移情的特质;

神经质人格向量,用于提取个体所具有的难以平衡焦虑、敌对、压抑、自我意识、冲动、脆弱的情绪特质。

4.如权利要求1所述的基于多模态对齐与多向量表征的人格检测方法,其特征在于,所述s50之后还包括:

s60将至少两类人格向量加权平均得到综合人格向量,将综合人格向量线性化后通过sigmoid函数得到综合人格概率。

5.如权利要求1所述的基于多模态对齐与多向量表征的人格检测方法,其特征在于,所述文本模态数据根据视频字幕文本的向量表征采集,基于transformer结构的bert模型进行编码,所述bert模型是经过英文文本数据集预训练后具有编码语义信息的模型。

6.如权利要求1所述的基于多模态对齐与多向量表征的人格检测方法,其特征在于,所述模态间对齐表征模块采用注意力机制分别将语音序列、视频序列和文本序列两两对齐交互。

7.如权利要求1所述的基于多模态对齐与多向量表征的人格检测方法,其特征在于,所述模态间对齐表征模块利用文本转语音text2audio的注意力将文本序列向语音序列对齐,以增强语音表征;利用语音转视频audio2video的注意力将语音序列向视频序列对齐,以增强视频表征。

8.如权利要求1所述的基于多模态对齐与多向量表征的人格检测方法,其特征在于,所述s10中将语音和视频模态数据按每个epoch同步进行重采样。

9.如权利要求3所述的基于多模态对齐与多向量表征的人格检测方法,其特征在于,所述卷积神经网络包括5组一层一维卷积,每组卷积的卷积核的大小为1;所述将所捕获语音语调变化特征编码为语音序列的方法为:将每一帧语音语调变化特征编码为一个语音高维向量作为语音序列输出;所述多层的双向lstm网络将所学习的表情和动作变化编码为视频序列的方法为:多层的双向lstm网络学习第一帧图片中表情和动作变化并将之转化为图片特征及将图片特征编码为一个图片高维向量输出。

10.如权利要求2所述的基于多模态对齐与多向量表征的人格检测方法,其特征在于,所述多层双向lstm网络是使用大规模的音频数据集训练后的具有提取音频特征的多层双向lstm网络;所述卷积神经网络是在imagenet任务上预训练后的具有提取图片特征的卷积神经网络。

技术总结
本发明公开一种基于多模态对齐与多向量表征的人格检测方法,包括将语音和视频模态数据按每个epoch进行重采样;将数个样本及其文本模态数据输入模态内表征模块进行独立编码,得到语音序列、视频序列和文本序列;将语音序列、视频序列和文本序列输入模态间对齐表征模块以两两对齐交互后拼接,得到增强后的语音表征、视频表征和文本表征;将所有语音表征、所有视频表征和所有文本表征分别拼接得到语音向量、视频向量和文本向量,输入卷积神经网络转化为至少两类人格向量;将至少两类人格向量分别线性化后通过sigmoid函数映射得到至少两类人格特点的预测概率。本发明通过3个模态数据的两两交互增强模态表征,提高模型的辨别能力,得到更为精准的预测结果。

技术研发人员:陈承勃;权小军
受保护的技术使用者:中山大学
技术研发日:2020.01.21
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-16449.html

最新回复(0)