本发明涉及视频处理技术相关领域,尤其涉及一种基于物体区域注意力机制的视频问答方法。
背景技术:
传统的视觉任务通常着重于从图像或视频中学习有限的标签。最近,专注于联合视觉和语言的任务得到了越来越多的关注,这种任务的目标是在视觉和开放的语言之间寻找更好的对齐,并利用这种对齐解决更复杂的问题。这样的任务为视觉系统提供了一个新的方向,它无需图片、视频上的手工标注即可从视觉和语言中共同学习,视频问答(videoqa)就是一种需要联合学习视觉和语言的具有挑战性的任务。给定视频及其配对的问题,我们需要设计模型来分析问题,从视频中收集信息并预测答案。
但市场上现有的视频问答不能很好地覆盖物体区域,提高视频问答的性能,且生成注意力图的过程解释性不强,不能够为理解网络行为提供帮助。
技术实现要素:
本发明的目的在于提供一种基于物体区域注意力机制的视频问答方法,以解决上述背景技术中提出的不能很好地覆盖物体区域,提高视频问答的性能,且生成注意力图的过程解释性不强,不能够为理解网络行为提供帮助的问题。
为了实现以上目的,本发明采用的技术方案为:一种基于物体区域注意力机制的视频问答方法,步骤如下;
s10、建立对应关系;s20、解析;s30、动态选择。
进一步的,所述步骤s10、建立对应关系:通过视频-问题-答案的对应关系建立一种物体词语和视频中对应区域的对应关系。
进一步的,所述步骤s20、解析:给定一个视频和对应的问题,解析出问题中出现的物体词语;通过利用a中建立的词语区域对应关系,在视频中生成对应词语的注意力图,进而为视频问答任务提供帮助。
进一步的,所述步骤s30、动态选择;为了关注到对回答有作用的词语,该方法通过一个注意力控制模块,动态地选择问题中出现的物体词语,从而控制在视频中的注意区域。
进一步的,所述s30、动态选择中的注意力控制模块结合使用了一种可以级联使用的模块化设计,它将前一个注意力控制模块关注的区域当作记忆,通过结合记忆和全局的问题表征来选择当前模块的关注词语,进而产生当前的视频注意区域。
本发明的有益效果为:
本方法生成的注意力图相比于软注意力方法生成的图能更好地覆盖物体区域,从而提高视频问答的性能;另一方面,本方法生成注意力图的过程更加具有可解释性,能够为理解网络行为提供帮助。
附图说明
图1为本发明基于物体区域注意力机制的视频问答方法的流程图;
图2为本发明注意力生成模块的方法示意图,它通过物体词语-视频区域对应来生成注意力图;
图3为本发明注意力控制模块的流程示意图;
图4为本发明本方法和软注意力方法生成的注意力图的比较图;
图5为本发明叠加的多个注意力控制模块在物体词语及视频区域中切换注意力的示例图;
图6为本发明本视频问答方法的结果示例图;
图7为本发明步骤流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-7,本发明提供一种技术方案:一种基于物体区域注意力机制的视频问答方法,步骤如下;
s10、建立对应关系;s20、解析;s30、动态选择。
优选的,所述步骤s10、建立对应关系:通过视频-问题-答案的对应关系建立一种物体词语和视频中对应区域的对应关系;输入一个视频和对应于视频的问题,首先利用cnn和lstm分别提取出视频表征和问题表征,同时利用语义分析工具提取出问题中出现的物体词语。
优选的,所述步骤s20、解析:给定一个视频和对应的问题,解析出问题中出现的物体词语;通过利用a中建立的词语区域对应关系,在视频中生成对应词语的注意力图,进而为视频问答任务提供帮助;通过注意力控制模块,结合问题表征和记忆(初始化为0)动态地选择问题中出现的物体词语。
优选的,所述步骤s30、动态选择;为了关注到对回答有作用的词语,该方法通过一个注意力控制模块,动态地选择问题中出现的物体词语,从而控制在视频中的注意区域;利用物体词语-视频区域的对应关系找到视频中对应b中选择的词语的区域作为注意力图,这个注意力图选择的视频区域取均值得到的表征作为新的记忆;叠加多个注意力控制模块,动态地选择问题中出现的物体词语,从而控制在视频中的注意区域。
优选的,所述s30、动态选择中的注意力控制模块结合使用了一种可以级联使用的模块化设计,它将前一个注意力控制模块关注的区域当作记忆,通过结合记忆和全局的问题表征来选择当前模块的关注词语,进而产生当前的视频注意区域。
实施例1
参考图1、图2和图3,表示为基于物体区域注意力机制的视频问答方法示意图,图中表示的步骤为:
1.如图1所示,给定一个视频和对应的问题,利用cnn和lstm分别提取出视频表征和问题表征,利用semanticparser提取出问题中出现的物体词语。通过多个级联的注意力控制模块(ac)分别在物体词语中选择要关注的词,进而通过注意力生成模块生成视频上的注意力图。注意力图在各个注意力控制模块之间会动态地变化。最后一个注意力控制模块的图。
2.如图2所示,在注意力生成模块在生成注意力图时,将物体词语的表征和视频每一个区域的表征映射到同一个空间中(这个映射就是前面建立的物体词语-视频区域对应),通过比较各区域和词语在该空间的相似度来作为注意力图。
3.如图3所示,注意力控制模块起到的主要作用是在问题中的物体词语中选择要关注的词。该模块是一个可以级联使用的模块,它根据问题表征、上一个级联模块选择的词语向量和上一个模块的记忆来选择当前模块关注的词语,生成当前模块的词语向量,进而生成视频的注意力图,最后生成当前模块的记忆,通过这种级联的结构和记忆的使用,网络能够在视频中动态地关注不同的区域,从而帮助视频问答任务。
图4展示了本方法和软注意力方法生成的注意力图的比较。我们在左右两侧分别展示了两个示例。在每个例子中,上面一行表示本方法产生的注意力图,下面一行表示软注意力方法生成的注意力图。
图5展示了本方法中多个注意力控制模块在物体词语及视频区域中切换注意力的示例图,上下两行分别为两个例子。每个示例中,第一列为视频中某一帧的原图,后面三列分别表示前后不同的三个注意力控制模块产生的注意力图,图上的数字则表示对不同词语的关注程度。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实例的说明只是用于帮助理解本发明的方法及其核心思想。以上所述仅是本发明的优选实施方式,应当指出,由于文字表达的有限性,而客观上存在无限的具体结构,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进、润饰或变化,也可以将上述技术特征以适当的方式进行组合;这些改进润饰、变化或组合,或未经改进将发明的构思和技术方案直接应用于其它场合的,均应视为本发明的保护范围。
1.一种基于物体区域注意力机制的视频问答方法,其特征在于:步骤如下;
s10、建立对应关系;s20、解析;s30、动态选择。
2.根据权利要求1所述的一种基于物体区域注意力机制的视频问答方法方法,其特征在于:所述步骤s10、建立对应关系:通过视频-问题-答案的对应关系建立一种物体词语和视频中对应区域的对应关系。
3.根据权利要求1所述的一种基于物体区域注意力机制的视频问答方法,其特征在于:所述步骤s20、解析:给定一个视频和对应的问题,解析出问题中出现的物体词语;通过利用a中建立的词语区域对应关系,在视频中生成对应词语的注意力图,进而为视频问答任务提供帮助。
4.根据权利要求1所述的一种基于物体区域注意力机制的视频问答方法,其特征在于:所述步骤s30、动态选择;为了关注到对回答有作用的词语,该方法通过一个注意力控制模块,动态地选择问题中出现的物体词语,从而控制在视频中的注意区域。
5.根据权利要求1所述的一种基于物体区域注意力机制的视频问答方法,其特征在于:所述s30、动态选择中的注意力控制模块结合使用了一种可以级联使用的模块化设计,它将前一个注意力控制模块关注的区域当作记忆,通过结合记忆和全局的问题表征来选择当前模块的关注词语,进而产生当前的视频注意区域。
技术总结