本发明涉及媒资管理技术领域,具体涉及一种基于视频大数据的音频转视频的方法。
背景技术:
对于内容生产者来说,音频信息由于其语音特性,无法向用户提供直观的画面信息,不利于用户对于信息内容的理解接受,而传统的人工转视频方法需要人为收集、浏览、标记大量的视频数据,再从中选出一些跟音频信息相匹配的片段来,耗费了巨大的时间与精力。
技术实现要素:
本发明的目的在于针对现有技术的缺陷和不足,提供一种基于视频大数据的音频转视频的方法,可以从海量的已有视频数据中,自动匹配选取合适的视频片段,将音频快速转换为相应的视频内容,给用户更强的视觉冲击力和听觉体验,将作者表示的信息以更生动、丰满、直观的形象传达给用户。
为实现上述目的,本发明采用的技术方案是:它包含如下步骤:
一、用户输入一段音频信息;
二、使用语音识别技术将音频内容提取为文本信息;
三、利用人工智能自然语言处理技术,对提取的文本信息进行关键字识别与提取;
四、使用深度学习技术识别音频信息;
五、利用深度学习技术,基于视频理解,对视频大数据集自动打标签;
六、在视频大数据集标签系统中,进行标签检索匹配,输出匹配度高的视频数据;
七、将步骤二提取出的文本信息生成为视频字幕;
八、将视频、字幕、音频合并渲染,生成推荐视频。
进一步地,步骤二中的语音识别技术采用深度神经网络技术;
进一步地,步骤三的具体方法是:通过embedding层技术得到字或者词向量,输入双向lstm,经由softmax隐藏层计算得到一个bio标注体系的无监督概率序列,再经过crf监督层,提取出关键字序列;
进一步地,步骤四的具体方法是:使用gru网络识别音频的旋律节奏、情感、流派特征;
进一步地,步骤五的具体方法是:使用深度3d卷积神经网络提取视频的时空信息,进行场景识别、动作捕捉、情感分析,提取出视频的场景信息、对象信息、人物表情、运动信息,作为视频的标签内容;
进一步地,步骤六的具体方法是:将步骤三中提取出的关键字序列特征值,与步骤五中建立的视频标签库中的标签特征值,进行相似度计算,输出相似度超过0.85的视频后;再将步骤四中提取出的音频旋律节奏、情感、流派等特征值,与输出的视频标签值进行二次匹配,输出相似度超过0.8的视频。
采用上述方案后,本发明有益效果为:本发明所述的一种基于视频大数据的音频转视频的方法,基于人工智能自然语言处理技术及深度学习技术构建的视频大数据标签匹配系统进行的视频合成方法,能够将用户输入的音频转化成相应的视频内容,极大地减少人工合成视频的时间成本,提高内容创作效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的流程图。
具体实施方式
下面结合附图,对本发明作进一步的说明。
参看图1所示,本具体实施方式采用的技术方案是:它包含如下步骤:
一、用户输入一段音频信息;
二、使用深度神经网络技术将音频内容提取为文本信息;
三、利用人工智能自然语言处理技术,对提取的文本信息进行关键字识别与提取;具体是通过embedding层技术得到字或者词向量,输入双向lstm,经由softmax隐藏层计算得到一个bio标注体系的无监督概率序列,再经过crf监督层,提取出关键字序列;
四、使用深度学习技术识别音频信息,具体是使用gru网络识别音频的旋律节奏、情感、流派特征;
五、利用深度学习技术,基于视频理解,对视频大数据集自动打标签,具体是:使用深度3d卷积神经网络提取视频的时空信息,进行场景识别、动作捕捉、情感分析等,提取出视频的场景信息、对象信息、人物表情、运动信息等,作为视频的标签内容;
六、在视频大数据集标签系统中,进行标签检索匹配,输出匹配度高的视频数据,具体是:将步骤三中提取出的关键字序列特征值,与步骤五中建立的视频标签库中的标签特征值,进行相似度计算,输出相似度超过0.85的视频后;再将步骤四中提取出的音频旋律节奏、情感、流派等特征值,与输出的视频标签值进行二次匹配,输出相似度超过0.8的视频;
七、将步骤二提取出的文本信息生成为视频字幕;
八、将视频、字幕、音频合并渲染,生成推荐视频。
本发明所述的一种基于视频大数据的音频转视频的方法,可以从海量的已有视频数据中,自动匹配选取合适的视频片段,将音频快速转换为相应的视频内容,给用户更强的视觉冲击力和听觉体验,将作者表示的信息以更生动、丰满、直观的形象传达给用户。
以上所述,仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其它修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。
1.一种基于视频大数据的音频转视频的方法,其特征在于它包含如下步骤:
一、用户输入一段音频信息;
二、使用语音识别技术将音频内容提取为文本信息;
三、利用人工智能自然语言处理技术,对提取的文本信息进行关键字识别与提取;
四、使用深度学习技术识别音频信息;
五、利用深度学习技术,基于视频理解,对视频大数据集自动打标签;
六、在视频大数据集标签系统中,进行标签检索匹配,输出匹配度高的视频数据;
七、将步骤二提取出的文本信息生成为视频字幕;
八、将视频、字幕、音频合并渲染,生成推荐视频。
2.根据权利要求1所述的一种基于视频大数据的音频转视频的方法,其特征在于步骤二中的语音识别技术采用深度神经网络技术。
3.根据权利要求1所述的一种基于视频大数据的音频转视频的方法,其特征在于步骤三的具体方法是:通过embedding层技术得到字或者词向量,输入双向lstm,经由softmax隐藏层计算得到一个bio标注体系的无监督概率序列,再经过crf监督层,提取出关键字序列。
4.根据权利要求1所述的一种基于视频大数据的音频转视频的方法,其特征在于步骤四的具体方法是:使用gru网络识别音频的旋律节奏、情感、流派特征。
5.根据权利要求1所述的一种基于视频大数据的音频转视频的方法,其特征在于步骤五的具体方法是:使用深度3d卷积神经网络提取视频的时空信息,进行场景识别、动作捕捉、情感分析,提取出视频的场景信息、对象信息、人物表情、运动信息,作为视频的标签内容。
6.根据权利要求1或3或4或5所述的一种基于视频大数据的音频转视频的方法,其特征在于步骤六的具体方法是:将步骤三中提取出的关键字序列特征值,与步骤五中建立的视频标签库中的标签特征值,进行相似度计算,输出相似度超过0.85的视频后;再将步骤四中提取出的音频旋律节奏、情感、流派等特征值,与输出的视频标签值进行二次匹配,输出相似度超过0.8的视频。
技术总结