基于人工智能的生成视频评论的方法及设备与流程

专利2022-06-29  143


本公开涉及人工智能服务领域,更具体地涉及一种基于人工智能的生成视频评论的方法、设备、电子设备和计算机可读存储介质。本公开还涉及一种基于人工智能的生成文本评论的方法。



背景技术:

用户在视频平台发布视频后将期望获得对其发布的视频的评价信息以对自己发布的视频进行改进。目前,用户只能等待视频观看者在观看该视频之后手动输入评论。由于并非所有用户都会在观看视频后对视频进行评论,因此用户可能在短时间内无法获得对其发布的视频的评价信息。另一方面,视频观看者在观看视频后也常常苦于无法写出合适的视频评论,因此需要向视频观看者提供参考视频评论。类似地,用户在文本发布平台发布文本(例如,小说、新闻、帖子、论文等)后也可能需要获得对其发布的文本的评价信息。并且,文本阅读者也可能需要一些文本评价信息来辅助他/她撰写其阅读的文本的评论。



技术实现要素:

本公开的实施例提供了基于人工智能的生成视频评论的方法、设备、电子设备和计算机可读存储介质。

本公开的实施例提供了一种基于人工智能的生成视频评论的方法,包括:确定视频库中与待评论视频相似的相似视频集;获取所述相似视频集的历史评论集;以及基于所述相似视频集的历史评论集,生成所述待评论视频的视频评论。

本公开的实施例提供了一种基于人工智能的生成视频评论的设备,包括:相似视频集确定模块,被配置为确定视频库中与待评论视频相似的相似视频集;历史评论集获取模块,被配置为获取所述相似视频集的历史评论集;和视频评论生成模块,被配置为基于所述相似视频集的历史评论集,生成所述待评论视频的视频评论。

本公开的实施例提供了一种基于人工智能的生成文本评论的方法,包括:确定文本库中与待评论文本相似的相似文本集;获取所述相似文本集的历史评论集;以及基于所述相似文本集的历史评论集,生成所述待评论文本的视频评论。

本公开的实施例提供了一种基于人工智能的生成视频评论的电子设备,包括:处理器;存储器,存储器存储有计算机指令,该计算机指令被处理器执行时实现上述方法。

本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现上述方法。

本公开的实施例通过对待评论视频自动生成视频评论,并将该视频评论展示给视频发布者,从而激励视频发布者更愿意继续创作和发布视频,使平台创作氛围更加良性。此外,在视频观看者创作待评论视频的评论时,视频观看者也可以自动生成的视频评论来进行创作,解决了视频观看者评论视频需要参考的问题,进而活跃了该视频平台社区运营氛围。

本公开的实施例通过对待评论文本自动生成文本评论,并将该文本评论展示给文本发布者,从而激励文本发布者更愿意继续创作和发布文本,使平台创作氛围更加良性。此外,在文本阅读者创作待评论文本的评论时,文本阅读者也可以自动生成的文本评论来进行创作,解决了文本阅读者评论文本需要参考的问题,进而活跃了该文本平台社区运营氛围。

附图说明

为了更清楚地说明本公开实施例的技术方案,下面将对实施例的描述中所需要使用的附图作简单的介绍。下面描述中的附图仅仅是本公开的示例性实施例。

图1是示出根据本公开实施例的为待评论的视频进行评论的场景的示例示意图。

图2a是示出根据本公开实施例的基于人工智能的生成视频评论的方法的流程图。

图2b是示出根据本公开实施例的基于人工智能的生成视频评论的方法的示意图。

图3a是示出根据本公开实施例的基于人工智能的生成视频评论的方法中的获取所述待评论视频的多模态深度表示向量的流程图。

图3b是示出根据本公开实施例的基于人工智能的生成视频评论的方法中的获取所述待评论视频的多模态深度表示向量的示意图。

图3c是示出根据本公开实施例的基于人工智能的生成视频评论的方法中的视频分类模型的示意图。

图4a是示出根据本公开实施例的基于人工智能的生成视频评论的方法中的确定视频库中与待评论视频相似的相似视频集的流程图。

图4b是示出根据本公开实施例的基于人工智能的生成视频评论的方法中的检索数据库的示意图。

图5a是示出根据本公开实施例的基于人工智能的生成视频评论的方法中的生成待评论视频的视频评论的流程图。

图5b是示出根据本公开实施例的基于人工智能的生成视频评论的方法中的相关性模型的另一示意图。

图6是示出根据本公开实施例的基于人工智能的生成视频评论的设备的结构图。

图7是示出根据本公开实施例的基于人工智能的生成文本评论的方法的流程图。

图8是示出根据本公开实施例的基于人工智能的生成视频评论的电子设备的结构图。

具体实施方式

为了使得本公开的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本公开的示例实施例。显然,所描述的实施例仅仅是本公开的一部分实施例,而不是本公开的全部实施例,应理解,本公开不受这里描述的示例实施例的限制。

在本说明书和附图中,具有基本上相同或相似步骤和元素用相同或相似的附图标记来表示,且对这些步骤和元素的重复描述将被省略。同时,在本公开的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性或排序。

为便于描述本公开,以下介绍与本公开有关的概念。

人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

自然语言处理(naturelanguageprocessing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(machinelearning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

可选地,下文中的各个模型都可以是人工智能模型,尤其是基于人工智能的神经网络模型。通常,基于人工智能的神经网络模型被实现为无环图,其中神经元布置在不同的层中。通常,神经网络模型包括输入层和输出层,输入层和输出层通过至少一个隐藏层分开。隐藏层将由输入层接收到的输入变换为对在输出层中生成输出有用的表示。网络节点经由边全连接至相邻层中的节点,并且每个层内的节点之间不存在边。在神经网络的输入层的节点处接收的数据经由隐藏层、激活层、池化层、卷积层等中的任意一项被传播至输出层的节点。神经网络模型的输入输出可以采用各种形式,本公开对此不作限制。

随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。

本公开的实施例提供的方案涉及人工智能、自然语言处理和机器学习等技术,具体通过如下实施例进行说明。

图1是示出根据本公开实施例的为待评论的视频进行评论的场景100的示例示意图。

目前,已经存在多个视频共享平台。视频发布者可以通过网络将待评论视频上传至视频共享平台的服务器,从而实现在视频共享平台发布视频。网络可以是基于互联网和/或电信网的物联网(internetofthings),其可以是有线网也可以是无线网,例如,其可以是局域网(lan)、城域网(man)、广域网(wan)、蜂窝数据通信网络等能实现信息交换功能的电子网络。本公开中的视频可以指时长较长的电影、电视剧,也可以指时长较短(例如只有10秒至几分钟)的短视频。一个或多个用户(例如视频观看者a和视频观看者b)在观看视频发布者上传的待评论视频后,可能会对待评论视频进行评论。视频发布者将看到视频观看者a和视频观看者b对自己发布的视频的评论,进而视频发布者至视频观看者b之间可以就该视频进行互动。

然而,如果视频发布者是该视频共享平台的新用户,视频共享平台的其它用户可能对视频发布者缺少关注。因此可能存在较少用户观看视频发布者上传的视频的情况,进而导致视频发布者与其他用户进行互动的机会较少,不利于视频发布者继续创作和发布视频,进而影响整个平台的社区创作氛围。

另一方面,当视频观看者a和视频观看者b期望对视频发布者发布的待评论视频进行评论时,也可能存在无法写出合适的视频评论的情况。因此,视频观看者a和视频观看者b可能希望获得对该待评论视频的推荐评价。视频观看者a和视频观看者b可以从这些推荐评价中进行选择,进而便于视频观看者a和视频观看者b进行视频评价的创作。

本公开提出一种基于人工智能的生成视频评论的方法。该方法通过设备101对待评论视频自动生成视频评论,并将该视频评论展示给视频发布者,从而激励视频发布者更愿意继续创作和发布视频,使平台创作氛围更加良性。此外,在视频观看者a和视频观看者b创作待评论视频的评论时,视频观看者a和视频观看者b也可以参考设备101自动生成的视频评论来进行创作,解决了视频观看者a和视频观看者b评论视频需要参考/启示的问题,进而活跃了该视频平台社区运营氛围。

类似地,用户在文本发布平台发布文本(例如,小说、新闻、帖子、论文等)后也可能需要获得对其发布的文本的评价信息。并且,文本阅读者也可能需要一些文本评价信息来辅助他/她撰写其阅读的文本的评论。

本公开还提出一种基于人工智能的生成文本评论的方法。该方法也可以通过设备101对待评论文本自动生成文本评论,并将该文本评论展示给文本发布者,从而激励文本发布者更愿意继续创作和发布文本,使平台创作氛围更加良性。此外,在文本阅读者在创作待评论文本的评论时,文本阅读者也可以参考设备101自动生成的文本评论来进行创作,解决了文本阅读者评论文本需要参考/启示的问题,进而活跃了该文本发布平台社区运营氛围。图2a是示出根据本公开实施例的基于人工智能的生成视频评论的方法200的流程图。图2b是示出根据本公开实施例的基于人工智能的生成视频评论的方法200的示意图。根据本公开的实施例的基于人工智能的生成视频评论的方法200可以应用于任何的电子设备中。可以理解,电子设备可以是不同种类的硬件设备,例如个人数字助理(pda)、音频/视频设备、移动电话、mp3播放器、个人计算机、膝上型计算机、服务器等等。例如,该电子设备可以是图1中基于人工智能的生成视频评论的设备101。以下,本公开以设备101为例进行说明,本领域技术人员应当理解本公开并不以此为限。

首先,在操作201中,设备101可以确定视频库中与待评论视频相似的相似视频集。

参考图2b,设备101可以采用各种方式来确定视频库210中与待评论视频220相似的相似视频集230。例如,设备101可以将视频库210中的每个视频的画面信息、音频信息、文字信息(例如标题、字幕、视频描述等)中的任意一项与待评论视频进行对比,计算二者之间的相似度,然后选择相似度最高的前k个视频作为相似视频集230,其中k为大于0的整数。如图2b所示,相似视频集230中可以包括多个相似视频,例如相似视频231和232。

可选地,操作201还可以包括:获取待评论视频的多模态深度表示向量;基于待评论视频的多模态深度表示向量,确定视频库中与待评论视频相似的相似视频集。

模态(modality)可以指示信息的来源或者形式。例如,对于待评论视频而言,该视频的画面信息、音频信息、文字信息等都可以被称为一种模态。不同的模态具有不同的统计特性,蕴含着不同的信息。例如,画面信息通常表示为像素的数值,而文字信息通常表示为离散的词句。因此,为了更好的表征待评论视频的特征,设备101可以分别从待评论视频的画面信息、音频信息、文字信息中提取不同的特征信息,并将这些特征信息进行融合(fusion)和关联分析。

上述特征信息可以是互补且冗余的。设备101可以采用各种方式来将该待评论视频的特征信息进行进一步的处理,以得到能够表征该待评论视频的向量(也即,该待评论视频的多模态深度表示向量)。通常,将多个模态的数据所蕴含的特征信息数值化为实值向量的过程被称为多模态表示。多模态表示可以包括多模态融合表示和多模态深度表示。其中,将不同模态的特征整合成(例如简单拼接)单个向量的过程可以被称为多模态融合表示,整合而成的单个向量可以被称为多模态融合表示向量。对多模态融合表示向量进行进一步分析而获得的向量可以被称为多模态深度表示向量。例如,可以利用神经网络模型将多模态融合表示向量进一步抽象为更高层次的向量,该特征向量也被称为多模态深度表示向量。多模态深度表示向量可以是多维浮点数向量,如128位浮点型向量,本公开对多模态深度表示向量的具体表征方式并不做限制。

由于多模态深度表示向量以向量的方式来表征待评论视频220,并且涵盖了多个模态的信息,因此使用多模态深度表示向量可以更快更准确地检索到相似视频,以更方便地获取相似视频集230。

接下来,在操作202中,获取相似视频集的历史评论集。

在图2b中示意性地示出了相似视频集230的历史评论集。例如,对于相似视频231而言,其具有的历史评论包括:“好看!”和“精彩”。而相似视频232则具有历史评论“感人!”和“真棒”。“好看!”、“精彩”、“感人!”和“真棒”即组成了相似视频集230的历史评论集。

最后,在操作203中,基于相似视频集的历史评论集,生成待评论视频的视频评论。

待评论视频220和相似视频231或232是相似的,则待评论视频220也可能获得与相似视频231或232相似的评论。由此,设备101根据相似视频集230的历史评论集,可以推测出待评论视频220的视频评论240也可能是“好看!”或“真棒”。当然,视频评论240还可以是其它未示出的评论信息,例如“感人!”等等。请注意,视频评论240可能包括一条视频评论,也可能包括多条视频评论,本公开并不以此为限。

可选地,方法200还包括发布所生成的视频评论,或者将所生成的视频评论提供为候选视频评论。设备101利用方法200自动地生成待评论视频自动的视频评论,并将该视频评论展示给视频发布者,从而激励视频发布者更愿意继续创作和发布视频,使平台创作氛围更加良性。或者设备101利用方法200将所生成的视频评论提供为候选视频评论展示给视频观看者a和视频观看者b。视频观看者a和视频观看者b可以参考自动生成的视频评论来进行创作,进而解决了视频观看者评论视频需要参考的问题,进而活跃了该视频平台社区运营氛围。

可选地,设备101可以在待评论视频的历史评论数量少于历史评论数量阈值并且待评论视频的发布时间大于发布时间阈值的情况下,发布所生成的视频评论。历史评论数量阈值可以是视频观看者对该视频的最少评论数。发布时间阈值可以是当前时间距离视频发布时间的最长时间。历史评论数量阈值和发布时间阈值都是可以调整的参数。例如,假设历史评论数量阈值为3条,发布时间阈值为5天。设备101可能发现在视频发布者发布待评论视频220的5天以后,视频观看者对该视频的评论数仍仅有2条。此时,设备101可以将一条视频评论240发布在视频平台上,以激励视频发布者更愿意继续创作作品,使平台创作氛围更加良性。接着,设备101可能在一定时长之后对该视频评论进行再次检测(也就是说,设备101可以以一定的频率来检测所发布的视频的评论情况)。例如,设备101可能发现在检测到在发布了一条自动生成的视频评论240之后的5天,只增加了1条评论。这时设备101可能再发布一条或多条视频评论240。同时,采用历史评论数量阈值和发布时间阈值还可以避免对历史评论数量较多的视频也发布评论,进而减少平台的计算量。

图3a是示出根据本公开实施例的基于人工智能的生成视频评论的方法200中的获取待评论视频的多模态深度表示向量的操作的流程图。图3b是示出根据本公开实施例的基于人工智能的生成视频评论的方法200中的获取待评论视频的多模态深度表示向量的示意图。图3c是示出根据本公开实施例的基于人工智能的生成视频评论的方法200中的视频分类模型300的示意图。

在操作201中,设备101可以通过图3c中所示的视频分类模型300获取待评论视频220的多模态深度表示向量,其具体操作可以包括图3a中所示的操作301至303。

视频分类模型300可以是以视频库中的视频作为输入,以预测视频种类标记作为输出的神经网络模型。可选地,视频分类模型300的训练包括获取视频库中的一个或多个视频的视频种类标记;利用一个或多个视频和视频分类标记训练视频分类模型300。参见图3c,在训练视频分类模型300时,可以使用视频库210中的一个或多个视频。可选地,视频种类标记可以包括综艺、喜剧、武侠等等。视频库210中的大量视频已经经过人工或机器标注,从而附带有视频种类标记。

视频分类模型300的隐藏层可以包括残差网络模型、双向长短期记忆网络模型、vggish模型、编码神经网络模型、自注意力模型和全连接网络层等等。其中,全连接网络层是指其的每个节点都与其相邻两层中的各个节点连接。当输入的视频经过视频分类模型300中的各个模型和/或隐藏层之后,其将转换为能够表征该视频的多模态深度表示向量。视频分类模型300可以通过对多模态深度表示向量进行进一步计算,从而可以获取其的预测视频种类标记。如果预测视频种类标记和该视频带有的视频种类标记一致,则说明该视频分类模型300中的各个隐藏层的参数不需调节。如果预测视频种类标记和该视频带有的视频种类标记不一致,则可以调节视频分类模型300中的各个隐藏层的参数。当使用足够数量的视频和视频种类标记来训练视频分类模型300之后,视频分类模型300中的各个隐藏层中的各个边所代表的权重和各个节点所代表的偏置值可以达到一个稳定的状态,由此,视频分类模型300可以作为已训练的神经网络模型投入使用。此时,视频分类模型300具备将待评论视频220转换为多模态深度表示向量的能力。

在操作301中,设备101可以获取待评论视频的图像特征向量、音频特征向量和文本特征向量中的至少两个特征向量。

可选地,参考图3b,获取待评论视频的图像特征向量的操作可以包括:从待评论视频抽取待评论视频的多个代表视频帧;将多个代表视频帧转换为多个初步视频帧表示向量;以及将多个初步视频帧表示向量转换为待评论视频的图像特征向量。

由于待评论视频220的帧数可能较多,如果对每个视频帧都提取该视频帧的表示向量,则会导致计算量过大。因此,视频分类模型300可以仅从待评论视频22中抽取部分视频帧作为代表视频帧,并基于这些代表视频帧来提取初步视频帧表示向量。根据本公开实施例的设备101可以通过各种方式来抽取待评论视频220的多个代表视频帧。例如,视频分类模型300通过从待评论视频220中均匀地抽取视频帧,比如每隔10s抽取一帧图片作为代表视频帧。再例如,设备101可以抽取画面突变的相邻两个视频帧作为代表视频帧的一部分。本公开不对代表视频帧的抽取方式进行限制,只要其能表征待评论视频220即可。

例如,设备101可以利用视频分类模型300中的残差网络模型(resnet)来将多个代表视频帧转换为多个初步视频帧表示向量。残差网络模型的输入为代表视频帧而输出为初步视频帧表示向量。每个初步视频帧表示向量以向量的方式表征了一个代表视频帧的图像信息。残差网络模型可以很好的解决神经网络模型中的退化问题,进而相比于其他神经网络模型,残差网络模型的输出向量可以更好地表征上述的代表视频帧。当然,设备101也可以使用其他神经网络模型来将多个代表视频帧转换为多个初步视频帧表示向量,本公开对此不作限制。

例如,当将每个代表视频帧转换为初步视频帧表示向量以后,设备101可以利用视频分类模型300中的长短期记忆网络模型来将这些初步视频帧表示向量进一步转换成待评论视频220的图像特征向量。由于代表视频帧是时序序列,因此,将多个初步视频帧表示向量融合为一个图像特征向量也需要保留其原本的时序属性。长短期记忆网络模型作为一种经典的循环神经网络模型,可以在保留每个初步视频帧表示向量中的语义信息的情况下,还保留这些初步视频帧表示向量之间的时序信息,从而获取一个能够充分表征待评论视频220的总体图像信息的图像特征向量。图像特征向量可以是多维度的浮点型向量,本公开对此不作限制。当然,设备101也可以使用其他神经网络模型来将初步视频帧表示向量进一步转换成待评论视频220的图像特征向量,本公开对此不作限制。

可选地,获取待评论视频的音频特征向量的操作可以包括:从待评论视频抽取待评论视频的多个代表音频片段;以及利用将多个代表音频片段转换为待评论视频的音频特征向量。

与获取图像特征向量的方式类似的,设备101也需要从待评论视频220抽取多个代表音频片段,其抽取方式可以与抽取代表视频帧的方式类似。

例如,设备101可以利用视频分类模型300中的vggish模型来将这些代表音频片段转换为待评论视频220的音频特征向量。设备101通过解析代表音频片段的方式来构建该代表音频的梅尔倒频谱(mfcc)特征,然后设备可以利用视频分类模型300中的vggish模型构建该代表音频帧的初步音频特征向量。最后,设备101可以对多个初步音频特征向量进行时序融合构建整体音频的音频特征向量。当然,设备101也可以使用其他神经网络模型来将将多个代表音频片段转换为待评论视频220的音频特征向量,本公开对此不作限制。

可选地,获取待评论视频的文本特征向量的操作可以包括:获取待评论视频的标题、描述和字幕;利用将待评论视频的标题、描述和字幕转换为编码隐藏状态向量;利用将编码隐藏状态向量转换为待评论视频的文本特征向量。

视频发布者在发布待评论视频220时可能会向待评论视频220添加标题和描述信息。同时,待评论视频220也可能自带一些字幕信息。需要对这些文字形式的模态信息进行进一步的解析以获取待评论视频220的文本特征向量。设备101可以通过各种方式来获取文本特征向量。例如,视频分类模型300可以将待评论视频220的标题、描述和字幕分别分割成多个单词,然后通过将这些单词通过词嵌入(wordembedding)的方式转换成词向量,最后将这些词向量拼接起来作为文本特征向量。然而,为了更好地表征待评论视频220的文字信息,设备101还可以利用视频分类模型300的编码神经网络模型(encoder)来将这些词向量转换成编码隐藏状态向量。在一些实施例中,编码神经网络模型可以被实现为长短期记忆神经网络模型,可以理解的是编码神经网络模型还可以被实现为任何能够对词向量进行编码以获取编码隐藏状态向量的神经网络模型。接着,设备101还可以利用视频分类模型300中的自注意力模型来进一步解析编码隐藏状态向量进而获得待评论视频220的文本特征向量。自注意力模型可以从编码隐藏状态向量中提取出每个单词的重要程度(也称为对每个单词的注意力),进而可以更好的表征待评论视频220的文本信息。当然,设备101也可以使用其他神经网络模型来获取待评论视频220的文本特征向量,本公开对此不作限制。

设备101在操作301中已经获取了待评论视频220的图像特征向量、音频特征向量和文本特征向量中的至少两个特征向量。接着,在操作302中,设备101可以将所获取的至少两个特征向量拼接成待评论视频的多模态特征融合表示向量。多模态特征融合表示向量还需要被进一步抽象,以获取能够综合表征待评论视频220的多模态深度表示向量。

最后,在操作303中,设备101可以将所述多模态特征融合表示向量转换为所述待评论视频的多模态深度表示向量。例如,设备101可以利用视频分类模型300中的全连接网络层将多模态特征融合表示向量转换为待评论视频220的多模态深度表示向量。视频分类模型300中的全连接网络层可以是距离视频分类模型300的输出层最近的一层隐藏层。视频分类模型300的输出层将根据全连接网络层的输出向量来最终确定待评论视频220的分类。因此,将全连接网络层的输出向量作为待评论视频220的多模态深度表示向量能够综合地表征待评论视频220的多个模态的信息。

图4a是示出根据本公开实施例的基于人工智能的生成视频评论的方法200中的确定视频库210中与待评论视频220相似的相似视频集230的流程图,其示出了操作202的一个示例。图4b是示出根据本公开实施例的基于人工智能的生成视频评论的方法200中的检索数据库410的示意图,其示出了检索数据库410的一个示例。

参见图4a,在操作401中,设备101可以将待评论视频的多模态深度表示向量作为查询键(key)。在操作402中,设备101利用该查询键,从检索数据库410中获取与所述待评论的视频相似的多个备选视频。参见图4b,检索数据库410包括视频库中多个视频的视频信息,其中每个视频的视频信息包括视频的唯一标识符、以及视频的多模态深度表示向量。视频库210可能是以关系数据库方式存储视频信息的数据库。具体地,视频库210中存储的每条视频信息可能包括视频的唯一标识符(视频id)、该视频对应的标题、描述、字母以及视频文件本身。与获得待评论视频220的多模态深度表示向量相似地,可以通过上述的视频分类模型300可以将视频库210中的每个视频转换为与该视频对应的多模态深度表示向量。检索数据库410则可以以这些多模态深度表示向量为键,以视频的唯一标识符为值构建键值对(key-valuepairs),从而检索数据库410可以对应地存储视频的唯一标识符和多模态深度表示向量。请注意,虽然在图4b中将视频库210和检索数据库410分开示出,但本领域技术人员应当理解,检索数据库410可以是根据视频库210生成的独立的数据库,检索数据库410也可以是视频库210中的一部分,只要其能够存储相应信息即可。

设备101可以根据多模态深度表示向量的相似性,从检索数据库410中寻找与查询键相似的一个或多个多模态深度表示向量,进而获取与待评论视频220相似的多个备选视频。可选地,检索数据库410可以是近似最近邻(approximatenearestneighbor,ann)检索数据库。在近似最近邻检索库中可以采取近似最近邻检索的方式快速地找到与查询键相似的一个或多个数据。具体地,近似最近邻检索可以利用海量数据之间形成的簇状聚集分布的特性,通过对数据分析聚类的方法对检索数据库410中的多模态深度表示向量进行分类或编码。接着,近似最近邻检索可以根据查询键预测其所属的数据类别,返回类别中的部分或全部作为检索结果。可选地,检索数据库410可以利用annoy、faiss等工具被构建为近似最近邻检索库。当然,还可以使用其他工具来构建近似最近邻检索库,本公开对此不作限制。

在操作403中,设备101利用所述多个备选视频构建相似视频集。例如,设备101可以将与查询键相似度最高的多个备选视频可以被构建为相似视频集230。

由此,通过操作401至操作403,设备101可以快速地获取与待评论视频220相似的相似视频集230。

图5a是示出根据本公开实施例的基于人工智能的生成视频评论的方法200中的生成待评论视频的视频评论的流程图。图5b是示出根据本公开实施例的基于人工智能的生成视频评论的方法中的相关性模型500的另一示意图。可选地,相关性模型500可以包括视频分类模型300的一部分。

例如,在操作203中,设备101可以通过图5b中所示的相关性模型500生成待评论视频220的视频评论,其具体操作可以包括图5a示出的操作501至操作504。

相关性模型500可以是待评论视频220和历史评论集中的任意一个历史评论作为输入,以历史评论与待评论视频的相关性评分作为输出的神经网络模型。具体地,相关性模型500的训练可以包括:利用相似视频集230的历史评论集,构建相关性模型500的正样本和负样本;以及利用相关性模型的正样本和负样本训练相关性模型500。具体地,相关性模型500的正样本和负样本可以通过以下方式来构建。首先,设备101从相似视频集230中选取第一相似视频(例如,图2b中的相似视频231)和第二相似视频(例如图2b中的相似视频232)。第一相似视频和第二相似视频之间的相似度小于相似度阈值。相似度阈值指示第一相似视频和第二相似视频之间的相似度之间的最低相似度。这样可以保证正负样本之间的差异相对较大,便于训练出更准确的相关性模型。接着,设备101可以将第一相似视频的历史评论标记为与第一相似视频相关的正样本,并将第二相似视频的历史评论标记为与第一相似视频不相关的负样本。以图2b为例,设备101可以构建如下正负样本集:

正样本1:<相似视频231,“好看!”>--相关;

正样本2:<相似视频231,“精彩”>--相关;

负样本1:<相似视频231,“感人!”>--不相关;

负样本2:<相似视频231,“真棒”>--不相关。

上述正负样本集仅仅作为示例,本领域技术人员应当理解,本领域技术人员还可以以其他方式描述正负样本,本公开并不以此为限。设备101通过相似度阈值可以控制正负样本之间的比例在一定范围内,提高相关性模型500的准确性。设备101通过这种方式能自动构建出较大批量的高质量正负样本集,降低人工标注成本,并且构建正负样本集速度较快。当然,本领域技术人员应当理解,本公开的实施例还可以以其他方式构建正负样本集来训练相关性模型500,本公开并不以此为限。

在操作501中,设备101对于历史评论集中的每个历史评论,将历史评论转换为历史评论表示向量。具体地,相关性模型500可以通过上述构建文本特征向量的方式来将历史评论转换为历史评论表示向量。例如,可以首先将历史评论分割成多个单词,然后通过将这些单词通过词嵌入的方式转换成词向量,最后将这些词向量拼接起来作为历史评论表示向量。或者,进一步地,可以采用编码神经网络模型和自注意力模型来将历史评论转换为更加抽象的历史评论表示向量。

可选地,相关性模型500可以采取图5b中所示的文本卷积神经网络(textcnn)模型或transformer模型将历史评论转换为历史评论表示向量。文本卷积神经网络模型可以将历史评论的词向量进一步通过卷积层和池化层转化为一个固定维度的历史评论表示向量。transformer模型则采用自注意力模型和前馈神经网络来将历史评论的词向量转换成历史评论表示向量。相比于文本卷积神经网络模型,transformer模型可以更好的体现历史评论中重要的词语或句子的重要性,更好地体现历史评论中某些词句的局部特性。当然,本领域技术人员应当理解,本公开的实施例还可以以其他方式将历史评论转换为历史评论表示向量,本公开并不以此为限。

在操作502中,设备101将待评论视频220的多模态深度表示向量与历史评论表示向量拼接成视频评论融合表示向量。类似地,操作502可以采用视频分类模型300来获取待评论视频220的多模态深度表示向量,本公开在此不再赘述。

在操作503中,设备101可以基于视频评论融合表示向量,获取历史评论与待评论视频的相关性评分。例如,如图5b所示,设备101可以通过相关性模型500中的全连接网络层进一步处理视频评论融合表示向量,例如,可以通过该全连接层网络层进一步调节视频评论融合表示向量中某些元素的权重。相关性模型500中的全连接网络层可以是距离相关性模型500的输出层最近的一层隐藏层。相关性模型500的输出层将根据全连接网络层的输出向量来最终确定历史评论与待评论视频220的相关性评分。

最后,在操作504中,设备101将相关性评分满足预定条件的历史评论作为待评论视频的视频评论。满足预定条件的历史评论可以是相关性评分大于预设阈值的历史评论。设备101还可以基于上述步骤计算的相关性评分,对多个历史评论进行排序,然后返回满足相关性评分大于相关度阈值的前n个历史评论作为当前待评论视频的视频评论。这样可以保证有多个历史评论都大于相关度阈值时,仅返回相关度最高的前n个历史评论。

由此,根据本公开实施例的基于人工智能的生成视频评论的方法200可以实现待评论视频自动生成视频评论,并将该视频评论展示给视频发布者,从而激励视频发布者更愿意继续创作和发布视频,使平台创作氛围更加良性。此外,在视频观看者a和视频观看者b创作待评论视频的评论时,视频观看者a和视频观看者b也可以参考设备101自动生成的视频评论来进行创作,解决了视频观看者a和视频观看者b评论视频需要参考的问题,进而活跃了该视频平台社区运营氛围。

图6是示出根据本公开实施例的基于人工智能的生成视频评论的设备101的结构图。

基于人工智能的生成视频评论的设备101可以包括相似视频集确定模块601、历史评论集获取模块602和视频评论生成模块603。

相似视频集确定模块601可以被配置为确定视频库中与待评论视频相似的相似视频集。

可选地,相似视频集确定模块601还可以被配置为执行获取待评论视频的多模态深度表示向量;以及基于待评论视频的多模态深度表示向量,确定视频库中与待评论视频相似的相似视频集。

历史评论集获取模块602可以被配置为获取相似视频集的历史评论集。

可选地,历史评论集获取模块602还可以被配置为将待评论视频的多模态深度表示向量作为查询键;利用查询键,从检索数据库中获取与待评论的视频相似的多个备选视频;利用多个备选视频构建相似视频集。其中,检索数据库包括视频库中多个视频的视频信息,其中每个视频的视频信息包括视频的唯一标识符、以及视频的多模态深度表示向量。

视频评论生成模块603可以被配置为基于相似视频集的历史评论集,生成待评论视频的视频评论。

可选地,视频评论生成模块603还可以被配置为对于历史评论集中的每个历史评论,将历史评论转换为历史评论表示向量;将待评论视频的多模态深度表示向量与历史评论表示向量拼接成视频评论融合表示向量;基于视频评论融合表示向量,获取历史评论与待评论视频的相关性评分;以及将相关性评分大于预设阈值的历史评论作为待评论视频的视频评论。

基于人工智能的生成视频评论的设备101可以对待评论视频自动生成视频评论,并将该视频评论展示给视频发布者,从而激励视频发布者更愿意继续创作和发布视频,使平台创作氛围更加良性。此外,在视频观看者创作待评论视频的评论时,视频观看者也可以自动生成的视频评论来进行创作,解决了视频观看者评论视频需要参考的问题,进而活跃了该视频平台社区运营氛围。

图7是示出根据本公开实施例的基于人工智能的生成文本评论的方法700的流程图。

与方法200类似地,根据本公开的实施例的基于人工智能的生成文本评论的方法700可以应用于任何的电子设备中。以图1中的设备101为例进行说明。方法700中的文本可以是小说、新闻、帖子、论文等等,但是本公开不限于此。

首先,在操作701中,设备101可以确定文本库中与待评论文本相似的相似文本集。可选地,操作701还可以包括:获取待评论文本的文本特征向量;基于待评论文本的文本特征向量,确定文本库中与待评论文本相似的相似文本集。

与方法200中的视频分类模型300获取文本特征向量的步骤类似地,获取待评论文本的文本特征向量的方式可以包括:将待评论文本中的文本转换为数值型的数据。例如,可以通过对待评论中的每个句子执行分词处理以将每个句子分割为多个单词。然后,可以通过例如词嵌入(wordembedding)的方式将分词处理得到的多个单词分别转换为特定维度的词向量。接着,将这些词向量拼接起来作为文本特征向量。当然,为了更好地表征待评论文本的文字信息,设备101还可以利用编码神经网络模型(encoder)来将这些词向量转换成编码隐藏状态向量。在一些实施例中,编码神经网络模型可以被实现为长短期记忆神经网络模型,可以理解的是编码神经网络模型还可以被实现为任何能够对词向量进行编码以获取编码隐藏状态向量的神经网络模型。类似地,设备101还可以利用自注意力模型来进一步解析编码隐藏状态向量进而获得待评论文本的文本特征向量。自注意力模型可以从编码隐藏状态向量中提取出每个单词的重要程度(也称为对每个单词的注意力),进而可以更好的表征待评论文本的信息。当然,设备101也可以使用其他神经网络模型来获取待评论文本的文本特征向量,本公开对此不作限制。

可选地,设备101还可以将待评论文本的文本特征表示向量作为查询键。设备101利用该查询键,从文本检索数据库中获取与所述待评论文本相似的多个备选文本。可选地,检索数据库可以是近似最近邻检索数据库。在近似最近邻检索库中可以采取近似最近邻检索的方式快速地找到与查询键相似的一个或多个数据。接着,近似最近邻检索可以根据查询键预测其所属的数据类别,返回类别中的部分或全部作为检索结果。当然,还可以使用其他工具来构建近似最近邻检索库,本公开对此不作限制。

接下来,在操作702中,获取相似文本集的历史评论集。

例如,待评论文本描述的是与“全球原油价格下跌”相关的新闻,那么其的相似文本集可能也是描述该新闻的其他文章。相似文本集中的文章可能带有历史评论“太好了,油费又要便宜了!”或者“太可惜了,才加了油”等等。这些历史评论就组成了相似文本集的历史评论集。

最后,在操作703中,基于相似文本集的历史评论集,生成待评论视频的文本评论。

待评论文本和相似文本集中的文本是相似的,则待评论文本也可能获得与相似文本集中的文本相似的评论。由此,设备101根据相似文本集的历史评论集,可以推测出待评论文本的文本评论也可能是“太好了,油费又要便宜了!”或“太可惜了,才加了油”。当然,文本评论还可以是其它未示出的评论信息,例如“抓住机会做空原油期货!”等等。请注意,文本评论可能包括一条文本评论,也可能包括多条文本评论,本公开并不以此为限。

可选地,方法700还包括发布所生成的文本评论,或者将所生成的文本评论提供为候选文本评论。设备101利用方法700自动地生成待评论文本自动的文本评论,并将该文本评论展示给文本发布者,从而激励文本发布者更愿意继续创作和发布文本,使平台创作氛围更加良性。或者设备101利用方法700将所生成的文本评论提供为候选文本评论展示给文本阅读者。文本阅读者可以参考自动生成的文本评论来进行创作,进而解决了文本阅读者评论文本需要参考的问题,进而活跃了该文本平台社区运营氛围。

可选地,设备101可以在待评论文本的历史评论数量少于历史评论数量阈值并且待评论文本的发布时间大于发布时间阈值的情况下,发布所生成的文本评论。历史评论数量阈值可以是文本阅读者对该文本的最少评论数。发布时间阈值可以是当前时间距离文本发布时间的最长时间。历史评论数量阈值和发布时间阈值都是可以调整的参数。例如,假设历史评论数量阈值为3条,发布时间阈值为5天。设备101可能发现在文本发布者发布待评论文本的5天以后,文本阅读者对该文本的评论数仍仅有2条。此时,设备101可以将一条文本评论发布在文本平台上,以激励文本发布者更愿意继续创作作品,使平台创作氛围更加良性。接着,设备101可能在一定时长之后对该文本评论进行再次检测(也就是说设备101可以以一定的频率检测所发布的文本的评论情况)。例如,设备101可能发现在检测到在发布了一条自动生成的文本评论之后的5天,只增加了1条评论。这时设备101可能再发布一条或多条文本评论。同时,采用历史评论数量阈值和发布时间阈值还可以避免对历史评论数量较多的文本也发布评论,进而减少平台的计算量。

图8是示出根据本公开实施例的基于人工智能的生成视频评论的电子设备800的结构图。

参见图8,电子设备800可以包括处理器801和存储器802。处理器801和存储器802可以通过总线803相连。

处理器801可以根据存储在存储器802中的程序执行各种动作和处理。具体地,处理器801可以是一种集成电路芯片,具有信号的处理能力。上述处理器可以是通用处理器、数字信号处理器(dsp)、专用集成电路(asic)、现成可编程门阵列(fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,可以是x87架构或arm架构的。

存储器802上存储有计算机指令,该计算机指令被微处理器执行时实现方法200。存储器802可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(rom)、可编程只读存储器(prom)、可擦除可编程只读存储器(eprom)、电可擦除可编程只读存储器(eeprom)或闪存。易失性存储器可以是随机存取存储器(ram),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的ram可用,例如静态随机存取存储器(sram)、动态随机存取存储器(dram)、同步动态随机存取存储器(sdram)、双倍数据速率同步动态随机存取存储器ddrsdram)、增强型同步动态随机存取存储器(esdram)、同步连接动态随机存取存储器(sldram)和直接内存总线随机存取存储器(drram)。应注意,本公开描述的方法的存储器旨在包括但不限于这些和任意其它适合类型的存储器。

本公开的实施例提供了一种计算机可读存储介质,其上存储有计算机指令,该计算机指令被处理器执行时实现方法200和方法700。

本公开的实施例通过对待评论视频自动生成视频评论,并将该视频评论展示给视频发布者,从而激励视频发布者更愿意继续创作和发布视频,使平台创作氛围更加良性。此外,在视频观看者创作待评论视频的评论时,视频观看者也可以自动生成的视频评论来进行创作,解决了视频观看者评论视频需要参考/启发的问题,进而活跃了该视频平台社区运营氛围。

本公开的实施例通过对待评论文本自动生成文本评论,并将该文本评论展示给文本发布者,从而激励文本发布者更愿意继续创作和发布文本,使平台创作氛围更加良性。此外,在文本阅读者创作待评论文本的评论时,文本阅读者也可以自动生成的文本评论来进行创作,解决了文本阅读者评论文本需要参考/启发的问题,进而活跃了该文本平台社区运营氛围。

需要说明的是,附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

一般而言,本公开的各种示例实施例可以在硬件或专用电路、软件、固件、逻辑,或其任何组合中实施。某些方面可以在硬件中实施,而其他方面可以在可以由控制器、微处理器或其他计算设备执行的固件或软件中实施。当本公开的实施例的各方面被图示或描述为框图、流程图或使用某些其他图形表示时,将理解此处描述的方框、装置、系统、技术或方法可以作为非限制性的示例在硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备,或其某些组合中实施。

在上面详细描述的本发明的示例实施例仅仅是说明性的,而不是限制性的。本领域技术人员应该理解,在不脱离本发明的原理和精神的情况下,可对这些实施例或其特征进行各种修改和组合,这样的修改应落入本发明的范围内。


技术特征:

1.一种基于人工智能的生成视频评论的方法,包括:

确定视频库中与待评论视频相似的相似视频集;

获取所述相似视频集的历史评论集;以及

基于所述相似视频集的历史评论集,生成所述待评论视频的视频评论。

2.如权利要求1所述的基于人工智能的生成视频评论的方法,其中,所述确定视频库中与待评论视频相似的相似视频集包括:

获取所述待评论视频的多模态深度表示向量;

基于所述待评论视频的多模态深度表示向量,确定视频库中与所述待评论视频相似的相似视频集。

3.如权利要求2所述的基于人工智能的生成视频评论的方法,其中,所述获取所述待评论视频的多模态深度表示向量,包括:

获取所述待评论视频的图像特征向量、音频特征向量和文本特征向量中的至少两个特征向量;

将所获取的至少两个特征向量拼接成所述待评论视频的多模态特征融合表示向量;

将所述多模态特征融合表示向量转换为所述待评论视频的多模态深度表示向量。

4.如权利要求1所述的基于人工智能的生成视频评论的方法,还包括:

发布所生成的视频评论;或者

将所生成的视频评论提供为候选视频评论。

5.如权利要求3所述的基于人工智能的生成视频评论的方法,其中,所述获取所述待评论视频的图像特征向量包括:

从所述待评论视频抽取所述待评论视频的多个代表视频帧;

将所述多个代表视频帧转换为多个初步视频帧表示向量;以及

将所述多个初步视频帧表示向量转换为所述待评论视频的图像特征向量。

6.如权利要求3所述的基于人工智能的生成视频评论的方法,其中,所述获取所述待评论视频的音频特征向量包括:

从所述待评论视频抽取所述待评论视频的多个代表音频片段;以及

将所述多个代表音频片段转换为所述待评论视频的音频特征向量。

7.如权利要求3所述的基于人工智能的生成视频评论的方法,其中,所述获取所述待评论视频的文本特征向量包括:

获取所述待评论视频的标题、描述和字幕;

将所述待评论视频的标题、描述和字幕转换为编码隐藏状态向量;

将所述编码隐藏状态向量转换为所述待评论视频的文本特征向量。

8.如权利要求1所述的基于人工智能的生成视频评论的方法,其中,所述基于所述待评论视频的多模态深度表示向量,获取与所述待评论视频相似的相似视频集包括:

将所述待评论视频的多模态深度表示向量作为查询键,

利用所述查询键,从检索数据库中获取与所述待评论的视频相似的多个备选视频,

利用所述多个备选视频构建相似视频集;

其中,所述检索数据库包括所述视频库中多个视频的视频信息,其中每个视频的视频信息包括所述视频的唯一标识符、以及所述视频的多模态深度表示向量。

9.如权利要求1所述的基于人工智能的生成视频评论的方法,其中,所述基于相似视频集的历史评论集生成待评论视频的视频评论包括:

对于所述历史评论集中的每个历史评论,将所述历史评论转换为历史评论表示向量;

将所述待评论视频的多模态深度表示向量与所述历史评论表示向量拼接成视频评论融合表示向量;

基于所述视频评论融合表示向量,获取所述历史评论与所述待评论视频的相关性评分;以及

将所述相关性评分满足预定条件的历史评论作为所述待评论视频的视频评论。

10.如权利要求3所述的基于人工智能的生成视频评论的方法,其中,所述获取待评论视频的多模态深度表示向量还包括利用视频分类模型获取待评论视频的多模态深度表示向量,

所述视频分类模型的训练包括:

获取所述视频库中的一个或多个视频的视频种类标记;

利用所述一个或多个视频和所述视频分类标记训练所述视频分类模型。

11.如权利要求1所述的基于人工智能的生成视频评论的方法,其中,

所述生成所述待评论视频的视频评论包括:利用相关性模型生成所述待评论视频的视频评论,

其中,所述相关性模型的训练包括:

利用所述相似视频集的历史评论集,构建所述相关性模型的正样本和负样本;

利用所述相关性模型的正样本和负样本训练所述相关性模型;

其中,所述构建所述相关性模型的正样本和负样本包括:

从所述相似视频集中选取第一相似视频和第二相似视频,其中,

第一相似视频和第二相似视频之间的相似度小于相似度阈值;

将第一相似视频的历史评论标记为与所述第一相似视频相关的正样本;

将第二相似视频的历史评论标记为与所述第一相似视频不相关的负样本。

12.如权利要求1所述的基于人工智能的生成视频评论的方法,其中,所述待评论视频的历史评论数量少于历史评论数量阈值,并且所述待评论视频的发布时间大于发布时间阈值。

13.一种基于人工智能的生成视频评论的设备,包括:

相似视频集确定模块,被配置为确定视频库中与待评论视频相似的相似视频集;

历史评论集获取模块,被配置为获取所述相似视频集的历史评论集;和

视频评论生成模块,被配置为基于所述相似视频集的历史评论集,生成所述待评论视频的视频评论。

14.一种基于人工智能的生成文本评论的方法,包括:

确定文本库中与待评论文本相似的相似文本集;

获取所述相似文本集的历史评论集;以及

基于所述相似文本集的历史评论集,生成所述待评论文本的文本评论。

15.一种计算机可读存储介质,其上存储有计算机指令,所述计算机指令被处理器执行时实现如权利要求1-12和14中的任一项所述的方法。

技术总结
公开了一种基于人工智能的生成视频评论的方法、设备、电子设备和计算机可读存储介质。该方法包括:确定视频库中与待评论视频相似的相似视频集;获取所述相似视频集的历史评论集;以及基于所述相似视频集的历史评论集,生成所述待评论视频的视频评论。该方法可以激励视频发布者更愿意继续创作和发布视频,使平台创作氛围更加良性并活跃该视频平台社区运营氛围。

技术研发人员:陈小帅
受保护的技术使用者:腾讯科技(深圳)有限公司
技术研发日:2020.01.17
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-15672.html

最新回复(0)