唱歌状态识别方法及装置与流程

专利2022-06-29  96


本公开涉及视频直播领域,特别涉及一种唱歌状态识别方法及装置。



背景技术:

相关技术中,终端中安装的视频直播客户端中可以显示有多个伴奏文件的选项,视频直播客户端可以将主播用户针对任一伴奏文件的选择指令发送至服务器,服务器在接收到视频直播客户端发送的选择指令后,可以确定视频直播客户端在播放伴奏文件,由此可以确定主播用户处于唱歌状态,并在视频直播客户端展示主播用户的唱歌状态,以便于观看用户及时获知各个主播用户的唱歌状态。

但是,视频直播客户端在播放伴奏文件的过程中,主播用户可能正在与观看用户进行互动,即此时主播用户并未处于唱歌状态,因此服务器基于选择指令确定主播用户是否处于唱歌状态的可靠性较低。



技术实现要素:

本公开实施例提供了一种唱歌状态识别方法及装置,可以解决相关技术中服务器确定主播用户是否处于唱歌状态的可靠性较低的问题。所述技术方案如下:

一方面,提供了一种唱歌状态识别方法,所述方法包括:

接收主播客户端发送的视频流,每隔预设切片时长切分所述视频流,获取所述预设切片时长的视频片段;

获取目标数量个所述视频片段,将在所述目标数量个视频片段之后获取到的每个所述视频片段,与在所述视频片段之前获取到的所述目标数量个视频片段合成,得到一个目标视频文件,所述目标视频文件时间长度为固定值;

提取所述目标视频文件的综合特征,所述综合特征包括音频特征,音频文本特征,及图像特征;

采用分类器对所述综合特征进行处理并输出处理结果,所述处理结果用于指示所述主播用户的唱歌状态。

可选的,所述在获取到目标数量个所述视频片段后,将后续获取到的每个所述视频片段与在所述视频片段之前获取到的所述目标数量个视频片段合成,得到一个目标视频文件,包括:

按照所述预设切片时长内每个所述视频片段的接收时间顺序,将所述视频片段的索引存储至索引文件中;

获取到目标数量个视频片段,且将在目标数量个所述视频片段之后获取到的一个视频片段的索引存储至所述索引文件后,将所述索引文件中所记录的多个索引所指示的多个视频片段合成,得到一个目标视频文件;

若再次获取到一个视频片段,删除所述索引文件中记录的第一个索引,并将再次获取到的所述一个视频片段的索引存储至所述索引文件中。

可选的,在接收主播客户端发送的视频流之前,所述方法还包括:

获取多个样本视频文件,每个所述样本视频文件包括多个视频片段样本;

提取每个所述样本视频文件的综合特征样本,得到多个所述综合特征样本;

对多个所述综合特征样本和多个所述综合特征样本的属性信息进行训练得到分类器,所述属性信息用于标识所述样本视频文件中的主播用户是否为唱歌状态。

可选的,所述方法还包括:

基于在第一时长内确定的所述主播用户的多个唱歌状态,确定所述主播用户的第一用户标签,所述第一用户标签用于指示所述主播用户的唱歌频率,所述多个唱歌状态是根据在所述第一时长内获取到的多个所述目标视频文件得到的;

在视频直播客户端的显示页面显示所述主播用户的第一用户标签。

可选的,在确定所述主播用户的用户标签之后,所述方法还包括:

获取在第二时长内观看用户的历史观看记录;

基于所述历史观看记录确定所述观看用户的第二用户标签,所述第二用户标签用于指示所述观看用户观看唱歌视频的频率;

基于各个所述主播用户的第一用户标签和所述观看用户的第二用户标签,从各个所述主播用户中确定至少一个推荐主播用户;

向所述视频直播客户端推荐所述至少一个推荐主播用户的直播视频。

可选的,所述向所述视频直播客户端推荐所述至少一个备选主播用户的直播视频,包括:

将所述观看用户的第二用户标签和所述至少一个推荐主播用户的标识输入排序模型;

根据所述排序模型输出的排序结果,向所述视频直播客户端推荐所述至少一个推荐主播用户的直播视频。

另一方面,提供了一种唱歌状态识别装置,所述装置包括:

第一获取模块,用于接收主播客户端发送的视频流,每隔预设切片时长切分所述视频流,获取所述预设切片时长的视频片段;

合成模块,用于获取目标数量个所述视频片段,将在目标数量个所述视频片段之后获取到的每个所述视频片段与在所述视频片段之前获取到的所述目标数量个视频片段合成,得到一个目标视频文件,所述目标视频文件时间长度为固定值;

第一提取模块,用于提取所述目标视频文件的综合特征,所述综合特征包括音频特征,音频文本特征,及图像特征;

处理模块,用于采用分类器对所述综合特征进行处理并输出处理结果,所述处理结果用于指示所述主播用户的唱歌状态。

可选的,所述合成模块,用于:

按照所述预设切片时长内每个所述视频片段的接收时间顺序,将所述视频片段的索引存储至索引文件中;

获取到目标数量个视频片段,且将在所述目标数量个视频片段之后获取到的一个视频片段的索引存储至所述索引文件后,将所述索引文件中所记录的多个索引所指示的多个视频片段合成,得到一个目标视频文件;

若再次获取到一个视频片段,删除所述索引文件中记录的第一个索引,并将再次获取到的所述一个视频片段的索引存储至所述索引文件中。

又一方面,提供了一种唱歌状态识别装置,包括:存储器,处理器及存储在所述存储器上的计算机程序,所述处理器执行所述计算机程序时实现如上述方面所述的唱歌状态识别方法。

再一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行如上述方面所述的唱歌状态识别方法。

本公开实施例提供的技术方案带来的有益效果至少包括:

本公开实施例提供了一种唱歌状态识别方法及装置,服务器可以根据接收到的主播客户端发送的视频流,获取预设切片时长的视频片段。之后可以获取目标数量个视频片段,并将在该目标数量个视频片段之后获取到的每个视频片段,与在该视频片段之前获取到的目标数量个视频片段合成,得到一个目标视频文件。之后可以提取该目标视频文件的综合特征,采用分类器对综合特征进行处理并输出处理结果,并根据该处理结果确定该主播用户是否处于唱歌状态。由于服务器可以基于分类器确定主播用户是否处于唱歌状态,相较于相关技术中服务器基于选择指令确定主播用户是否处于唱歌状态,该方法提高了对主播用户的唱歌状态确定的可靠性以及准确度。

附图说明

为了更清楚地说明本公开实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本公开实施例提供的一种唱歌状态识别方法所涉及的实施环境的示意图;

图2是本公开实施例提供的一种唱歌状态识别方法的流程图;

图3是本公开实施例提供的另一种唱歌状态识别方法的流程图;

图4是本公开实施例提供的一种将主播客户端发送的视频流传输至视频直播客户端的示意图;

图5是本公开实施例提供的一种确定目标视频文件的示意图;

图6是本公开实施例提供的一种确定目标视频文件的综合特征的流程图;

图7是本公开实施例提供的一种确定目标视频文件的音频特征的示意图;

图8是本公开实施例提供的一种确定目标视频文件的音频文字特征的示意图;

图9是本公开实施例提供的一种确定目标视频文件的图像特征的示意图;

图10是本公开实施例提供的一种基于综合特征确定出处理结果的示意图;

图11是本公开实施例提供的又一种唱歌状态识别方法的流程图;

图12是本公开实施例提供的一种唱歌状态识别装置的框图;

图13是本公开实施例提供的另一种唱歌状态识别装置的框图;

图14是本公开实施例提供的另一种唱歌状态识别装置的框图。

具体实施方式

为使本公开的目的、技术方案和优点更加清楚,下面将结合附图对本公开实施方式作进一步地详细描述。

图1是本公开实施例提供的一种唱歌状态识别方法所涉及的实施环境的示意图。如图1所示,该实施环境可以包括:服务器110和终端120。该服务器110和终端120之间可以通过有线网络或无线网络建立连接。该服务器110可以是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心。可选的,该服务器可以为流媒体服务器。该终端120可以是个人电脑、笔记本电脑、平板电脑或手机等安装有视频直播客户端的设备。其中,主播用户所登陆的视频直播客户端可以称为主播客户端,观看用户所登陆的视频直播客户端可以称为观看用户客户端。

在本公开实施例中,服务器110可以根据接收到的主播客户端发送的视频流,获取预设切片时长的视频片段。之后可以获取目标数量个视频片段,并将在目标数量个视频片段之后获取到的每个视频片段,与在该视频片段之前获取到的目标数量个视频片段合成,得到一个目标视频文件。之后可以提取该目标视频文件的综合特征,采用分类器对综合特征进行处理并输出处理结果,并根据该处理结果确定主播用户是否唱歌状态。由于服务器可以基于分类器确定主播用户是否处于唱歌状态,相较于相关技术中服务器基于选择指令确定主播用户是否处于唱歌状态,该方法提高了对主播用户的唱歌状态确定的可靠性以及准确度。

图2是本公开实施例提供的一种唱歌状态识别方法的流程图,该唱歌状态识别方法可以应用于图1所示的服务器110中。如图2所示,该方法可以包括:

步骤201、接收主播客户端发送的视频流,每隔预设切片时长切分视频流,获取预设切片时长的视频片段。

在主播用户采用主播客户端进行视频直播的过程中,该主播客户端会实时向服务器发送视频流,相应的,服务器可以实时接收主播客户端发送的视频流,并可以每隔预设切片时长切分该视频流,得到该预设切片时长内的视频片段。

其中,该预设切片时长可以为服务器中预先存储的固定时长。示例的,该预设切片时长可以为1s。

步骤202、获取目标数量个视频片段,将在目标数量个视频片段之后获取到的每个视频片段,与在该视频片段之前获取到的目标数量个视频片段合成,得到一个目标视频文件。

在本公开实施例中,服务器在每获取到(目标数量 1)个视频片段后,可以将该(目标数量 1)个视频片段合成,得到一个目标视频文件。其中,该目标视频文件时间长度为固定值。

步骤203、提取目标视频文件的综合特征。

其中,该综合特征包括音频特征,音频文本特征,及图像特征。

在本公开实施例中,服务器在获取目标视频文件后,可以提取该目标视频文件中的音频特征,音频文本特征,及图像特征。并可以对该音频特征,音频文本特征及图像特征进行融合处理,从而得到综合特征。

步骤204、采用分类器对综合特征进行处理并输出处理结果。

在本公开实施例中,服务器中可以预先存储有分类器。在提取到目标视频文件的综合特征后,服务器可以将该综合特征输入到该分类器中。之后可以根据该分类器输出的处理结果来确定主播用户是否处于唱歌状态,该处理结果用于指示主播用户的唱歌状态。

综上所述,本公开实施例提供了一种唱歌状态识别方法,该唱歌状态识别方法可以根据接收到的主播客户端发送的视频流,获取预设切片时长的视频片段。之后可以获取目标数量个视频片段,并将在目标数量个视频片段之后获取到的每个视频片段,与在该视频片段之前获取到的目标数量个视频片段合成,得到一个目标视频文件。之后可以提取该目标视频文件的综合特征,采用分类器对综合特征进行处理并输出处理结果,并根据该处理结果确定该主播用户是否处于唱歌状态。由于可以基于分类器确定主播用户是否处于唱歌状态,相较于相关技术中服务器基于选择指令确定主播用户是否处于唱歌状态,该方法提高了对主播用户的唱歌状态确定的可靠性以及准确度。

图3是本公开实施例提供的另一种唱歌状态识别方法的流程图,该唱歌状态识别方法可以应用于图1所示的服务器110中。如图3所示,该方法可以包括:

步骤301、获取多个样本视频文件。

在本公开实施例中,服务器可以获取多个样本主播客户端发送的样本主播客户的样本视频流,并可以每隔切片时长对该每个样本视频流进行切片,从而得到多个样本视频文件。其中,该每个样本视频文件可以包括多个视频片段样本,该切片时长可以是服务器中预先存储的固定时长。

步骤302、提取每个样本视频文件的综合特征样本,得到多个综合特征样本。

服务器在获取到多个样本视频文件后,可以提取每个样本视频文件的综合特征样本,从而得到多个综合特征样本。同时软件开发人员可以根据每个综合特征样本对应的样本视频文件,标记该每个综合特征样本的属性信息,并通过软件开发人员所在的终端将该每个综合特征样本的属性信息传输至服务器。

其中,该属性信息用于标识样本视频文件中的主播用户是否为唱歌状态。该每个综合特征样本可以包括音频特征样本、音频文本特征样本和图像特征样本。

步骤303、对多个综合特征样本和多个综合特征样本的属性信息进行训练得到分类器。

服务器可以采用机器学习算法对该多个综合特征样本和多个综合特征样本的属性信息进行训练得到分类器。

步骤304、接收主播客户端发送的视频流,每隔预设切片时长切分视频流,获取预设切片时长的视频片段。

服务器在接收主播客户端发送的视频流的过程中,可以每隔预设切片时长切分该视频流,从而获取到预设切片时长内的视频片段。

在本公开实施例中,主播用户在采用主播客户端进行视频直播的过程中,该主播客户端会实时向服务器发送视频流,相应的,服务器可以实时接收主播客户端发送的视频流,并可以每隔预设切片时长切分该视频流,得到该预设切片时长内的视频片段。该预设切片时长可以为服务器中预先存储的固定时长。

可选的,如图4所示,主播客户端可以基于用户数据报协议(userdatagramprotocol,udp)协议向服务器发送视频流,相应的,服务器可以通过access接口实时接收主播客户端发送的视频流,并可以采用超文本直播流(hypertexttransferprotocollivestreaming,hls)传输协议对接收到的视频流进行处理。基于该hls传输协议,服务器在接收主播客户端发送的视频流的过程中,可以每隔预设切片时长获取该预设切片时长内的视频片段,并将该视频片段封装成传输流(transportstream,ts)格式。示例的,该预设切片时长可以为1秒(s),则服务器可以每隔1秒获取时长为1s的视频片段。

步骤305、获取目标数量个视频片段,将在目标数量个视频片段之后获取到的每个视频片段,与在该视频片段之前获取到的目标数量个视频片段合成,得到一个目标视频文件。

在本公开实施例中,服务器在每获取到(目标数量 1)个视频片段后,可以将该(目标数量 1)个视频片段合成,得到一个目标视频文件。

可选的,服务器在获取到每个视频片段后,可以基于该hls传输协议,可以按照预设切片时长内每个视频片段的接收时间顺序,将该每个视频片段的索引存储至索引文件中。之后,服务器可以获取到目标数量个视频片段,且将在目标数量个视频片段之后获取到的一个视频片段的索引存储至索引文件后,将该索引文件中所记录的多个索引所指示的多个视频片段合成,得到一个目标视频文件。之后,若服务器再获取到一个视频片段,则可以删除该索引文件中记录的第一个索引,并将该再次获取到的一个视频片段的索引存储至索引文件中。也即是,在本公开实施例中,服务器可以通过该索引文件维护最新接收到的多个视频片段,继而可以基于该索引文件中记录的索引,合成目标视频文件。其中,该目标视频文件时间长度可以为固定值。

可选的,每个视频片段的索引可以为该视频片段的标识,该索引文件可以为m3u8格式的文件,该目标视频文件可以为动态图像专家组(movingpictureexpertsgroup,mpeg)格式的文件。

示例的,假设该预设切片时长为1s,该目标数量为4,则如图5所示,服务器在获取到时长均为1s的视频片段1、视频片段2、视频片段3和视频片段4后,可以按照该四个视频片段的接收时间顺序,将该四个视频片段的索引存储至索引文件中。之后服务器将在视频片段4之后获取到的视频片段5存储至索引文件中后,可以将视频片段1、视频片段2、视频片段3、视频片段4和视频片段5合成,进而得到一个时长为5秒的一个目标视频文件01。之后,服务器在接收到视频片段6之后,可以删除索引文件中的视频文件1的索引,将该视频片段6的索引存储至索引文件中。之后可以将该视频片段2、视频片段3、视频片段4、视频片段5和视频片段6合成,得到另一个目标视频文件02。

在本公开实施例中,为了降低了服务器获取目标视频文件的延时,该预设切片时长可以较短,例如可以为1s。

步骤306、提取目标视频文件的综合特征。

其中,该综合特征可以包括音频特征,音频文本特征,及图像特征。

在本公开实施例中,服务器中可以预先存储有特征提取模型,在获取到目标视频文件后,服务器可以采用该特征提取模型提取该目标视频文件的综合特征。其中,该特征提取模型可以包括音频特征提取模型、文本特征提取模型、图像帧序列特征提取模型和特征融合模型。相应的,参考图6,该步骤306可以包括:

步骤3061、采用音频特征提取模型提取目标视频文件的音频特征。

在本公开实施例中,该音频特征提取模型可以包括卷积神经网络(convolutionalneuralnetworks,cnn)。服务器在采用音频特征提取模型提取音频特征的过程中,参考图7,该音频特征提取模型可以提取该目标视频文件的目标音频信号,并对该目标音频信号进行分帧处理,进而得到多帧音频信号。之后该音频特征提取模型可以对该每一帧音频信号进行加窗处理,并对加窗处理后的每一帧音频信号进行傅里叶变换。之后该音频特征提取模型可以基于每一帧音频信号的傅里叶变换结果计算每一帧音频信号的频谱数据,并将该多帧音频信号的频谱数据合成,得到该目标音频信号的频谱数据。之后该音频特征提取模型可以通过cnn对该目标音频信号的频谱数据进行处理,从而得到音频特征。示例的,该音频特征可以为1024维度的向量。

在本公开实施例中,服务器通过上述傅里叶变换可以将每一帧音频信号由时域变换为频域,该傅里叶变换可以为离散傅里叶变换或者快速傅里叶变换。

若不同的目标视频文件可以基于不同数量的视频片段合成,则不同的目标视频文件的时长不同,通过上述cnn模型对该多个目标视频文件的频谱数据进行处理,可以得到多个维度相等的音频特征。

步骤3062、采用文本特征提取模型提取目标视频文件的音频文本特征。

在本公开实施例中,该文本特征提取模型可以包括文本转换子模型、词向量子模型和中文分词子模型,服务器在采用文本特征提取模型提取目标视频文件的音频文本特征的过程中,可以将上述步骤3061确定的目标音频信号输入该文本特征提取模型中,参考图8,该文本特征提取模型可以通过该文本转换子模型对该目标音频信号进行文本转换处理,得到目标文本。之后通过该中文分词(例如结巴分词)子模型可以对该目标文本进行分词处理,得到目标词语集合。之后可以通过词向量子模型对该目标词语集合进行编码处理得到词向量表,并对该词向量表进行池化处理,得到文本特征。示例的,该文本特征可以为90维度的向量。可选的,该词向量子模型可以为word2vec模型。

若不同的目标视频文件可以基于不同数量的视频片段合成,则不同的目标视频文件的时长不同,通过对该多个目标视频文件的词向量表进行池化处理,可以得到多个维度相等的文本特征。可选的,该池化处理可以为最大池化(maxpooling)处理。

步骤3063、采用图像帧序列特征提取模型提取目标视频文件的图像特征。

该图像帧序列特征提取模型可以包括图像提取子模型、二维cnn和图像间关系提取子模型(例如,三维cnn),服务器采用图像帧序列特征提取模型提取目标视频文件的图像特征的过程中,参考图9,该图像帧序列特征提取模型可以通过该图像提取子模型从该目标视频文件中提取多帧目标图像,并通过二维cnn对该多帧目标图像进行处理,得到每一帧目标图像的特征向量。之后,通过三维cnn对该每一帧目标图像的特征向量进行处理,进而得到该目标视频文件的图像特征。示例的,该图像特征可以为1024维度的向量。

可选的,服务器在采用图像帧序列特征提取模型从该目标视频文件中提取多帧目标图像的过程中,作为一种可选的实现方式,服务器可以按照分段时长将该目标视频文件进行视频分段处理,得到多个子片段,并从该每个子片段中获取一帧图像,进而获取到多帧目标图像。由于服务器只需基于目标视频文件中的部分图像计算目标视频文件的图像特征,因此降低了服务器的工作量,相应的,提高了确定图像特征的效率。

作为另一种可选的实现方式,服务器可以提取目标视频文件的每一帧图像,进而得到多帧目标图像。

步骤3064、采用特征融合模型对音频特征、音频文本特征以及图像特征进行融合处理,得到目标视频文件的综合特征。

参考图10,服务器在确定目标视频文件的音频特征、音频文本特征以及图像特征之后,可以采用特征融合模型对该音频特征、音频文本特征以及图像特征进行融合处理,进而得到目标视频文件的综合特征。可选的,该特征融合模型可以为注意力机制模型。

可选的,该融合处理可以是指对音频特征、音频文本特征以及图像特征进行加权求和。或者也可以是直接对音频特征、音频文本特征以及图像特征求和,本公开实施例对此不做限定。

需要说明的是,上述步骤3061至步骤3063确定的音频特征、音频文本特征以及图像特征的维度可以相同,也可以不同,本公开实施例对此不做限定。

在本公开实施例中,服务器可以直接将预先训练的音频特征提取模型、文本特征提取模型以及图像帧序列特征提取模型的组合作为初始模型,并采用多个综合特征样本和多个综合特征样本的属性信息对该初始模型进行训练得到分类器。

步骤307、采用分类器对综合特征进行处理并输出处理结果。

在本公开实施例中,参考图10,服务器在得到该目标视频文件的综合特征后,可以将该综合特征输入该分类器中,进而得到对该目标视频文件的处理结果,该处理结果用于指示主播用户的唱歌状态。可选的,该处理结果可以为唱歌或者未唱歌。或者,该处理结果还可以为指示主播用户处于唱歌状态的概率值。

若该分类器输出的处理结果为唱歌,则服务器可以确定该主播用户目前处于唱歌状态。若该分类器输出的处理结果为未唱歌,则服务器可以确定该主播用户目前处于未唱歌状态。

在本公开实施例中,参考图4,服务器获取到每个目标视频文件后,在执行上述步骤304至步骤307确定主播用户的唱歌状态的同时,可以基于实时消息传输协议(realtimemessagingprotocol,rtmp)协议将该目标视频文件传输至内容分发网路(contentdeliverynetwork,cdn)服务器,并通过该cdn服务器将该目标视频文件发送至主播用户客户端和各个观看用户客户端。

服务器每隔预定周期确定一次主播用户的唱歌状态,并将通过定时上报的方式,将获取到的主播用户的综合特征、唱歌状态以及各个观看用户的历史观看记录到离线数据库。示例的,该预定时长可以为10s。

综上所述,本公开实施例提供了一种唱歌状态识别方法,服务器可以根据接收到的主播客户端发送的视频流,获取预设切片时长的视频片段。之后可以获取目标数量个视频片段,并将在目标数量个视频片段之后获取到的每个视频片段,与在该视频片段之前获取到的目标数量个视频片段合成,得到一个目标视频文件。之后提取该目标视频文件的综合特征,采用分类器对综合特征进行处理并输出处理结果,并根据该处理结果确定该主播用户是否处于唱歌状态。由于服务器可以基于分类器确定主播用户是否处于唱歌状态,相较于相关技术中服务器基于选择指令确定主播用户是否处于唱歌状态,该方法提高了对主播用户的唱歌状态确定的可靠性以及准确度。

图11是本公开实施例提供的又一种唱歌状态识别方法的流程图,该唱歌状态识别方法可以应用于图1所示的服务器110中。如图11所示,该方法可以包括:

步骤1101、基于在第一时长内确定的主播用户的多个唱歌状态,确定主播用户的第一用户标签。

在本公开实施例中,在第一时长内,服务器可以每隔预定周期获取一个目标视频文件,并通过执行上述步骤306,确定该主播用户的一个唱歌状态,从而得到该主播用户在第一时长内的多个唱歌状态。之后,服务器可以基于该多个唱歌状态确定主播用户的第一用户标签。其中,该第一用户标签可以用于指示主播用户的唱歌频率,其可以反映该主播用户对唱歌的喜爱程度。

示例的,该第一用户标签可以为特别喜欢唱歌、一般喜欢唱歌和不喜欢唱歌中的任一种。或者该第一用户标签可以为喜欢唱歌和不喜欢唱歌中的任一种。

可选的,若该第一用户标签为喜欢唱歌和不喜欢唱歌中的任一种,服务器可以根据确定的多个唱歌状态,计算第一比值,若该第一比值大于第一比值阈值,则可以将该第一用户标签确定为喜欢唱歌。若该第一比值不大于第一比值阈值,则将第一用户标签确定为不喜欢唱歌。其中,该第一比值为唱歌状态为唱歌的个数与确定的唱歌状态的总个数的比值,该第一比值阈值可以为服务器中预先存储的固定值。

示例的,以第一用户标签为喜欢唱歌和不喜欢唱歌中的任一种,第一比值阈值为0.5为例,若服务器在第一时长内确定了主播用户的5个唱歌状态,分别为唱歌、未唱歌、唱歌、唱歌和唱歌。其中,该唱歌状态为唱歌的个数为4,唱歌状态的总个数为5。由于该第一比值4/5(即0.8)大于第一比值阈值0.5,因此服务器可以确定该第一用户标签为喜欢唱歌。可选的,该第一时长可以为1小时,也可以为24小时。

步骤1102、在视频直播客户端的显示页面显示主播用户的第一用户标签。

服务器在确定主播用户的第一用户标签后,可以在视频直播客户端的显示页面显示该主播用户的第一用户标签,以便于观看用户及时获知各个主播用户的唱歌频率,进而便于观看用户选择其所喜爱的直播视频,改善用户体验,且通过该方法可以召回流失用户。

步骤1103、获取在第二时长内观看用户的历史观看记录。

该历史观看记录可以包括该观看用户在第二时长内所观看的直播视频所属的主播用户的标识。

需要说明的是,该第二时长与上述步骤1102中的第一时长可以相同,也可以不同,本公开实施例对此不做限定。

步骤1104、基于历史观看记录确定观看用户的第二用户标签。

其中,该第二用户标签用于指示观看用户观看唱歌视频的频率,其可以反映观看用户对唱歌视频的喜爱程度。

示例的,该第二用户标签可以为特别喜欢观看唱歌视频、一般喜欢观看唱歌视频和不喜欢观看唱歌视频中的任一种。或者,该第二用户标签也可以为喜欢观看唱歌视频和不喜欢观看唱歌视频中的任一种。

在本公开实施例中,服务器在获取第二时长内观看用户的历史观看记录后,可以基于该历史观看记录确定观看用户的多个观看状态,并基于该多个观看状态确定观看用户的第二用户标签,该观看状态可以为观看唱歌视频和未观看唱歌视频中的任一种。

可选的,服务器可以根据观看用户在第二时长内所观看的直播视频所对应的多个主播用户的标识,确定观看用户在观看每个主播用户时,该主播用户的唱歌状态,进而得到多个主播用户的唱歌状态,并基于确定的多个主播用户的唱歌状态确定该观看用户的多个观看状态。

若第二用户标签为喜欢观看唱歌视频和不喜欢观看唱歌视频中的任一种,则服务器可以基于该多个观看状态计算第二比值,若该第二比值大于第二比例阈值,可以将该第二用户标签确定为喜欢观看唱歌视频。若该第二比值不大于第二比例阈值,可以将第二用户标签确定为不喜欢观看唱歌视频。其中,该第二比值为观看状态为喜欢观看唱歌视频的个数与确定的观看状态的总数的比值。该第二比值阈值可以为服务器中预先存储的固定值,该第一比值阈值和第二比值阈值可以相同,也可以不同,本公开实施例对此不做限定。

步骤1105、基于各个主播用户的第一用户标签和观看用户的第二用户标签,从各个主播用户中确定至少一个推荐主播用户。

在本公开实施例中,服务器在确定各个主播用户的第一用户标签和观看用户的第二用户标签后,可以基于该各个主播用户的第一用户标签和观看用户的第二用户标签,从各个主播用户中确定至少一个推荐主播用户,并获取该至少一个推荐主播用户的标识。可选的,该至少一个推荐主播用户的第一用户标签与观看用户的第二用户标签之间具有高相关度。

示例的,若观看用户的第二用户标签为喜欢观看唱歌视频,则确定的该至少一个推荐主播用户的第一用户标签可以为喜欢唱歌和特别喜欢唱歌中的任一种。

步骤1106、向视频直播客户端推荐至少一个推荐主播用户的直播视频。

在本公开实施例中,服务器中可以预先存储有排序模型,在确定至少一个推荐主播用户后,服务器可以将观看用户的第二用户标签和至少一个推荐主播用户的标识输入排序模型中,并根据该排序模型输出的排序结果,向视频直播客户端(即主播用户客户端和观众用户客户端)推荐至少一个推荐主播用户的直播视频。

可选的,该排序模型可以为点击率(clickthroughrate,ctr)预估模型,服务器可以将各个主播用户的综合特征、唱歌状态以及第一用户标签加入ctr预估模型中,进而得到排序模型。

示例的,若该观看用户的第二用户标签为喜欢唱歌,则该排序结果可以与各个主播用户的唱歌频率相关。其中,唱歌频率高的主播用户的直播视频可以显示在视频直播客户端的页面的固定位置处。可选的,该固定位置可以为视频直播客户端的页面的顶端。

综上所述,本公开实施例提供了一种唱歌状态识别方法,服务器可以根据接收到的主播客户端发送的视频流,获取预设切片时长的视频片段。之后可以获取目标数量个视频片段,并将在目标数量个视频片段之后获取到的每个视频片段,与在该视频片段之前获取到的目标数量个视频片段合成,得到一个目标视频文件。之后提取该目标视频文件的综合特征,采用分类器对综合特征进行处理并输出处理结果,并根据该处理结果确定该主播用户是否处于唱歌状态。由于服务器可以基于分类器确定主播用户是否处于唱歌状态,相较于相关技术中服务器基于选择指令确定主播用户是否处于唱歌状态,该方法提高了对主播用户的唱歌状态确定的可靠性以及准确度。

需要说明的是,本公开实施例提供的唱歌状态识别方法步骤的先后顺序可以进行适当调整,步骤也可以根据情况进行删除。例如,步骤1101至步骤1106可以根据情况删除,步骤3061至步骤3064也可以根据情况删除。任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到变化的方法,都应涵盖在本公开的保护范围之内,因此不再赘述。

图12是本公开实施例提供的一种唱歌状态识别装置的框图1200,该唱歌状态识别状态装置可以应用于图1所示的服务器110,如图12所示,该装置可以包括:

第一获取模块1201,用于接收主播客户端发送的视频流,每隔预设切片时长切分视频流,获取预设切片时长的视频片段。

合成模块1202,用于获取目标数量个视频片段,将在目标数量个视频片段之后获取到的每个视频片段与在视频片段之前获取到的目标数量个视频片段合成,得到一个目标视频文件,该目标视频文件时间长度为固定值。

第一提取模块1203,用于提取目标视频文件的综合特征,该综合特征包括音频特征,音频文本特征,及图像特征。

处理模块1204,用于采用分类器对综合特征进行处理并输出处理结果,该处理结果用于指示主播用户的唱歌状态。

综上所述,本公开实施例提供了一种唱歌状态识别装置,服务器可以根据接收到的主播客户端发送的视频流,获取预设切片时长的视频片段。之后可以获取目标数量个视频片段,并将在目标数量个视频片段之后获取到的每个视频片段,与在该视频片段之前获取到的目标数量个视频片段合成,得到一个目标视频文件。之后提取该目标视频文件的综合特征,采用分类器对综合特征进行处理并输出处理结果,并根据该处理结果确定该主播用户是否处于唱歌状态。由于服务器可以基于分类器确定主播用户是否处于唱歌状态,相较于相关技术中服务器基于选择指令确定主播用户是否处于唱歌状态,该方法提高了对主播用户的唱歌状态确定的可靠性以及准确度。

可选的,合成模块1202,用于:

按照预设切片时长内每个视频片段的接收时间顺序,将视频片段的索引存储至索引文件中。

获取到目标数量个视频片段,且将在目标数量个视频片段之后获取到的一个视频片段的索引存储至索引文件后,将索引文件中所记录的多个索引所指示的多个视频片段合成,得到一个目标视频文件。

若再次获取到一个视频片段,删除索引文件中记录的第一个索引,并将再次获取到的一个视频片段的索引存储至索引文件中。

可选的,参考图13,所述装置还包括:

第二获取模块1205,用于在接收主播客户端发送的视频流之前,获取多个样本视频文件,该每个样本视频文件包括多个视频片段样本。

第二提取模块1206,用于提取每个样本视频文件的综合特征样本,得到多个综合特征样本。

训练模块1207,用于对多个综合特征样本和多个综合特征样本的属性信息进行训练得到分类器,该属性信息用于标识样本视频文件中的主播用户是否为唱歌状态。

可选的,参考图14,该装置还包括:

第一确定模块1208,用于基于在第一时长内确定的主播用户的多个唱歌状态,确定主播用户的第一用户标签,该第一用户标签用于指示主播用户的唱歌频率,该多个唱歌状态是根据在第一时长内获取到的多个目标视频文件得到的。

显示模块1209,用于在视频直播客户端的显示页面显示主播用户的第一用户标签。

可选的,参考图14,装置还包括:

第三获取模块1210,用于在确定主播用户的用户标签之后,获取在第二时长内观看用户的历史观看记录。

第二确定模块1211,用于基于历史观看记录确定观看用户的第二用户标签,第二用户标签用于指示观看用户观看唱歌视频的频率。

第三确定模块1212,用于基于各个主播用户的第一用户标签和观看用户的第二用户标签,从各个主播用户中确定至少一个推荐主播用户。

推荐模块1213,用于向视频直播客户端推荐至少一个推荐主播用户的直播视频。

可选的,推荐模块1213,用于:

将观看用户的第二用户标签和至少一个推荐主播用户的标识输入排序模型。

根据排序模型输出的排序结果,向视频直播客户端推荐至少一个推荐主播用户的直播视频。

综上所述,本公开实施例提供了一种唱歌状态识别装置,服务器可以根据接收到的主播客户端发送的视频流,获取预设切片时长的视频片段。之后可以获取目标数量个视频片段,并将在目标数量个视频片段之后获取到的每个视频片段,与在该视频片段之前获取到的目标数量个视频片段合成,得到一个目标视频文件。之后提取该目标视频文件的综合特征,采用分类器对综合特征进行处理并输出处理结果,并根据该处理结果确定该主播用户是否处于唱歌状态。由于服务器可以基于分类器确定主播用户是否处于唱歌状态,相较于相关技术中服务器基于选择指令确定主播用户是否处于唱歌状态,该方法提高了对主播用户的唱歌状态确定的可靠性以及准确度。

所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

本公开实施例提供了一种唱歌状态识别装置,包括:存储器,处理器及存储在存储器上的计算机程序,该处理器执行计算机程序时可以实现如上述实施例所提供的唱歌状态识别方法。

本公开实施例提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当该指令在计算机上运行时,使得计算机执行如上述实施例所提供的唱歌状态识别方法。

以上所述仅为本公开的可选实施例,并不用以限制本公开,凡在本公开的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。


技术特征:

1.一种唱歌状态识别方法,其特征在于,所述方法包括:

接收主播客户端发送的视频流,每隔预设切片时长切分所述视频流,获取所述预设切片时长的视频片段;

获取目标数量个所述视频片段,将在所述目标数量个视频片段之后获取到的每个所述视频片段,与在所述视频片段之前获取到的所述目标数量个视频片段合成,得到一个目标视频文件,所述目标视频文件时间长度为固定值;

提取所述目标视频文件的综合特征,所述综合特征包括音频特征,音频文本特征,及图像特征;

采用分类器对所述综合特征进行处理并输出处理结果,所述处理结果用于指示所述主播用户的唱歌状态。

2.根据权利要求1所述的方法,其特征在于,所述在获取到目标数量个所述视频片段后,将后续获取到的每个所述视频片段与在所述视频片段之前获取到的所述目标数量个视频片段合成,得到一个目标视频文件,包括:

按照所述预设切片时长内每个所述视频片段的接收时间顺序,将所述视频片段的索引存储至索引文件中;

获取到目标数量个视频片段,且将在目标数量个所述视频片段之后获取到的一个视频片段的索引存储至所述索引文件后,将所述索引文件中所记录的多个索引所指示的多个视频片段合成,得到一个目标视频文件;

若再次获取到一个视频片段,删除所述索引文件中记录的第一个索引,并将再次获取到的所述一个视频片段的索引存储至所述索引文件中。

3.根据权利要求1所述的方法,其特征在于,在接收主播客户端发送的视频流之前,所述方法还包括:

获取多个样本视频文件,每个所述样本视频文件包括多个视频片段样本;

提取每个所述样本视频文件的综合特征样本,得到多个所述综合特征样本;

对多个所述综合特征样本和多个所述综合特征样本的属性信息进行训练得到分类器,所述属性信息用于标识所述样本视频文件中的主播用户是否为唱歌状态。

4.根据权利要求1至3任一所述的方法,其特征在于,所述方法还包括:

基于在第一时长内确定的所述主播用户的多个唱歌状态,确定所述主播用户的第一用户标签,所述第一用户标签用于指示所述主播用户的唱歌频率,所述多个唱歌状态根据在所述第一时长内获取到的多个所述目标视频文件得到;

在视频直播客户端的显示页面显示所述主播用户的第一用户标签。

5.根据权利要求4所述的方法,其特征在于,在确定所述主播用户的用户标签之后,所述方法还包括:

获取在第二时长内观看用户的历史观看记录;

基于所述历史观看记录确定所述观看用户的第二用户标签,所述第二用户标签用于指示所述观看用户观看唱歌视频的频率;

基于各个所述主播用户的第一用户标签和所述观看用户的第二用户标签,从各个所述主播用户中确定至少一个推荐主播用户;

向所述视频直播客户端推荐所述至少一个推荐主播用户的直播视频。

6.根据权利要求5所述的方法,其特征在于,所述向所述视频直播客户端推荐所述至少一个备选主播用户的直播视频,包括:

将所述观看用户的第二用户标签和所述至少一个推荐主播用户的标识输入排序模型;

根据所述排序模型输出的排序结果,向所述视频直播客户端推荐所述至少一个推荐主播用户的直播视频。

7.一种唱歌状态识别装置,其特征在于,所述装置包括:

第一获取模块,用于接收主播客户端发送的视频流,每隔预设切片时长切分所述视频流,获取所述预设切片时长的视频片段;

合成模块,用于获取目标数量个所述视频片段,将在目标数量个所述视频片段之后获取到的每个所述视频片段与在所述视频片段之前获取到的所述目标数量个视频片段合成,得到一个目标视频文件,所述目标视频文件时间长度为固定值;

第一提取模块,用于提取所述目标视频文件的综合特征,所述综合特征包括音频特征,音频文本特征,及图像特征;

处理模块,用于采用分类器对所述综合特征进行处理并输出处理结果,所述处理结果用于指示所述主播用户的唱歌状态。

8.根据权利要求7所述的装置,其特征在于,所述合成模块,用于:

按照所述预设切片时长内每个所述视频片段的接收时间顺序,将所述视频片段的索引存储至索引文件中;

获取到目标数量个视频片段,且将在所述目标数量个视频片段之后获取到的一个视频片段的索引存储至所述索引文件后,将所述索引文件中所记录的多个索引所指示的多个视频片段合成,得到一个目标视频文件;

若再次获取到一个视频片段,删除所述索引文件中记录的第一个索引,并将再次获取到的所述一个视频片段的索引存储至所述索引文件中。

9.一种唱歌状态识别装置,其特征在于,包括:存储器,处理器及存储在所述存储器上的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1至6任一所述的唱歌状态识别方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行如权利要求1至6任一所述的唱歌状态识别方法。

技术总结
本申请公开了一种唱歌状态识别方法及装置,属于视频直播领域。该方法包括接收主播客户端发送的视频流,每隔预设切片时长切分视频流,获取预设切片时长的视频片段;获取目标数量个视频片段,将在目标数量个视频片段之后获取到的每个视频片段,与在视频片段之前获取到的目标数量个视频片段合成,得到一个目标视频文件;提取目标视频文件的综合特征;采用分类器对综合特征进行处理并输出处理结果,该处理结果用于指示主播用户的唱歌状态。本申请服务器可以基于分类器确定主播用户是否处于唱歌状态,提高了对主播用户的唱歌状态确定的可靠性以及准确度。

技术研发人员:杨跃;董治;李深远
受保护的技术使用者:腾讯音乐娱乐科技(深圳)有限公司
技术研发日:2020.02.26
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-16156.html

最新回复(0)