一种音频热点内容自动化标签生成方法与流程

专利2022-06-29  93


本发明涉及大数据及人工智能技术领域,尤其涉及一种基于热点内容画像系统的音频热点内容自动化标签生成方法。



背景技术:

随着移动互联网的蓬勃发展,人们获取信息的渠道越来越多样化。声音相关信作为人们主要获取信息的关键渠道。数字化的生活,导致人们产生、消费音频内容越来越多,为了让人们更加便捷的寻找到想要的音频内容,音频相关的推荐技术便随而生。对于音频相关的推荐,热点内容是最受欢迎的类目之一,而热点类目相关热点的标识,是推荐系统进行推荐的重要依据之一。

由于音频平台的特殊性,相关内容均为音频,热点相关的标签一般是通过对标题进行人工标注,具体如下:人工采集外部热点信息;人工提取出热点信息相关关键词;对于音频平台相关标题提取关键词;音频平台相关关键词与热点关键词进行匹配,选取相关音频。但是这种操作方法会存在如下问题:

1、音频标题并不一定很好的反应音频内容,并且很大一部分音频内容,标题并不是内容的说明,造成匹配会带来很大的困难,以及准确度的丢失;

2、需要消耗大量人力资源,并且是否属于热点信息,受个人主观判断影响比较大。

因此,针对音频内容的特殊性,设计一种基于热点内容画像系统的音频热点内容自动化标签生成方法具有重要意义。



技术实现要素:

本发明旨在至少在一定程度上解决现有相关技术中存在的问题之一,为此,本发明提出一种音频热点内容自动化标签生成方法,其实现了基于热点内容画像系统对音频内容进行自动化标签,有效提升了提高音频内容标签的精准度,同时利于降低人工成本。

根据上述提供的一种音频热点内容自动化标签生成方法,其通过如下技术方案来实现:

一种音频热点内容自动化标签生成方法,包括步骤:

s1:抓取热搜文章及其相关信息,构建热点内容画像系统;

s2:构建音频内容画像系统;

s3:计算热点内容与音频内容相似度;

s4:将计算所得的相似度与至少一个参考值进行比较,基于比较结果确定是否对音频内容设置对应标签;

s5:将设置有对应标签的音频内容储存于音频热点内容数据库中。

在一些实施方式中,在步骤s1中,所述抓取热搜文章及其相关信息,构建热点内容画像系统,包括:

s11:抓取热搜文章及其相关信息,构建热点文本数据库;

s12:对热点文本数据库中每篇文章进行文章分词,并将文章分词结果存储于文章分词表中;

s13:将热点文本的文章分词转化为文章词频向量,并将文章词频向量结果存储于文章词频向量表中;

s14:以文章id为主键,关联热搜文章相关的文章分词表、文章词频向量表、阅读量、点赞量、转发量、评论量和发布时间,得到热点内容画像系统。

在一些实施方式中,在步骤s11中,所述抓取热搜文章及其相关信息,其通过从百度热搜榜、微博热搜榜和微信搜索热词榜中至少一个热搜平台获取热搜文章,抓取每篇热搜文章的阅读量、点赞量、转发量、评论量和发布时间。

在一些实施方式中,在步骤s12中,所述对热点文本数据库中每篇文章进行文章分词,其通过使用正向最大匹配法,对热点文本数据库中每篇文章的标题和正文进行分词操作,得到文章标题分词和文章正文分词。

在一些实施方式中,在步骤s13中,所述将文章分词转化为文章词频向量包括:合并文章标题分词中的相关词,以及文章正文分词中的相关词;分别计算合并后文章标题分词和文章正文分词的每个词的词频;将文章标题分词的词频和文章正文分词的词频分别转化为文章标题词频向量和文章正文词频向量。

在一些实施方式中,在步骤s2中,所述构建音频内容画像系统包括:

s21:将音频转化为音频文本,并将音频文本存储于音频文本数据库;

s22:对音频文本进行音频分词,并将音频分词结果存储于音频分词表中;

s23:将音频文本的音频分词转化为音频词频向量,并将音频词频向量结果存储于音频词频向量表中;

s24:以音频id为主键,基于音频分词表和音频词频向量表,构建音频内容画像系统。

在一些实施方式中,在步骤s22中,所述对音频进行音频分词,其通过使用正向最大匹配法,对音频文本数据库中音频文本的相关标题和正文进行分词操作,得到音频标题分词和音频正文分词。

在一些实施方式中,在步骤s23中,所述将音频文本的音频分词转化为音频词频向量包括:合并音频标题分词中的相关词,以及音频正文分词中的相关词;分别计算合并后音频标题分词和音频正文分词的每个词的词频;将音频标题分词的词频和音频正文分词的词频分别转化为音频标题词频向量和音频正文词频向量。

在一些实施方式中,在步骤s3中,所述计算热点内容与音频内容相似度包括:

s31:从音频内容画像系统中提取音频词频向量;

s32:从热点内容画像系统中提取文章词频向量;

s33:通过计算得出所提取文章词频向量和所提取音频词频向量的相似度。

在一些实施方式中,在步骤s33中,通过公式进行计算得出相似度,其中f(x)为相似度,ai为所提取的第i个音频词频向量,bi为所提取的第i个文章词频向量。

与现有技术相比,本发明的至少包括以下有益效果:

本发明的音频热点内容自动化标签生成方法,其通过构建热点内容画像系统和音频内容画像系统,并且计算音频内容与热点内容的相似度,并基于相似度与参考值的比较结果来确定是否对音频内容进行自动化标签,从而实现了基于热点内容画像系统和大数据,客观地对音频内容进行自动化标签,有效提升了提高音频内容标签的精准度,同时利于降低人工成本。

附图说明

图1是本发明实施例中音频热点内容自动化标签生成方法的流程图;

图2是本发明实施例中搭建热点内容画像系统的流程图;

图3是本发明实施例中搭建音频内容画像系统的流程图;

图4是本发明实施例中计算热点内容与音频内容相似度的流程图。

具体实施方式

以下实施例对本发明进行说明,但本发明并不受这些实施例所限制。对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换,而不脱离本发明方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。

如图1所示,一种音频热点内容自动化标签生成方法,包括步骤:

s1:抓取热搜文章及其相关信息,构建热点内容画像系统;

具体地,热点内容画像系统包括热搜文章的文章分词表、文章词频向量表、阅读量、点赞量、转发量、评论量和发布时间等相关信息。通过使用信息抓取技术,抓取热搜文章,以及热搜文章的阅读量、点赞量、转发量、评论量和发布时间等热搜文章相关信息;将热搜文章转化为文章分词表和文章词频向量表;以文章id为主键,关联到热搜文章的文章分词表、文章词频向量表、阅读量、点赞量、转发量、评论量和发布时间等文章相关信息,完成热点内容画像系统构建。

s2:构建音频内容画像系统;

具体地,音频内容画像系统包括以文章id为主键的音频内容、音频分词表和音频词频向量表等音频相关信息。

s3:计算热点内容与音频内容相似度;

具体地,通过从热点内容画像系统中提取表征热点内容的文章词频向量,并从音频内容画像系统中提取表征音频内容的音频词频向量,通过相似度计算公式来计算文章词频向量和音频词频向量的相似度。

s4:将计算所得的相似度与至少一个参考值进行比较,基于比较结果确定是否对音频内容设置对应标签;

具体地,至少一个参考值包括用于作为判断是否对音频内进行自动化标签的预设阈值,该预设阈值由用户基于业务需求进行设置,以提升音频热点内容自动化标签的适应性和使用灵活性。将在步骤s3中计算所得的相似度与预设阈值进行比较,如果计算所得的相似度大于预设阈值,则表明该音频内容属于具有高推荐价值的热点类目,此时可对音频内容设置对应标签;如果计算所得的相似度小于等于预设阈值,则表明该音频内容的不属于热点类目,不具备推荐价值,此时放弃对该音频内容设置对应标签。由此,实现了以大数据为依据,客观地判断的是否对音频内容进行自动化标签,不仅提升了提高音频内容标签的精准度,还利于提升音频推荐的精准度和收益最大化。

s5:将设置有对应标签的音频内容储存于音频热点内容数据库中。

本实施例的音频热点内容自动化标签生成方法,其通过构建热点内容画像系统和音频内容画像系统,并且计算音频内容与热点内容的相似度,并基于相似度与参考值的比较结果来确定是否对音频内容进行自动化标签,从而实现了基于热点内容画像系统和大数据,客观地对音频内容进行自动化标签,有效提升了提高音频内容标签的精准度,进而利于提高音频推荐的精准度和音频平台的收益最大化,降低人工成本。

如图2所示,优选地,在步骤s1中,所述抓取热搜文章及其相关信息,构建热点内容画像系统,包括:

s11:抓取热搜文章及其相关信息,构建热点文本数据库;

具体地,从百度热搜榜、微博热搜榜和微信搜索热词榜中至少一个热搜平台中获取热搜文章,通过信息抓取技术,从上述热搜平台中抓取每篇热搜文章的阅读量、点赞量、转发量、评论量和发布时间等文章相关信息,将热搜文章以及所抓取到的文章相关信息存储,形成热点文本数据库。由此,通过直接从热搜平台中获取热搜文章及其文章相关信息,有效保证热点文本数据库中的每篇文章具有热点高和推荐价值高的优点,进而利于提升热点内容画像系统中数据的代表性和精准性。

s12:对热点文本数据库中每篇文章进行文章分词,并将文章分词结果存储于文章分词表中;

具体地,通过使用正向最大匹配法(fmm),分别对热点文本数据库中每篇文章的标题和正文进行分词,得到文章标题分词和文章正文分词;然后以文章id为主键,将文章标题分词和文章正文分词分别存储于数据库的文章标题分词表和文章正文分词表。在本实施例中,文章正文分词结果为:document_segment={word1,word2,word3,word4,word5…wordn};文章标题分词结果为:title_segment={word1,word2,word3,word4,word5…wordn}。可见,通过每篇热搜文章的文章标题和文章正文分别进行分词操作,利于提高数据源的精准度,有助于提升音频内容与热点内容的匹配性。

s13:将热点文本的文章分词转化为文章词频向量,并将文章词频向量结果存储于文章词频向量表中;

具体地,将热点文本的文章正文分词和文章标题分词,分别转化为对应的文章正文词频向量和文章标题词频向量,并且以文章id为主键,将文章正文词频向量和文章标题词频向量分别存储于数据库的文章正文词频向量表和文章标题词频向量表中。

s14:以文章id为主键,关联文章相关的文章分词表、文章词频向量表、阅读量、点赞量、转发量、评论量和发布时间,得到热点内容画像系统。

可见,通过将每个热搜文章的文章标题和文章正文分别进行分词操作,并且将文章正文分词和文章标题分词分别转化为对应的文章正文词频向量和文章标题词频向量,从而达到提升热点内容画像系统中数据的代表性和精准度,有效降低了音频内容与热点内容画像系统中热点内容的匹配难度。

更优选地,在步骤s13中,所述将文章分词转化为文章词频向量包括:合并文章标题分词中的相关词,以及文章正文分词中的相关词;分别计算合并后文章标题分词和文章正文分词的每个词的词频;将文章标题分词的词频和文章正文分词的词频分别转化为文章标题词频向量和文章正文词频向量。由此,通过分别统计文章标题分词和文章正文分词中每个词的词频,并将文章标题分词的词频转化为文章标题词频向量,以及将文章正文分词的词频转化为文章正文词频向量,从而实现了根据文章标题词频向量和文章正文词频向量的长度,准确地、客观地判断出用户的兴趣点。

在本实施例中,文章标题分词的词频为:title_word_count={word1count1_t1,word2count2_t2,word3count3_t3…},其中count*_d#,表示第*个词,在第#个文章中出现的次数。文章标题词频向量为:title_word_vector={count1_t1,count2_t2,count3_t3,count4_t4…}。文章正文分词的词频为:document_word_count={word1count1_d1,word2count2_d2,word3count3_d3…},其中count*_d#,表示第*个词,在第#个文章中出现的次数。文章正文词频向量为:document_word_vector={count1_d1,count2_d2,count3_d3,count4_d4…}。

如图3所示,优选地,在步骤s2中,所述构建音频内容画像系统包括:

s21:将音频转化为音频文本,并将音频文本存储于音频文本数据库;

具体地,通过自动语音识别技术(asr),将音频内容转化为音频文本,并且提取音频的相关标题,以音频id为主键,将音频文本和提取后的相关标题存储于音频文本数据库中。

s22:对音频文本进行音频分词,并将音频分词结果存储于音频分词表中;

具体地,所述对音频进行音频分词,其通过使用正向最大匹配法,分别对音频文本数据库中音频文本的相关标题和正文进行分词操作,得到音频标题分词和音频正文分词;以音频id为主键,音频标题分词和音频正文分词分别存储于数据库中的音频标题分词表和音频正文分词表。

s23:将音频文本的音频分词转化为音频词频向量,并将音频词频向量结果存储于音频词频向量表中;

具体地,分别合并音频标题分词中的相关词和音频正文分词中的相关词,分别计算合并后音频标题分词和音频正文分词的每个词的词频,将音频标题分词的词频和音频正文分词的词频分别转化为音频标题词频向量和音频正文词频向量;以音频id为主键,音频标题词频向量和音频正文词频向量分别存储于数据库中的音频标题词频向量表和音频正文词频向量表中。

s24:以音频id为主键,基于音频分词表和音频词频向量表,构建音频内容画像系统。

可见,通过分别对音频文本的相关标题和正文进行分词操作,并且分别将音频标题分词和音频正文分词转化为对应的音频标题词频向量和音频正文词频向量,便于音频内容和热点内容进行相似度计算,同时有助于提升音频内容与热点内容画像系统中热点内容的匹配精准度。

如图4所示,优选地,在步骤s3中,所述计算热点内容与音频内容相似度包括:

s31:从音频内容画像系统中提取音频词频向量;

具体地,根据业务需求和音频打开成本高低,从音频内容画像系统中提取音频正文词频向量和/或音频标题词频向量。

s32:从热点内容画像系统中提取文章词频向量;

具体地,对应的,从热点内容画像系统中提取文章正文词频向量和/或文章标题词频向量,如此可保证从两个画像系统中所提取数据符合对比要求,便于提高相似度计算结果的准确度。

s33:通过计算得出所提取文章词频向量和所提取音频词频向量的相似度。

具体地,通过公式进行计算,其中f(x)为相似度,该f(x)值越大,代表相似度越高;ai为所提取的第i个音频词频向量,bi为所提取的第i个文章词频向量。

在本实施例中,如果所提取文章词频向量和所提取音频词频向量分别为文章正文词频向量和音频正文词频向量时,则计算所得的结果为正文相似度f(document),该正文相似度f(document)用于与表征正文的预设阈值进行比较。

如果所提取文章词频向量和所提取音频词频向量分别为文章标题词频向量和音频标题词频向量时,则计算所得的结果为标题相似度f(title),该标题相似度f(title)用于与表征标题的预设阈值进行比较。

如果所提取音频词频向量为音频正文词频向量和音频标题词频向量,并且所提取文章词频向量对应为文章正文词频向量和文章标题词频向量,则通过公式分别计算得出标题相似度f(title)和正文相似度f(document);将计算所得的标题相似度f(title)与表征标题的预设阈值进行比较,以及将正文相似度f(document)与表征正文的预设阈值进行比较,结合标题比较结果和正文比较结果来确定是否对音频设置对应标签。由此,实现了以大数据为依据,客观地判断的是否对音频内容进行自动化标签,提高音频内容标签的精准度,同时利于音频精准推荐。

进一步地,计算所得的标题相似度f(title)和/或正文相似度f(document),可通过公式μ(x)=αf(title) βf(document)进行训练,其中μ(x)为同时表征标题和正文的相似度,该μ(x)值越大,代表相似度越高;α为可根据业务需求进行调整的标题超神参数,β为可根据业务需求进行调整的正文超神参数。将训练所得的μ(x)与同时表征标题和正文的预设阈值进行比较,如果μ(x)>预设阈值,则对音频内容设置对应标签;如果μ(x)≤预设阈值,则放弃对该音频内容设置对应标签。可见,通过公式μ(x)=αf(title) βf(document)对计算所得的标题相似度f(title)和/或正文相似度f(document)进行训练,从而利于简化判断步骤,提高判断效率以及音频内容标签的精准度。

以上所述的仅是本发明的一些实施方式。对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。


技术特征:

1.一种音频热点内容自动化标签生成方法,其特征在于,包括步骤:

s1:抓取热搜文章及其相关信息,构建热点内容画像系统;

s2:构建音频内容画像系统;

s3:计算热点内容与音频内容相似度;

s4:将计算所得的相似度与至少一个参考值进行比较,基于比较结果确定是否对音频内容设置对应标签;

s5:将设置有对应标签的音频内容储存于音频热点内容数据库中。

2.根据权利要求1所述的一种音频热点内容自动化标签生成方法,其特征在于,在步骤s1中,所述抓取热搜文章及其相关信息,构建热点内容画像系统,包括:

s11:抓取热搜文章及其相关信息,构建热点文本数据库;

s12:对热点文本数据库中每篇文章进行文章分词,并将文章分词结果存储于文章分词表中;

s13:将热点文本的文章分词转化为文章词频向量,并将文章词频向量结果存储于文章词频向量表中;

s14:以文章id为主键,关联热搜文章相关的文章分词表、文章词频向量表、阅读量、点赞量、转发量、评论量和发布时间,得到热点内容画像系统。

3.根据权利要求2所述的一种音频热点内容自动化标签生成方法,其特征在于,在步骤s11中,所述抓取热搜文章及其相关信息,其通过从百度热搜榜、微博热搜榜和微信搜索热词榜中至少一个热搜平台获取热搜文章,抓取每篇热搜文章的阅读量、点赞量、转发量、评论量和发布时间。

4.根据权利要求2所述的一种音频热点内容自动化标签生成方法,其特征在于,在步骤s12中,所述对热点文本数据库中每篇文章进行文章分词,其通过使用正向最大匹配法,对热点文本数据库中每篇文章的标题和正文进行分词操作,得到文章标题分词和文章正文分词。

5.根据权利要求4所述的一种音频热点内容自动化标签生成方法,其特征在于,在步骤s13中,所述将文章分词转化为文章词频向量包括:合并文章标题分词中的相关词,以及文章正文分词中的相关词;分别计算合并后文章标题分词和文章正文分词的每个词的词频;将文章标题分词的词频和文章正文分词的词频分别转化为文章标题词频向量和文章正文词频向量。

6.根据权利要求2-5中任一项所述的一种音频热点内容自动化标签生成方法,其特征在于,在步骤s2中,所述构建音频内容画像系统包括:

s21:将音频转化为音频文本,并将音频文本存储于音频文本数据库;

s22:对音频文本进行音频分词,并将音频分词结果存储于音频分词表中;

s23:将音频文本的音频分词转化为音频词频向量,并将音频词频向量结果存储于音频词频向量表中;

s24:以音频id为主键,基于音频分词表和音频词频向量表,构建音频内容画像系统。

7.根据权利要求6所述的一种音频热点内容自动化标签生成方法,其特征在于,在步骤s22中,所述对音频进行音频分词,其通过使用正向最大匹配法,对音频文本数据库中音频文本的相关标题和正文进行分词操作,得到音频标题分词和音频正文分词。

8.根据权利要求7所述的一种音频热点内容自动化标签生成方法,其特征在于,在步骤s23中,所述将音频文本的音频分词转化为音频词频向量包括:合并音频标题分词中的相关词,以及音频正文分词中的相关词;分别计算合并后音频标题分词和音频正文分词的每个词的词频;将音频标题分词的词频和音频正文分词的词频分别转化为音频标题词频向量和音频正文词频向量。

9.根据权利要求6所述的一种音频热点内容自动化标签生成方法,其特征在于,在步骤s3中,所述计算热点内容与音频内容相似度包括:

s31:从音频内容画像系统中提取音频词频向量;

s32:从热点内容画像系统中提取文章词频向量;

s33:通过计算得出所提取文章词频向量和所提取音频词频向量的相似度。

10.根据权利要求9所述的一种音频热点内容自动化标签生成方法,其特征在于,在步骤s33中,通过公式进行计算得出相似度,其中f(x)为相似度,ai为所提取的第i个音频词频向量,bi为所提取的第i个文章词频向量。

技术总结
本发明公开了一种音频热点内容自动化标签生成方法,包括步骤:S1:构建热点内容画像系统;S2:构建音频内容画像系统;S3:计算热点内容与音频内容相似度;S4:将计算所得的相似度与至少一个参考值进行比较,基于比较结果确定是否对音频内容设置对应标签;S5:将设置有对应标签的音频内容储存于音频热点内容数据库中。本发明的音频热点内容自动化标签生成方法,其实现了基于热点内容画像系统和大数据,客观地对音频内容进行自动化标签,有效提升了提高音频内容标签的精准度,同时利于降低人工成本。

技术研发人员:吴海旭;丁宁
受保护的技术使用者:广州荔支网络技术有限公司
技术研发日:2020.01.16
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-35719.html

最新回复(0)