一种基于LDA模型的新闻自动标签方法与流程

专利2022-06-29  58


本发明属于新闻自动标签技术领域,尤其涉及一种基于lda模型的新闻自动标签方法。



背景技术:

新闻,是指报纸、电台、电视台、互联网等媒体经常使用的记录与传播信息的一种文体,是反映时代的一种文体。新闻概念有广义与狭义之分。广义上:除了发表于报刊、广播、互联网、电视上的评论与专文外的常用文本都属于新闻,包括消息、通讯、特写、速写(有的将速写纳入特写之列)等等;狭义上:消息是用概括的叙述方式,以较简明扼要的文字,迅速及时地报道附近新近发生的、有价值的事实,使一定人群了解。新闻一般包括标题、导语、主体、背景和结语五部分。前三者是主要部分,后二者是辅助部分。写法以叙述为主兼或有议论、描写、评论等。新闻是包含海量资讯的新闻服务平台,真实反映每时每刻的重要事件。您可以搜索新闻事件、热点话题、人物动态、产品资讯等,快速了解它们的最新进展。然而,现有基于lda模型的新闻自动标签方法不能直接抽取新闻发布时间等其他关键信息,并存在耗费大量人力且易失效等特点;同时,不能推荐那些从来没有被同类中其他用户访问过的信息,难以解决冷启动问题、数据稀疏性问题及可扩展性问题。

综上所述,现有技术存在的问题是:现有基于lda模型的新闻自动标签方法不能直接抽取新闻发布时间等其他关键信息,并存在耗费大量人力且易失效等特点;同时,不能推荐那些从来没有被同类中其他用户访问过的信息,难以解决冷启动问题、数据稀疏性问题及可扩展性问题。



技术实现要素:

针对现有技术存在的问题,本发明提供了一种基于lda模型的新闻自动标签方法。

本发明是这样实现的,一种基于lda模型的新闻自动标签方法包括以下步骤:

步骤一,提取新闻数据集中的新闻簇,其中,新闻数据集由多个新闻记录组成,一个新闻簇包括至少两个新闻记录;

步骤二,提取出的多个新闻簇中的热点新闻簇;提取热点新闻簇中各新闻记录的关键字;

步骤三,生成由一个新闻记录的至少两个关键字组合的组合词,其中,一个新闻记录对应一个或多个组合词;以及根据组合词的热度值生成新闻热点自动标签;

步骤四,将需要进行新闻热点自动标签的文本进行预处理;其中预处理的方式至少包括中文分词、去停用词;

步骤五,利用lda模型对预处理后的文本进行建模,计算文本中每个词项的词项权重;

步骤六,根据计算所得的词项权重,从预处理后的文本中采样每一个主题;在预处理后的文本中,分别计算文档-主题分布和主题-词分布;通过主题-词分布,计算采样得到的每个主题的主题权重;

步骤七,根据每个主题的主题权重计算主题词间权重,选出符合的主题词;获取主题编号,输出新闻主题标签;

步骤八,抽取新闻关键信息;

步骤九,推荐新闻信息。

进一步,所述新闻抽取方法如下:

(1)输入欲抽取新闻站点栏目的统一资源定位符;

(2)生成目标链接样式正则表达式;

(3)下载新闻站点栏目url对应的网页源代码;

(4)提取网页中所有链接,通过新闻链接样式正则表达式过滤出得到新闻链接;

所述步骤(4)具体为:新闻链接一般存在于<frame>、<a>标签中,只要在html源代码中过滤出这两个标签就可以缩小标签查找的范围,简化链接抽取的网页源代码,所以在链接抽取的代码中定义了链接过滤器linkfilter;为了更好地在网页源代码中寻找固定标签,在过滤标签之前将源代码解析成节点树(dom),然后通过链接过滤器过滤出链接标签;具体采用算法getnewsurls实现;

(5)将步骤(4)得到的新闻链接插入到待抽取的新闻页面url队列;

(6)下载新闻页面url对应的网页源代码,抽取网页的新闻关键信息,包括基于标签与分块特征的正文块抽取算法,基于编辑距离的新闻标题抽取,基于分块特征的新闻时间、来源抽取;

设基于标签与分块特征的正文块抽取算法中预处理后的新闻网页w由多个标签块b组成,w={b1,b2,b3,...,bn},对每一个标签块中的具体信息做统计,得到bi={nb,nlt,nl,np,nt,ntag};其中nb表示一个标签块中包含的子标签块数;npt是该标签块中的非链接标签内文本数,整个标签块中的文本数包括链接标签内的文本数记为nt;nl表示标签块中的链接数,其对应的链接文本数为nlt;np表示该标签块中p标签的数量;ntag是标签块中所有的标签总数;

w对应的dom树为t,遍历树t,计算t中每一个元素节点及其子节点的特征属性,并以键值对的形式保存节点与其属性实体的对应关系;计算节点文本数时,根据标签名用所有文本数减去链接标签中的文本数(npt=nt-nlt),同时不对链接标签计数以排除链接及其中的文本对计算文本-标签比的影响,其中文本-标签密度比为density=npt/(ntag-nl);计算b中文本长度的平均值(var),设b中的文本节点1,2,3,...n,i为文本节点中的任一节点,li表示该文本节点的文本长度;标签块文本平均数计算公式如下:

标签块特征分数计算公式如下:

根据以上公式对树t的所有标签块算分,最后以分数最大值定位到正文元素块。

进一步,所述新闻推荐方法如下:

1)新闻抓取:通过爬虫工具,抓取新闻网页地址,下载新闻标题及新闻内容,并将新闻存储到数据库新闻表中;

2)新闻预处理:对新闻进行分词处理,只保留名词;去掉无效新闻,并将有效新闻的分词结果存储到数据库新闻表中;

3)新闻模型训练:采用基于gibbssampling的lda算法进行主题模型的训练,建立主题模型;

4)新闻特征建模:进行新闻特征提取,建立新闻特征模型,新闻特征模型由新闻标签模型nt和新闻主题特征模型nl组成,即n={nt,nl};

5)用户特征初步建模:进行用户特征提取,建立用户画像,对用户特征进行初步建模;

6)用户特征二次建模:基于步骤五用户特征初步建模结果,对用户特征进行二次精确建模,建立用户兴趣模型u;用户兴趣模型u由用户兴趣关键词模型ut和用户兴趣主题特征模型ul组成,即u={ut,ul};

7)相似度计算:基于上述步骤四至步骤六提取的新闻特征和用户特征,进行新闻特征模型和用户兴趣模型的融合匹配度计算;

8)新闻推荐。

本发明的优点及积极效果为:本发明通过提供的新闻抽取方法根据分析中文新闻网页的标签和分块特征,提出了一种标签块定位方法;不需要人工参与,解决了传统的新闻关键信息抽取需要构造模板的问题;通过标签块定位,缩小了抽取新闻发布时间和来源的范围,并通过分析提炼了新闻发布时间、来源的样式,提高了抽取准确率;同时,通过提供的新闻推荐方法不仅克服了基于内容的推荐算法的项目特征提取困难的缺点,而且对用户的特征进行初步及二次提取,解决了协同过滤的推荐算法的冷启动问题;本方法利用文档相似性计算原理,在用户刷新推荐列表时,做到快速捕捉用户的兴趣点,做到实时准确的推荐。

附图说明

图1是本发明实施提供的基于lda模型的新闻自动标签方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

下面结合附图对本发明的应用原理作进一步描述。

如图1所示,本发明提供一种基于lda模型的新闻自动标签方法包括以下步骤:

步骤s101,提取新闻数据集中的新闻簇,其中,新闻数据集由多个新闻记录组成,一个新闻簇包括至少两个新闻记录;

步骤s102,提取出的多个新闻簇中的热点新闻簇;提取热点新闻簇中各新闻记录的关键字;

步骤s103,生成由一个新闻记录的至少两个关键字组合的组合词,其中,一个新闻记录对应一个或多个组合词;以及根据组合词的热度值生成新闻热点自动标签;

步骤s104,将需要进行新闻热点自动标签的文本进行预处理;其中预处理的方式至少包括中文分词、去停用词;

步骤s105,利用lda模型对预处理后的文本进行建模,计算文本中每个词项的词项权重;

步骤s106,根据计算所得的词项权重,从预处理后的文本中采样每一个主题;在预处理后的文本中,分别计算文档-主题分布和主题-词分布;通过主题-词分布,计算采样得到的每个主题的主题权重;

步骤s107,根据每个主题的主题权重计算主题词间权重,选出符合的主题词;获取主题编号,输出新闻主题标签;

步骤s108,抽取新闻关键信息;

步骤s109,推荐新闻信息。

本发明提供的新闻抽取方法如下:

(1)输入欲抽取新闻站点栏目的统一资源定位符;

(2)生成目标链接样式正则表达式;

(3)下载新闻站点栏目url对应的网页源代码;

(4)提取网页中所有链接,通过新闻链接样式正则表达式过滤出得到新闻链接;

所述步骤(4)具体为:新闻链接一般存在于<frame>、<a>标签中,只要在html源代码中过滤出这两个标签就可以缩小标签查找的范围,简化链接抽取的网页源代码,所以在链接抽取的代码中定义了链接过滤器linkfilter;为了更好地在网页源代码中寻找固定标签,在过滤标签之前将源代码解析成节点树(dom),然后通过链接过滤器过滤出链接标签;具体采用算法getnewsurls实现;

(5)将步骤(4)得到的新闻链接插入到待抽取的新闻页面url队列;

(6)下载新闻页面url对应的网页源代码,抽取网页的新闻关键信息,包括基于标签与分块特征的正文块抽取算法,基于编辑距离的新闻标题抽取,基于分块特征的新闻时间、来源抽取;

设基于标签与分块特征的正文块抽取算法中预处理后的新闻网页w由多个标签块b组成,w={b1,b2,b3,...,bn},对每一个标签块中的具体信息做统计,得到bi={nb,nlt,nl,np,nt,ntag};其中nb表示一个标签块中包含的子标签块数;npt是该标签块中的非链接标签内文本数,整个标签块中的文本数包括链接标签内的文本数记为nt;nl表示标签块中的链接数,其对应的链接文本数为nlt;np表示该标签块中p标签的数量;ntag是标签块中所有的标签总数;

w对应的dom树为t,遍历树t,计算t中每一个元素节点及其子节点的特征属性,并以键值对的形式保存节点与其属性实体的对应关系;计算节点文本数时,根据标签名用所有文本数减去链接标签中的文本数(npt=nt-nlt),同时不对链接标签计数以排除链接及其中的文本对计算文本-标签比的影响,其中文本-标签密度比为density=npt/(ntag-nl);计算b中文本长度的平均值(var),设b中的文本节点1,2,3,...n,i为文本节点中的任一节点,li表示该文本节点的文本长度;标签块文本平均数计算公式如下:

标签块特征分数计算公式如下:

根据以上公式对树t的所有标签块算分,最后以分数最大值定位到正文元素块。

本发明提供的新闻推荐方法如下:

1)新闻抓取:通过爬虫工具,抓取新闻网页地址,下载新闻标题及新闻内容,并将新闻存储到数据库新闻表中;

2)新闻预处理:对新闻进行分词处理,只保留名词;去掉无效新闻,并将有效新闻的分词结果存储到数据库新闻表中;

3)新闻模型训练:采用基于gibbssampling的lda算法进行主题模型的训练,建立主题模型;

4)新闻特征建模:进行新闻特征提取,建立新闻特征模型,新闻特征模型由新闻标签模型nt和新闻主题特征模型nl组成,即n={nt,nl};

5)用户特征初步建模:进行用户特征提取,建立用户画像,对用户特征进行初步建模;

6)用户特征二次建模:基于步骤五用户特征初步建模结果,对用户特征进行二次精确建模,建立用户兴趣模型u;用户兴趣模型u由用户兴趣关键词模型ut和用户兴趣主题特征模型ul组成,即u={ut,ul};

7)相似度计算:基于上述步骤四至步骤六提取的新闻特征和用户特征,进行新闻特征模型和用户兴趣模型的融合匹配度计算;

8)新闻推荐。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。


技术特征:

1.一种基于lda模型的新闻自动标签方法,其特征在于,所述基于lda模型的新闻自动标签方法包括以下步骤:

步骤一,提取新闻数据集中的新闻簇,其中,新闻数据集由多个新闻记录组成,一个新闻簇包括至少两个新闻记录;

步骤二,提取出的多个新闻簇中的热点新闻簇;提取热点新闻簇中各新闻记录的关键字;

步骤三,生成由一个新闻记录的至少两个关键字组合的组合词,其中,一个新闻记录对应一个或多个组合词;以及根据组合词的热度值生成新闻热点自动标签;

步骤四,将需要进行新闻热点自动标签的文本进行预处理;其中预处理的方式至少包括中文分词、去停用词;

步骤五,利用lda模型对预处理后的文本进行建模,计算文本中每个词项的词项权重;

步骤六,根据计算所得的词项权重,从预处理后的文本中采样每一个主题;在预处理后的文本中,分别计算文档-主题分布和主题-词分布;通过主题-词分布,计算采样得到的每个主题的主题权重;

步骤七,根据每个主题的主题权重计算主题词间权重,选出符合的主题词;获取主题编号,输出新闻主题标签;

步骤八,抽取新闻关键信息;

步骤九,推荐新闻信息。

2.如权利要求1所述的基于lda模型的新闻自动标签方法,其特征在于,所述新闻抽取方法如下:

(1)输入欲抽取新闻站点栏目的统一资源定位符;

(2)生成目标链接样式正则表达式;

(3)下载新闻站点栏目url对应的网页源代码;

(4)提取网页中所有链接,通过新闻链接样式正则表达式过滤出得到新闻链接;

所述步骤(4)具体为:新闻链接一般存在于<frame>、<a>标签中,只要在html源代码中过滤出这两个标签就可以缩小标签查找的范围,简化链接抽取的网页源代码,所以在链接抽取的代码中定义了链接过滤器linkfilter;为了更好地在网页源代码中寻找固定标签,在过滤标签之前将源代码解析成节点树(dom),然后通过链接过滤器过滤出链接标签;具体采用算法getnewsurls实现;

(5)将步骤(4)得到的新闻链接插入到待抽取的新闻页面url队列;

(6)下载新闻页面url对应的网页源代码,抽取网页的新闻关键信息,包括基于标签与分块特征的正文块抽取算法,基于编辑距离的新闻标题抽取,基于分块特征的新闻时间、来源抽取;

设基于标签与分块特征的正文块抽取算法中预处理后的新闻网页w由多个标签块b组成,w={b1,b2,b3,...,bn},对每一个标签块中的具体信息做统计,得到bi={nb,nlt,nl,np,nt,ntag};其中nb表示一个标签块中包含的子标签块数;npt是该标签块中的非链接标签内文本数,整个标签块中的文本数包括链接标签内的文本数记为nt;nl表示标签块中的链接数,其对应的链接文本数为nlt;np表示该标签块中p标签的数量;ntag是标签块中所有的标签总数;

w对应的dom树为t,遍历树t,计算t中每一个元素节点及其子节点的特征属性,并以键值对的形式保存节点与其属性实体的对应关系;计算节点文本数时,根据标签名用所有文本数减去链接标签中的文本数(npt=nt-nlt),同时不对链接标签计数以排除链接及其中的文本对计算文本-标签比的影响,其中文本-标签密度比为density=npt/(ntag-nl);计算b中文本长度的平均值(var),设b中的文本节点1,2,3,...n,i为文本节点中的任一节点,li表示该文本节点的文本长度;标签块文本平均数计算公式如下:

标签块特征分数计算公式如下:

根据以上公式对树t的所有标签块算分,最后以分数最大值定位到正文元素块。

3.如权利要求1所述的基于lda模型的新闻自动标签方法,其特征在于,所述新闻推荐方法如下:

1)新闻抓取:通过爬虫工具,抓取新闻网页地址,下载新闻标题及新闻内容,并将新闻存储到数据库新闻表中;

2)新闻预处理:对新闻进行分词处理,只保留名词;去掉无效新闻,并将有效新闻的分词结果存储到数据库新闻表中;

3)新闻模型训练:采用基于gibbssampling的lda算法进行主题模型的训练,建立主题模型;

4)新闻特征建模:进行新闻特征提取,建立新闻特征模型,新闻特征模型由新闻标签模型nt和新闻主题特征模型nl组成,即n={nt,nl};

5)用户特征初步建模:进行用户特征提取,建立用户画像,对用户特征进行初步建模;

6)用户特征二次建模:基于步骤五用户特征初步建模结果,对用户特征进行二次精确建模,建立用户兴趣模型u;用户兴趣模型u由用户兴趣关键词模型ut和用户兴趣主题特征模型ul组成,即u={ut,ul};

7)相似度计算:基于上述步骤四至步骤六提取的新闻特征和用户特征,进行新闻特征模型和用户兴趣模型的融合匹配度计算;

8)新闻推荐。

技术总结
本发明属于新闻自动标签技术领域,公开了一种基于LDA模型的新闻自动标签方法。本发明通过提供的新闻抽取方法根据分析中文新闻网页的标签和分块特征,提出了一种标签块定位方法;不需要人工参与,解决了传统的新闻关键信息抽取需要构造模板的问题;通过标签块定位,缩小了抽取新闻发布时间和来源的范围,并通过分析提炼了新闻发布时间、来源的样式,提高了抽取准确率;同时,通过提供的新闻推荐方法不仅克服了基于内容的推荐算法的项目特征提取困难的缺点,而且对用户的特征进行初步及二次提取,解决了协同过滤的推荐算法的冷启动问题;本方法利用文档相似性计算原理,在用户刷新推荐列表时,做到快速捕捉用户的兴趣点,做到实时准确的推荐。

技术研发人员:徐然婷;刘一鸣;李焱
受保护的技术使用者:山东劳动职业技术学院(山东劳动技师学院)
技术研发日:2020.01.15
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-24532.html

最新回复(0)