本发明涉及媒体领域,具体涉及一种智能处理图文方法以及处理图文系统。
背景技术:
如何将媒体领域涉及到图文的自动处理过程组合成一套自动化的装置一直是比较欠缺的,现有的同类产品往往只能实现某一个特定功能,效率比较低,且个别步骤需人力协助完成,造成不必要的资金浪费,同时,由于人工存在一定的误差及错误率,致使处理后的内容在精确度及错误率上,误差较大。
技术实现要素:
本发明要解决的技术问题是提供一种智能处理图文方法,能够将人工智能技术应用到媒体图文内容处理领域,极大地提升了处理的效率,同时节约了大量的人力资源,极大地提升了图文内容的质量,用以解决现有技术导致的缺陷。
本发明还提供一种智能处理图文系统。
为解决上述技术问题本发明提供以下的技术方案:一种智能处理图文方法,其中,包括以下步骤:
步骤一:通过创建爬虫框架爬取各大开源媒体网站的最新图文数据;
步骤二:处理该图文数据将重复内容删除并提取关键词,计算该图文数据中各文章的相似度并对相似度高的文章进行标记;
步骤三:提取该图文数据中文章的语义进行频道的分配;
步骤四:对分配好的文章进行过滤;
步骤五:依据文章中的图片进行打分并选取分数前三的图片,当图片少于三张时选择分数最高的一张图片,对该图片进行图像处理生成高质量的封面;
步骤六:对文章中的图片增加水印,将文章、图片、封片、关键词整合形成图文处理数据;
步骤七:对该图文处理数据进行审核与分类;
步骤八:依据分类后的图文数据推荐至相应的用户端。
一种智能处理图文系统,其中,包括爬虫模块、存储模块、处理模块、审核模块;
所述爬虫模块用于爬取各大开源媒体网站的最新图文内容并整理成图文数据,所述图文数据所为原始数据传输至所述存储模块;
所述存储模块用于接收、存储所述图文数据并将所述图文数据传输至所述处理模块;
所述处理模块用于接收、处理所述图文数据并生成分别传输至所述审核模块、所述存储模块的图文处理数据;
所述审核模块用于接收、审核所述图文处理数据,并上线传输至用户端。
上述的一种智能处理图文系统,其中,所述处理模块包括依次连接的去重模块、关键词提取模块、相似度标记模块、分配模块、过滤模块、封面选取模块、加水印模块、整合模块;
所述去重模块用于删除所述图文数据中重复的文章;
所述关键词提取模块用于提取所述文章中的关键词;
所述相似度标记模块用于标记每篇所述文章之间的相似度值;
所述分配模块用于依据所述文章中的语义进行分配:
所述过滤模块用于对所述文章进行过滤;
所述封面选取模块用于选取文章中分数较高的前三张图片或分数最高的一张图片作为封面;
所述加水印模块用于对所述文章中的图片进行加水印;
所述整合模块用于将所述关键词、所述文章、所述封面、所述图片整合形成图文处理数据。
依据上述本发明一种智能处理图文方法以及处理图文系统提供的技术方案效果是:将人工智能技术应用到媒体图文内容处理领域,极大地提升了处理的效率,同时节约了大量的人力资源,极大地提升了图文内容的质量。
附图说明
图1为本发明一种智能处理图文方法的流程图;
图2为本发明一种智能处理图文系统结构示意图。
其中,附图标记如下:爬虫模块101、存储模块102、处理模块103、审核模块104。
具体实施方式
为了使发明实现的技术手段、创造特征、达成目的和功效易于明白了解,下结合具体图示,进一步阐述本发明。
本发明的一较佳实施例是提供一种智能处理图文方法以及处理图文系统,目的是将人工智能技术应用到媒体图文内容处理领域,极大地提升了处理的效率,同时节约了大量的人力资源,极大地提升了图文内容的质量。
如图1所示,一种智能处理图文方法,其中,包括以下步骤:
步骤一:通过创建爬虫框架爬取各大开源媒体网站的最新图文数据;
步骤二:处理该图文数据将重复内容删除并提取关键词,计算该图文数据中各文章的相似度并对相似度高的文章进行标记;
步骤三:提取该图文数据中文章的语义进行频道的分配;
步骤四:对分配好的文章进行过滤;
步骤五:依据文章中的图片进行打分并选取分数前三的图片,当图片少于三张时选择分数最高的一张图片,对该图片进行图像处理生成高质量的封面;
步骤六:对文章中的图片增加水印,将文章、图片、封片、关键词整合形成图文处理数据;
步骤七:对该图文处理数据进行审核与分类;
步骤八:依据分类后的图文数据推荐至相应的用户端。
如图2所示,一种智能处理图文系统,包括爬虫模块101、存储模块102、处理模块103、审核模块104,其中处理模块103为人工智能处理模块103;
爬虫模块101用于爬取各大开源媒体网站的最新图文内容并整理成图文数据,图文数据所为原始数据传输至存储模块102;
存储模块102用于接收、存储图文数据并将图文数据传输至处理模块103;
处理模块103用于接收、处理图文数据并生成分别传输至审核模块104、存储模块102的图文处理数据;
审核模块104用于接收、审核图文处理数据,并上线传输至用户端。
本实施例提供的一种智能处理图文系统,采用的处理模块103包括依次连接的去重模块、关键词提取模块、相似度标记模块、分配模块、过滤模块、封面选取模块、加水印模块、整合模块;
去重模块用于删除图文数据中重复的文章;
关键词提取模块用于提取文章中的关键词;
相似度标记模块用于标记每篇文章之间的相似度值;
分配模块用于依据文章中的语义进行分配:
过滤模块用于对文章进行过滤;
封面选取模块用于选取文章中分数较高的前三张图片或分数最高的一张图片作为封面;
加水印模块用于对文章中的图片进行加水印;
整合模块用于将关键词、文章、封面、图片整合形成图文处理数据。
综上,本发明的一种智能处理图文方法以及处理图文系统,能够将人工智能技术应用到媒体图文内容处理领域,极大地提升了处理的效率,同时节约了大量的人力资源,极大地提升了图文内容的质量。
以上对发明的具体实施例进行了描述。需要理解的是,发明并不局限于上述特定实施方式,其中未尽详细描述的设备和结构应该理解为用本领域中的普通方式予以实施;本领域技术人员可以在权利要求的范围内做出各种变形或修改做出若干简单推演、变形或替换,这并不影响发明的实质内容。
1.一种智能处理图文方法,其特征在于,包括以下步骤:
步骤一:通过创建爬虫框架爬取各大开源媒体网站的最新图文数据;
步骤二:处理该图文数据将重复内容删除并提取关键词,计算该图文数据中各文章的相似度并对相似度高的文章进行标记;
步骤三:提取该图文数据中文章的语义进行频道的分配;
步骤四:对分配好的文章进行过滤;
步骤五:依据文章中的图片进行打分并选取分数前三的图片,当图片少于三张时选择分数最高的一张图片,对该图片进行图像处理生成高质量的封面;
步骤六:对文章中的图片增加水印,将文章、图片、封片、关键词整合形成图文处理数据;
步骤七:对该图文处理数据进行审核与分类;
步骤八:依据分类后的图文数据推荐至相应的用户端。
2.一种智能处理图文系统,其特征在于,包括爬虫模块、存储模块、处理模块、审核模块;
所述爬虫模块用于爬取各大开源媒体网站的最新图文内容并整理成图文数据,所述图文数据所为原始数据传输至所述存储模块;
所述存储模块用于接收、存储所述图文数据并将所述图文数据传输至所述处理模块;
所述处理模块用于接收、处理所述图文数据并生成分别传输至所述审核模块、所述存储模块的图文处理数据;
所述审核模块用于接收、审核所述图文处理数据,并上线传输至用户端。
3.如权利要求2所述的一种智能处理图文系统,其特征在于,所述处理模块包括依次连接的去重模块、关键词提取模块、相似度标记模块、分配模块、过滤模块、封面选取模块、加水印模块、整合模块;
所述去重模块用于删除所述图文数据中重复的文章;
所述关键词提取模块用于提取所述文章中的关键词;
所述相似度标记模块用于标记每篇所述文章之间的相似度值;
所述分配模块用于依据所述文章中的语义进行分配:
所述过滤模块用于对所述文章进行过滤;
所述封面选取模块用于选取文章中分数较高的前三张图片或分数最高的一张图片作为封面;
所述加水印模块用于对所述文章中的图片进行加水印;
所述整合模块用于将所述关键词、所述文章、所述封面、所述图片整合形成图文处理数据。
技术总结