一种基于区块链技术的语言搜索引擎系统的制作方法

专利2022-06-29  77


本发明属于语言搜索引擎技术领域,具体涉及一种基于区块链技术的语言搜索引擎系统。



背景技术:

搜索引擎,就是根据用户需求与一定算法,运用特定策略从互联网检索出制定信息反馈给用户的一门检索技术。搜索引擎依托于多种技术,如网络爬虫技术、检索排序技术、网页处理技术、大数据处理技术、自然语言处理技术等,为信息检索用户提供快速、高相关性的信息服务。搜索引擎技术的核心模块一般包括爬虫、索引、检索和排序等,同时可添加其他一系列辅助模块,以为用户创造更好的网络使用环境。

近年来,随着信息技术的飞速发展,互联网成为人们发布和获取信息的重要渠道。但互联网用户分布于全世界,互联网用户和互联网内容存在着语种的多样性和不平衡性。调查显示目前互联网上用户最多的两个语种分别是英文和中文。互联网信息的极速膨胀提供给用户海量的信息资源的同时,也带来了寻找信息的困难。

为了提高语言搜索引擎的范围,提高跨语言搜索性能,以及更精准的查找语言数据,为此我们提出一种基于区块链技术的语言搜索引擎系统。



技术实现要素:

本发明的目的在于提供一种基于区块链技术的语言搜索引擎系统,提高语言搜索引擎的范围,提高跨语言搜索性能;以及更精准的查找语言数据。

为实现上述目的,本发明提供如下技术方案:一种基于区块链技术的语言搜索引擎系统,由采集模块、翻译模块、提取模块、检索模块组成,其中,

采集模块,用于采集用户输入的语言信息;

翻译模块,用于将采集的语言信息进行翻译;

提取模块,用于对翻译后的语言数据进行关键词提取;

搜索引擎模块,用于将提取的关键词在搜索引擎中进行搜索。

作为本发明的一种优选的技术方案,还包括反馈模块,该模块用于将搜索到的结果反馈给用户。

作为本发明的一种优选的技术方案,反馈的方式为网页。

作为本发明的一种优选的技术方案,还包括标注模块,该模块标注语言查询数据,将语言数据中的概念作为种子概念;找到种子概念对应的中英文分类标签,以此为起点,并利用分类标签的母分类标签和子分类标签,以及分类标签对相关概念的包含关系和概念之间的链接关系,爬虫获得与该语言查询数据相对应的数据。

作为本发明的一种优选的技术方案,还包括判断模块,该模块用于对搜索的语言数据意图进行判断。

作为本发明的一种优选的技术方案,该系统实现通过网络爬虫抓取目录类网站,挖掘国内外网站的网址信息,通过文献翻译,将网址信息和翻译信息存储到区块链中,利用全文检索技术实现语言搜索。

作为本发明的一种优选的技术方案,还包括限制模块,该模块用于对敏感词进行限制。

作为本发明的一种优选的技术方案,还包括报警模块,该模块用于对敏感词进行报警,报警的方式为邮箱或短信。

作为本发明的一种优选的技术方案,还包括匹配模块,该模块用于对搜索的语言数据进行匹配。

与现有技术相比,本发明的有益效果是:

(1)通过网络爬虫抓取目录类网站,挖掘国内外网站的网址信息,通过文献翻译,将网址信息和翻译信息存储到区块链中,利用全文检索技术实现语言搜索,有助于提高语言搜索引擎的范围,提高跨语言搜索性能;

(2)通过设计的提取模块、判断模块、匹配模块有助于判断用户的意图,提高语音搜索数据的精确匹配。

附图说明

图1为本发明的系统图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

实施例1

请参阅图1,本发明提供一种技术方案:一种基于区块链技术的语言搜索引擎系统,由采集模块、翻译模块、提取模块、检索模块组成,其中,

采集模块,用于采集用户输入的语言信息;

翻译模块,用于将采集的语言信息进行翻译;

提取模块,用于对翻译后的语言数据进行关键词提取;

搜索引擎模块,用于将提取的关键词在搜索引擎中进行搜索。

本实施例中,优选的,还包括反馈模块,该模块用于将搜索到的结果反馈给用户,反馈的方式为网页,方便用户查看反馈的数据。

本实施例中,优选的,还包括标注模块,该模块标注语言查询数据,将语言数据中的概念作为种子概念;找到种子概念对应的中英文分类标签,以此为起点,并利用分类标签的母分类标签和子分类标签,以及分类标签对相关概念的包含关系和概念之间的链接关系,爬虫获得与该语言查询数据相对应的数据。

本实施例中,优选的,还包括判断模块,该模块用于对搜索的语言数据意图进行判断,提高搜索数据的精确度。

本实施例中,优选的,该系统实现通过网络爬虫抓取目录类网站,挖掘国内外网站的网址信息,通过文献翻译,将网址信息和翻译信息存储到区块链中,利用全文检索技术实现语言搜索。

本实施例中,优选的,还包括限制模块,该模块用于对敏感词进行限制。

本实施例中,优选的,还包括报警模块,该模块用于对敏感词进行报警,报警的方式为邮箱,有助于维护网络数据的安全,净化网络环境。

本实施例中,优选的,还包括匹配模块,该模块用于对搜索的语言数据进行匹配,进一步提高搜索数据的匹配效果。

关键词提取算法如下:

1)把给定的文本t按照完整句子进行分割;

2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词;

3)构建候选关键词图g=(v,e),其中v为节点集,由2)生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为k的窗口中共现,k表示窗口大小,即最多共现k个单词;

4)迭代传播各节点的权重,直至收敛;

5)对节点权重进行倒序排序,从而得到最重要的t个单词,作为候选关键词;

6)由5)得到最重要的t个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。

实施例2

请参阅图1,本发明提供一种技术方案:一种基于区块链技术的语言搜索引擎系统,由采集模块、翻译模块、提取模块、检索模块组成,其中,

采集模块,用于采集用户输入的语言信息;

翻译模块,用于将采集的语言信息进行翻译;

提取模块,用于对翻译后的语言数据进行关键词提取;

搜索引擎模块,用于将提取的关键词在搜索引擎中进行搜索。

本实施例中,优选的,还包括反馈模块,该模块用于将搜索到的结果反馈给用户,反馈的方式为网页,方便用户查看反馈的数据。

本实施例中,优选的,还包括标注模块,该模块标注语言查询数据,将语言数据中的概念作为种子概念;找到种子概念对应的中英文分类标签,以此为起点,并利用分类标签的母分类标签和子分类标签,以及分类标签对相关概念的包含关系和概念之间的链接关系,爬虫获得与该语言查询数据相对应的数据。

本实施例中,优选的,还包括判断模块,该模块用于对搜索的语言数据意图进行判断,提高搜索数据的精确度。

本实施例中,优选的,该系统实现通过网络爬虫抓取目录类网站,挖掘国内外网站的网址信息,通过文献翻译,将网址信息和翻译信息存储到区块链中,利用全文检索技术实现语言搜索。

本实施例中,优选的,还包括限制模块,该模块用于对敏感词进行限制。

本实施例中,优选的,还包括报警模块,该模块用于对敏感词进行报警,报警的方式为短信,有助于维护网络数据的安全,净化网络环境。

本实施例中,优选的,还包括匹配模块,该模块用于对搜索的语言数据进行匹配,进一步提高搜索数据的匹配效果。

关键词提取算法如下:

1)把给定的文本t按照完整句子进行分割;

2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词;

3)构建候选关键词图g=(v,e),其中v为节点集,由2)生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为k的窗口中共现,k表示窗口大小,即最多共现k个单词;

4)迭代传播各节点的权重,直至收敛;

5)对节点权重进行倒序排序,从而得到最重要的t个单词,作为候选关键词;

6)由5)得到最重要的t个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。


技术特征:

1.一种基于区块链技术的语言搜索引擎系统,其特征在于:由采集模块、翻译模块、提取模块、检索模块组成,其中,

采集模块,用于采集用户输入的语言信息;

翻译模块,用于将采集的语言信息进行翻译;

提取模块,用于对翻译后的语言数据进行关键词提取;

搜索引擎模块,用于将提取的关键词在搜索引擎中进行搜索。

2.根据权利要求1所述的一种基于区块链技术的语言搜索引擎系统,其特征在于:还包括反馈模块,该模块用于将搜索到的结果反馈给用户。

3.根据权利要求2所述的一种基于区块链技术的语言搜索引擎系统,其特征在于:反馈的方式为网页。

4.根据权利要求1所述的一种基于区块链技术的语言搜索引擎系统,其特征在于:还包括标注模块,该模块标注语言查询数据,将语言数据中的概念作为种子概念;找到种子概念对应的中英文分类标签,以此为起点,并利用分类标签的母分类标签和子分类标签,以及分类标签对相关概念的包含关系和概念之间的链接关系,爬虫获得与该语言查询数据相对应的数据。

5.根据权利要求1所述的一种基于区块链技术的语言搜索引擎系统,其特征在于:还包括判断模块,该模块用于对搜索的语言数据意图进行判断。

6.根据权利要求1所述的一种基于区块链技术的语言搜索引擎系统,其特征在于:该系统实现通过网络爬虫抓取目录类网站,挖掘国内外网站的网址信息,通过文献翻译,将网址信息和翻译信息存储到区块链中,利用全文检索技术实现语言搜索。

7.根据权利要求1所述的一种基于区块链技术的语言搜索引擎系统,其特征在于:还包括限制模块,该模块用于对敏感词进行限制。

8.根据权利要求7所述的一种基于区块链技术的语言搜索引擎系统,其特征在于:还包括报警模块,该模块用于对敏感词进行报警,报警的方式为邮箱或短信。

9.根据权利要求1所述的一种基于区块链技术的语言搜索引擎系统,其特征在于:还包括匹配模块,该模块用于对搜索的语言数据进行匹配。

技术总结
本发明公开了一种基于区块链技术的语言搜索引擎系统,由采集模块、翻译模块、提取模块、检索模块组成,其中,采集模块,用于采集用户输入的语言信息;翻译模块,用于将采集的语言信息进行翻译;提取模块,用于对翻译后的语言数据进行关键词提取;搜索引擎模块,用于将提取的关键词在搜索引擎中进行搜索;本发明的有益效果是:通过网络爬虫抓取目录类网站,挖掘国内外网站的网址信息,通过文献翻译,将网址信息和翻译信息存储到区块链中,利用全文检索技术实现语言搜索,有助于提高语言搜索引擎的范围,提高跨语言搜索性能;通过设计的提取模块、判断模块、匹配模块有助于判断用户的意图,提高语音搜索数据的精确匹配。

技术研发人员:白玉龙
受保护的技术使用者:陕西医链区块链集团有限公司
技术研发日:2019.12.31
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-54679.html

最新回复(0)