文本数据的去重方法、装置、存储介质及程序产品与流程

专利2026-06-08 2

本公开涉及数据处理，尤其涉及一种文本数据的去重方法、装置、存储介质及程序产品。

背景技术：

1、在信息安全领域经常涉及大型非结构化、半结构化的文本数据的处理和分析工作，这类文本数据存在着海量的不完全相同，但内容高度相似或结构上高度相似的文本，需要对文本数据经过去重处理以提高后续分类、聚类、检索等分析的运算效率和效果。

2、相关技术中，对大规模文本数据进行去重的方法通常基于完整字符串的去重；或者，对文本数据做哈希映射再进行快速去重；或者，先对文本进行预处理，再基于改进的哈希算法或基于文本向量化方法将文本数据提取为数值特征，最后基于相似度算法实现文本去重。现有技术可以对完全相同的文本进行去重，但无法处理高度相似的文本，在文本预处理阶段可能会遗漏大量有用信息，且文本之间的相似度计算复杂度较高，从而导致文本数据的去重准确率和去重效率较低的问题。

技术实现思路

1、有鉴于此，本公开实施例提供了一种文本数据的去重方法、装置、存储介质及程序产品，能够提高待去重的文本特征数据的完整性和准确性，从而在文本数据去重处理过程中提高文本数据的去重准确率和去重效率。

2、第一方面，本公开实施例提供了一种文本数据的去重方法，采用如下技术方案：

3、将待去重文本数据中的目标文本字段执行字段解析操作和字段转换操作，得到第一文本特征数据；

4、将待去重文本数据中的目标文本字段执行文本分词处理和文本向量化处理，得到第二文本特征数据；

5、将所述第一文本特征数据和所述第二文本特征数据按照预设权重进行加权融合处理，得到目标文本特征数据；

6、利用快速聚类算法对所述目标文本特征数据进行聚类，并获取每个聚类簇中的相似文本；

7、对所述相似文本执行去重处理，得到文本去重结果。

8、在一些实施例中，将待去重文本数据中的目标文本字段执行字段解析操作和字段转换操作，得到第一文本特征数据，包括：

9、基于字符串分割、字符串匹配或正则表达式匹配，提取所述待去重文本数据中结构化信息和半结构化信息，得到结构化字段；

10、将所述结构化字段转换为数值型数据；

11、将所述数值型数据执行标准化处理，得到第一文本特征数据。

12、在一些实施例中，将待去重文本数据中的目标文本字段执行文本分词处理和文本向量化处理，得到第二文本特征数据，包括：

13、将待去重文本数据中的目标文本字段中可以解析和转换的部分替换为特殊字符串，得到替换后的文本数据；

14、将所述替换后的文本数据输入到预先训练好的中文分词模型，并获取所述中文分词模型输出的分词结果；

15、将所述分词结果输入到语言模型，并获取所述语言模型输出的第二文本特征数据；其中，所述第二文本特征数据为具有固定长度的文本特征向量。

16、在一些实施例中，所述方法还包括：

17、在执行文本分词处理过程中，保留所述待去重文本数据中单字节的非符号文本。

18、在一些实施例中，利用快速聚类算法对所述目标文本特征数据进行聚类，并获取每个聚类簇中的相似文本，包括：

19、子数据集划分步骤：将所述目标文本特征数据按照基算法的数据集划分行数阈值为长度，划分为若干个相互不重叠的子数据集；

20、聚类步骤：利用基算法的相似度函数、聚类相似度阈值和近邻数目对所述若干个子数据集中的每一个子数据集依次进行聚类，得到每一个子数据集的聚类结果；

21、聚类结果合并步骤：合并每一个子数据集的聚类结果，得到合并聚类结果；

22、第一执行步骤：当合并聚类结果不满足聚类结束条件时，获取所述合并聚类结果，并将所述合并聚类结果作为新的目标文本特征数据，返回执行所述子数据集划分步骤、聚类步骤和聚类结果合并步骤；

23、第二执行步骤：当合并聚类结果满足聚类结束条件时，获取所述合并聚类结果中每个聚类簇中的相似文本以及每个所述相似文本所属的聚类簇编号。

24、在一些实施例中，所述聚类步骤：利用基算法的相似度函数、聚类相似度阈值和近邻数目对所述若干个子数据集中的每一个子数据集进行聚类，得到每一个子数据集的聚类结果，包括：

25、利用基算法的相似度函数、聚类相似度阈值和近邻数目对所述若干个子数据集中的每一个子数据集进行聚类，得到每一个子数据集对应的若干个聚类簇；

26、计算每一个聚类簇的聚类中心点；

27、计算每一个聚类簇中与所述聚类中心点的相似度达到第一预设相似度阈值的若干个文本特征向量，并保存每个所述文本特征向量所属的聚类簇编号。

28、在一些实施例中，所述方法还包括：

29、基于所述文本去重结果、目标轮次的聚类中心点以及目标轮次的相似文本所属的聚类簇编号，获取目标轮次的聚类结果；

30、获取所述目标轮次的聚类结果中与所述聚类中心点的相似度达到第二预设相似度阈值的若干个目标相似样本；

31、利用所述若干个目标相似样本更新所述待去重文本数据。

32、第二方面，本公开实施例还提供了一种文本数据的去重装置，采用如下技术方案：

33、解析单元，被配置为将待去重文本数据中的目标文本字段执行字段解析操作和字段转换操作，得到第一文本特征数据；

34、预处理单元，被配置为将待去重文本数据中的目标文本字段执行文本分词处理和文本向量化处理，得到第二文本特征数据；

35、加权融合单元，被配置为将所述第一文本特征数据和所述第二文本特征数据按照预设权重进行加权融合处理，得到目标文本特征数据；

36、聚类单元，被配置为利用快速聚类算法对所述目标文本特征数据进行聚类，并获取每个聚类簇中的相似文本；

37、去重单元，被配置为对所述相似文本执行去重处理，得到文本去重结果。

38、第三方面，本公开实施例还提供了一种计算机装置，采用如下技术方案：

39、所述计算机装置包括：

40、至少一个处理器；以及，

41、与所述至少一个处理器通信连接的存储器；其中，

42、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行以上任一所述的文本数据的去重方法。

43、第四方面，本公开实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行以上任一所述的文本数据的去重方法。

44、第五方面，本公开实施例还提供了一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现以上任一项所述方法的步骤。

45、本公开实施例提供的一种文本数据的去重方法，有针对性地解析并预处理了包含重要字段信息的目标文本字段，提高了第一文本特征数据和第二文本特征数据的数据完整性和数据准确性，并通过对第一文本特征数据和第二文本特征数据的加权融合处理消除了噪声干扰，提高了文本数据去重准确率。并且，基于快速聚类算法实现从全量的待去重文本数据中筛选出每一个聚类簇中少数代表性的相似文本，对相似文本进行去重处理，本技术这种针对海量文本数据每次只聚类小批量数据的文本去重方法降低了系统cpu和内存的占用率，提高了文本数据的去重效率。

46、上述说明仅是本公开技术方案的概述，为了能更清楚了解本公开的技术手段，而可依照说明书的内容予以实施，并且为让本公开的上述和其他目的、特征和优点能够更明显易懂，以下特举较佳实施例，并配合附图，详细说明如下。

技术特征：

1.一种文本数据的去重方法，其特征在于，包括：

2.根据权利要求1所述的文本数据的去重方法，其特征在于，将待去重文本数据中的目标文本字段执行字段解析操作和字段转换操作，得到第一文本特征数据，包括：

3.根据权利要求1或2所述的文本数据的去重方法，其特征在于，将待去重文本数据中的目标文本字段执行文本分词处理和文本向量化处理，得到第二文本特征数据，包括：

4.根据权利要求3所述的文本数据的去重方法，其特征在于，所述方法还包括：

5.根据权利要求3所述的文本数据的去重方法，其特征在于，利用快速聚类算法对所述目标文本特征数据进行聚类，并获取每个聚类簇中的相似文本，包括：

6.根据权利要求5所述的文本数据的去重方法，其特征在于，所述聚类步骤：利用基算法的相似度函数、聚类相似度阈值和近邻数目对所述若干个子数据集中的每一个子数据集进行聚类，得到每一个子数据集的聚类结果，包括：

7.根据权利要求5所述的文本数据的去重方法，其特征在于，所述方法还包括：

8.一种计算机装置，其特征在于，所述计算机装置包括：

9.一种计算机可读存储介质，其特征在于，该计算机可读存储介质存储计算机指令，该计算机指令用于使计算机执行权利要求1至7任一所述的文本数据的去重方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1至7任一项所述的文本数据的去重方法的步骤。

技术总结
本实施例公开了一种文本数据的去重方法、装置、存储介质及程序产品。其中，该方法包括：将待去重文本数据中的目标文本字段执行字段解析操作和字段转换操作，得到第一文本特征数据；将待去重文本数据中的目标文本字段执行文本分词处理和文本向量化处理，得到第二文本特征数据；将第一文本特征数据和第二文本特征数据按照预设权重进行加权融合处理，得到目标文本特征数据；利用快速聚类算法对目标文本特征数据进行聚类，并获取每个聚类簇中的相似文本；对相似文本执行去重处理，得到文本去重结果。该方法能够提高待去重的文本特征数据的完整性和准确性，从而在文本数据去重处理过程中提高文本数据的去重准确率和去重效率。

技术研发人员：邹凯,陈凯枫,李子阳,张渊
受保护的技术使用者：广州天懋信息系统股份有限公司
技术研发日：
技术公布日：2024/7/25

转载请注明原文地址: https://bbs.8miu.com/read-440749.html

专利

最新回复(0)