本申请涉及数据处理,尤其涉及数据质量评估方法、装置、设备、存储介质及计算机程序产品。
背景技术:
1、随着大数据时代的到来,通信行业产生了海量的数据,包括通信业务数据、用户行为数据、网络设备数据等,这些数据的质量对通信大数据的应用效果具有直接影响,因此,对通信数据进行质量评估具有重要的现实意义和应用价值。
2、在数据质量评估中,阈值和权重是用于确定和衡量数据质量的关键评估参数,其中,阈值用于确定数据是否符合特定的标准或要求,权重用于指定不同数据质量维度的相对重要性。现有的数据质量评估中往往依赖于人工经验设置评估参数,然而,基于人工经验设置的评估参数往往缺乏灵活性和适应性,根据这类评估参数计算出的质量评估分值难以真实、及时的反映数据质量的实际变化,导致评估结果与实际情况存在较大的偏差,无法为数据使用者提供准确、可靠的数据质量状况信息。
3、综上,如何确定数据质量的评估参数以提高数据质量评估的准确性,俨然已成为本领域亟需解决的技术问题。
技术实现思路
1、本申请的主要目的在于提供一种数据质量评估方法、装置、设备、存储介质及计算机程序产品,旨在确定数据质量的评估参数以提高数据质量评估的准确性。
2、为实现上述目的,本申请提出一种数据质量评估方法,方法包括:
3、基于待评估的数据集合建立数据质量评估体系,其中,数据质量评估体系包括数据集合对应的各指标类型;
4、针对各指标类型中的每一目标指标类型,将数据集合中标签为目标指标类型的各数据点作为局部离群因子算法的输入,得到目标指标类型的阈值;
5、在确定各数据点和阈值之间的大小关系满足预设条件后,将各数据点作为机器学习结合模糊评价算法的输入,得到目标指标类型的权重;
6、基于数据集合和每一目标指标类型各自的权重计算数据集合的数据质量。
7、在一实施例中,针对各指标类型中的每一目标指标类型,将数据集合中标签为目标指标类型的各数据点作为局部离群因子算法的输入,得到目标指标类型的阈值的步骤包括:
8、针对各指标类型中的每一目标指标类型,将数据集合中标签为目标指标类型的各数据点作为局部离群因子算法的输入,通过局部离群因子算法计算各数据点的局部可达密度;
9、根据各局部可达密度计算各数据点的局部异常因子;
10、若各数据点中存在局部异常因子大于预设阈值的异常数据点,则将异常数据点从各数据点中去除,得到正常数据点;
11、基于正常数据点计算得到目标指标类型的阈值。
12、在一实施例中,针对各指标类型中的每一目标指标类型,将数据集合中标签为目标指标类型的各数据点作为局部离群因子算法的输入,得到目标指标类型的阈值的步骤之后包括:
13、判断各数据点与阈值之间的大小关系是否满足预设条件;
14、若各数据点中存在反常数据点和阈值之间的大小关系不满足预设条件,则输出数据异常提示。
15、在一实施例中,机器学习结合模糊评价算法包括机器学习部分和模糊评价部分;
16、将各数据点作为机器学习结合模糊评价算法的输入,得到目标指标类型的权重的步骤包括:
17、将各数据点作为机器学习结合模糊评价算法的输入,通过机器学习部分计算目标指标类型的第一权重;
18、通过模糊评价部分计算目标指标类型的第二权重;
19、基于预设的集成算法对第一权重和第二权重进行拟合,得到目标指标类型的权重。
20、在一实施例中,通过机器学习部分计算目标指标类型的第一权重的步骤包括:
21、通过机器学习部分基于各数据点和各指标类型确定初始特征;
22、通过特征工程对各初始特征进行组合,得到人工特征;
23、根据初始特征和人工特征确定目标指标类型的第一权重。
24、在一实施例中,通过模糊评价部分计算目标指标类型的第二权重的步骤包括:
25、通过模糊评价部分确定目标指标类型的第三权重;
26、对每一目标指标类型各自的第三权重进行模糊化处理,得到模糊集;
27、根据模糊集构建模糊评价矩阵,并对模糊评价矩阵进行模糊推理得到每个目标指标类型各自的模糊评价值;
28、将模糊评价值进行解模糊化处理,得到目标指标类型的第二权重。
29、此外,为实现上述目的,本申请还提出一种数据质量评估系统,数据质量评估系统包括:
30、体系建立模块,用于基于待评估的数据集合建立数据质量评估体系,其中,数据质量评估体系包括数据集合对应的各指标类型;
31、阈值确定模块,用于针对各指标类型中的每一目标指标类型,将数据集合中标签为目标指标类型的各数据点作为局部离群因子算法的输入,得到目标指标类型的阈值;
32、权重确定模块,用于在确定各数据点和阈值之间的大小关系满足预设条件后,将各数据点作为机器学习结合模糊评价算法的输入,得到目标指标类型的权重;
33、质量计算模块,用于基于数据集合和每一目标指标类型各自的权重计算数据集合的数据质量。
34、此外,为实现上述目的,本申请还提出一种电子设备,设备包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,计算机程序配置为实现如上文的数据质量评估方法的步骤。
35、此外,为实现上述目的,本申请还提出一种存储介质,存储介质为计算机可读存储介质,存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上文的数据质量评估方法的步骤。
36、此外,为实现上述目的,本申请还提供一种计算机程序产品,计算机程序产品包括计算机程序,计算机程序被处理器执行时实现如上文的数据质量评估方法的步骤。
37、本申请提出了一种数据质量评估方法,本申请首先基于待评估的数据集合建立包括数据集合对应的各指标类型的数据质量评估体系,体系中每个指标类型都代表了数据质量评价的某一维度,通过考虑这些维度可以确保数据评估结果的全面性;然后,针对各指标类型中的每一目标指标类型,将数据集合中标签为目标指标类型的各数据点作为局部离群因子算法((loca lout l ier factor,lof算法)的输入,得到目标指标类型的阈值,从而确定该目标指标类型下数据点的正常取值范围;并在确定各数据点和阈值之间的大小关系满足预设条件后,将各数据点作为机器学习结合模糊评价算法的输入,得到该目标指标类型的权重,从而确定该目标指标类型在整体数据质量评估中的重要程度;最后,基于数据集合和每一目标指标类型各自的权重计算数据集合的数据质量。
38、综上可知,本申请通过lof算法确定数据质量评估中各指标类型的阈值,提高了阈值确定的准确性,通过机器学习结合模糊评价算法计算数据质量评估中各指标类型的权重,兼顾了指标权重确定的主观性和客观性,克服了阈值和权重这类评估参数的设定受人工经验影响的技术缺陷,提高了数据质量评估的准确性。
1.一种数据质量评估方法,其特征在于,所述的方法包括:
2.如权利要求1所述的方法,其特征在于,所述针对各所述指标类型中的每一目标指标类型,将所述数据集合中标签为所述目标指标类型的各数据点作为局部离群因子算法的输入,得到所述目标指标类型的阈值的步骤包括:
3.如权利要求1所述的方法,其特征在于,所述针对各所述指标类型中的每一目标指标类型,将所述数据集合中标签为所述目标指标类型的各数据点作为局部离群因子算法的输入,得到所述目标指标类型的阈值的步骤之后包括:
4.如权利要求1所述的方法,其特征在于,所述机器学习结合模糊评价算法包括机器学习部分和模糊评价部分;
5.如权利要求4所述的方法,其特征在于,所述通过所述机器学习部分计算所述目标指标类型的第一权重的步骤包括:
6.如权利要求5所述的方法,其特征在于,所述通过所述模糊评价部分计算所述目标指标类型的第二权重的步骤包括:
7.一种数据质量评估系统,其特征在于,所述系统包括:
8.一种电子设备,其特征在于,所述设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序配置为实现如权利要求1至6中任一项所述的数据质量评估方法的步骤。
9.一种存储介质,其特征在于,所述存储介质为计算机可读存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的数据质量评估方法的步骤。
10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的数据质量评估方法的步骤。
