一种面向空气质量数据的可信度分析方法与流程

专利2022-06-29  169


本发明是一种基于深度学习的空气质量数据可信度分析方法,主要用于空气质量状况的监测和预测等相关工作中,属于大气数据挖掘和分析领域。



背景技术:

随着社会经济的发展和城市化进程的加快,人民的生活水平不断提高,但能源消耗和污染物的不断排放加剧了空气污染问题,日益严重的空气质量问题给人们的生活和健康造成了极坏的影响。近几年来,国家加大了对空气污染问题的治理力度,实时、准确、快速地对空气质量进行有效监测与预测,提前辨识空气质量异常变化态势,对查找与分析空气污染源、制定大气环境保护方略具有重要的指导意义。随着大数据的兴起及空气质量和重点污染源实时在线监测系统的建立,空气质量监测数据日益增加,但在自然环境中,电场干扰、磁场干扰和数据传送过程中受到非法攻击等因素会导致空气质量传感器发送非法数据。因此,在这些空气质量监测数据集合中存在大量不可信的数据,这些不可信数据的存在严重降低了空气监测数据的质量,同时会引起空气质量监测和预测结果的不准确甚至错误。因此,空气质量数据可信度分析是空气质量监测和预测前至关重要的一步。

目前主要通过人工审核的方式对监测数据进行检验,但由于现在监测数据量越来越大,这种方式已经越来越不能满足实际的工作需要,所以需要建立一套较为完整的空气质量监测数据可信度分析度量方法来应对工作量巨大的监测数据审核工作。因此本文提出了一种基于双向长短时记忆网络的空气质量数据可信度分析方法,对获得的空气质量数据进行可信度度量和判断,筛选出不可信的数据,提高数据的质量和可利用性,同时减轻相关人员的工作量。



技术实现要素:

本本发明提出一种面向空气质量数据的可信度分析方法,该方法将空气质量监测数据作为双向长短时记忆网络的输入,通过神经网络的迭代和训练不断优化权重参数,最终建立数据可信度分析模型。并利用真实的空气质量监测数据对该方法进行验证,结果表明本方法能够对空气质量数据的可信度作出准确的判断,并筛选出不可信数据,提高数据的质量和可利用性。

本发明是通过以下技术方案实现的,本发明包括以下步骤:

步骤1:对空气质量数据集进行过采样处理,解决数据集中类别不平衡的问题。

步骤2:对空气质量监测数据进行标准化处理,消除不同维度数据之间的量级差别。

步骤3:搭建空气质量数据可信度分析神经网络模型,包括输入层、双向长短时记忆网络层和输出层。

步骤4:将空气质量数据集划分为训练集和测试集。

步骤5:初始化网络模型的权重和偏置,利用训练集的数据完成对神经网络模型的迭代训练。

步骤6:使用测试集的数据对训练完成的神经网络模型进行测试。

步骤7:利用相关评价指标对神经网络模型进行评估。

本发明的技术原理是将空气质量数据的可信度分析问题转化为有监督的分类问题并根据分类结果筛选出虚假信息和错误数据。由于良好的空气质量传感器发送的数据都是具有一定规律的,增大和减小都是一个缓慢渐变的过程,短时间内不可能陡然升高或者降低,如果某条数据突然跃迁,则可以判别为非法数据。

而双向长短时记忆网络 softma分类器是一种很好的分类方法,其对现有已分类的数据进行反复训练后,可以使用训练结果对未知的数据通过其特征值判断其类别。与其他分类方法相比,该方法训练时间短,操作简单,在性能和准确度方面适合于对空气质量数据的可信度进行判断。数据可信度的分析过程为:首先对空气质量数据进行数据标准化处理,然后将处理过的六维数据输入到bi-lstm中提取序列间的特征,再通过全连接层对特征向量降维,最后通过softmax分类器对数据进行0和1标签分类,标签为0表示数据可信,标签为1表示数据不可信。

附图说明

图1为双向长短时记忆网络示意图

图2为整体神经网络模型示意图

具体实施方式

下面详细说明本发明的实施例,本实施例在本发明技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。

步骤1:对空气质量数据集进行过采样处理,解决数据集中样本类别不平衡的问题,方法如下:

(1)对于空气质量数据集少数类别中的每一个样本xi,i∈{1,...,t},以欧氏距离作为标准计算它到少数类别样本集中其他所有样本的距离,得到每一个样本xi的k个近邻,记为xi(near),near∈{1,...,k}。

(2)根据样本类别不平衡比例确定采样倍率n,对于每一个少数类样本xi,从其k近邻中随机选择n个样本,记为xij,j∈{1,...,n}。

(3)对于每一个随机选出的近邻样本xij,分别与原样本xi按照如下公式合成新的样本xi,new。

xi,new=xi rand(0,1)*|xi-xij|

其中,rand(0,1)表示0到1之间的随机数。

步骤2:对空气质量监测数据进行标准化处理,消除不同维度数据之间的量级差别。

按照如下公式对空气质量数据的每一列进行变换

其中,xj为每列的数据,为每列数据的均值,s为每列数据的标准差,yj为变换后每列的数据,n为每列的数据的数量。

步骤3:搭建空气质量数据可信度分析神经网络模型。

模型包括输入层、双向长短时记忆网络层和输出层。在输入层中数据的维度为64*6,64代表每次输入到神经网络中训练样本的个数,6代表空气质量的6个特征。双向长短时记忆网络层包含正向长短时记忆网络和反向长短时记忆网络,正向长短时记忆网络从前往后处理输入数据,输出隐向量h1,反向长短时记忆网络从后往前处理输入数据,输出隐向量h2,将两个隐向量h1、h2进行融合作为网络的最后输出h,双向长短时记忆网络隐藏层的维度设置为128,双向长短时记忆网络示意图如附图1所示。同时在双向长短时记忆网络层中加入dropout机制,防止过拟合现象的发生,dropout设置为0.7。输出层包含两层全连接层和softmax分类器,全连接层的维度设置分别为64和2。整体神经网络模型示意图如附图2所示。

步骤4:将空气质量数据集划分为训练集和测试集。

将处理后的空气质量数据按照8:2的比例分为两部分,80%的数据作为训练集,20%的数据作为测试集。为了去除训练集和测试集的规律性,采用随机的方式进行划分。

步骤5:初始化网络模型的权重和偏置,利用训练集的数据完成对神经网络模型的迭代训练。

采用高斯分布随机初始化网络权重和偏置参数。将训练集数据64*6作为输入层的输入,经过双向长短时记忆网络学习后得到64*256的抽象特征,再经过两层全连接层的特征整合得到64*2的输出,最后通过softmax分类器进行二分类。根据分类结果与实际标签的差别,利用反向传播优化权重和偏置参数,优化算法采用adam算法。模型迭代训练的次数设置为15000。

步骤6:使用测试集的数据对训练完成的神经网络模型进行测试。

步骤7:利用相关评价指标对神经网络模型进行评估。

本实施例采用精确率p、召回率r两个评价指标对模型的性能进行评估。

其计算公式如下:

其中,tp表示实际为可信数据,模型分类也为可信数据的情况;fp表示实际为不可信数据,但模型分类为可信数据的情况;fn表示实际为可信数据但模型分类为不可信数据的情况。

如果模型的精确率与召回率均超过95%,则表示模型可以对空气质量数据的可信度作出准确分析,否则使用训练集继续对神经网络模型进行迭代训练。


技术特征:

1.一种面向空气质量数据的可信度分析方法,其特征在于,包括以下步骤:

步骤1:对空气质量数据集进行过采样处理,解决数据集中类别不平衡的问题;

步骤2:对空气质量监测数据进行标准化处理,消除不同维度数据之间的量级差别;

步骤3:搭建空气质量数据可信度分析神经网络模型,包括输入层、双向长短时记忆网络层和输出层;

步骤4:将空气质量数据集划分为训练集和测试集;

步骤5:初始化网络模型的权重和偏置,利用训练集的数据完成对神经网络模型的迭代训练;

步骤6:使用测试集的数据对训练完成的神经网络模型进行测试;

步骤7:利用相关评价指标对神经网络模型进行评估。

2.根据权利要求1所述的一种面向空气质量数据的可信度分析方法,其特征在于:步骤1对空气质量数据集进行过采样处理,解决数据集中类别不平衡的问题:

(1)对于空气质量数据集少数类别中的每一个样本xi,i∈{1,...,t},以欧氏距离作为标准计算它到少数类别样本集中其他所有样本的距离,得到每一个样本xi的k个近邻,记为xi(near),near∈{1,...,k};

(2)根据样本类别不平衡比例确定采样倍率n,对于每一个少数类样本xi,从其k近邻中随机选择n个样本,记为xij,j∈{1,...,n};

(3)对于每一个随机选出的近邻样本xij,分别与原样本xi按照如下公式合成新的样本xi,new;

xi,new=xi rand(0,1)*|xi-xij|

其中,rand(0,1)表示0到1之间的随机数。

3.根据权利要求1所述的一种面向空气质量数据的可信度分析方法,其特征在于:步骤2对空气质量监测数据进行标准化处理,消除不同维度数据之间的量级差别:

对空气质量数据的每一列进行变换,

其中,xj为每列的数据,为每列数据的均值,s为每列数据的标准差,yj为变换后每列的数据,n为每列的数据的数量。

4.根据权利要求1所述的一种面向空气质量数据的可信度分析方法,其特征在于:步骤3搭建空气质量数据可信度分析神经网络模型;模型包括输入层、双向长短时记忆网络层和输出层;在输入层中数据的维度为64*6,64代表每次输入到神经网络中训练样本的个数,64*6中的6代表空气质量的6个特征;双向长短时记忆网络层包含正向长短时记忆网络和反向长短时记忆网络,正向长短时记忆网络从前往后处理输入数据,输出隐向量h1,反向长短时记忆网络从后往前处理输入数据,输出隐向量h2,将两个隐向量h1、h2进行融合作为网络的最后输出h,双向长短时记忆网络隐藏层的维度设置为128;同时在双向长短时记忆网络层中加入dropout机制,dropout设置为0、7;输出层包含两层全连接层和softmax分类器,全连接层的维度设置分别为64和2。

5.根据权利要求1所述的一种面向空气质量数据的可信度分析方法,其特征在于:步骤4将处理后的空气质量数据按照8:2的比例分为两部分,80%的数据作为训练集,20%的数据作为测试集,采用随机的方式进行划分。

6.根据权利要求1所述的一种面向空气质量数据的可信度分析方法,其特征在于:步骤5采用高斯分布随机初始化网络权重和偏置参数;将训练集数据64*6作为输入层的输入,经过双向长短时记忆网络学习后得到64*256的抽象特征,再经过两层全连接层的特征整合得到64*2的输出,最后通过softmax分类器进行二分类;根据分类结果与实际标签的差别,利用反向传播优化权重和偏置参数,优化算法采用adam算法;模型迭代训练的次数设置为15000。

7.根据权利要求1所述的一种面向空气质量数据的可信度分析方法,其特征在于:步骤6使用测试集的数据对训练完成的神经网络模型进行测试。

8.根据权利要求1所述的一种面向空气质量数据的可信度分析方法,其特征在于:步骤7采用精确率p、召回率r两个评价指标对模型的性能进行评估;如果模型的精确率与召回率均超过95%,则表示模型对空气质量数据的可信度作出准确分析,否则使用训练集继续对神经网络模型进行迭代训练。

技术总结
本发明公开了一种面向空气质量数据的可信度分析方法,通过深度学习的方式来筛选出空气质量数据集中可信的数据。首先对采集的空气质量原始数据进行过采样处理以及数据标准化处理,然后将处理后的数据输入到双向长短时记忆网络中提取数据序列间的特征,再利用全连接层对特征进行整合,最后通过Softmax分类器对数据的可信度进行分类。实验结果表明,本方法能对空气质量数据可信度作出准确的分析,筛选出不可信数据,保证了空气质量监测数据的有效性、连续性和准确性,并为数据可信度分析方法的进一步研究提供了解决思路。

技术研发人员:李晓理;王新剑;王康
受保护的技术使用者:北京工业大学
技术研发日:2020.01.13
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-15995.html

最新回复(0)