基于机器学习的温跃层预测方法与流程

专利2022-06-29  135


本发明属海水跃层检测领域,涉及基于机器学习的温跃层预测方法。



背景技术:

海水跃层是海底的一种重要物理现象。它是一个在垂直方向上海水参数变化显著的水层,包括温跃层、盐跃层、密度跃层、声速等。其中,由于海洋信息中温度信息最多,质量最好,因此对温跃层的研究更为深入。同时,温跃层的研究在军事上具有重要的意义,对潜艇的浮沉具有一定的影响。因此,无论是对温跃层的理论研究还是温跃层模型的建立与预测,温跃层都是国内外海洋信息研究与分析的核心问题之一。以往对温跃层的研究基本上是基于传统的统计方法,随着机器学习和大数据的不断发展,将其应用于温跃层的预测是所必需的。虽然深度学习和大数据理论在其他领域得到了广泛的应用,并取得了一定的成果,但对海洋温跃层预测模型的研究较少。

因此,本发明在对温跃层研究分析的基础上,通过对数据预处理,利用pca算法分析海洋元素对温跃层的影响,利用基于拉普拉斯核函数的fcm模糊聚类算法分类数据,对数据进行神经网络训练,从而产生温跃层预测模型。



技术实现要素:

本发明提出一种基于机器学习的温跃层预测方法。本发明利用三次样值插值对argo收集的海洋数据进行非均匀校正,主成分分析算法对数据进行降维处理,fcm模糊聚类算法划分数据等级,bp神经网络训练数据集,从而构建出温跃层的预测模型。具体的技术方案如下:

一种基于机器学习的温跃层预测方法,利用三次样值插值对海洋样本数据进行非均匀校正,主成分分析算法对数据进行降维处理,fcm模糊聚类算法划分数据等级,bp神经网络训练数据集,从而构建出温跃层的预测模型。包括以下步骤:

1)对原始数据预处理获取样本数据:获取包含温度、盐度、纬向速度、经向速度、海面高度五个变量的海洋样本数据,构建数据集,利用三次样条插值对数据集进行插值预处理,获得均匀的数据集;

2)对于均匀的数据集,利用主成分分析pca算法对数据进行降维处理,分析各变量对温跃层的影响:计算数据集的温度、盐度、高度特征与温跃层的协方差,求出协方差的特征值和特征向量,将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵,得到降维后的数据集,获得温度、盐度、纬向速度、经向速度、海面高度五个与温度梯度存在相关的变量对温跃层影响程度;

3)对于降维后的数据集,基于拉普拉斯核函数的模糊聚类算法fcm对数据进行分类:将温跃层的信任等级从高到低划分为10个等级,利用模糊聚类算法fcm得到每个样本点所属中心点的隶属度,根据隶属度的数值,将其划分到10个等级之中,从而获得包含(样本点,所属的信任等级)的信任等级数据集;再利用拉普拉斯核函数代替模糊聚类算法fcm中的欧氏距离,用以提高传统fcm聚类算法的抗噪能力,使其能够准确地对样本进行分类;

4)bp神经网络训练数据,构建温跃层预测模型:本发明对于神经网络的中间层以及每一层的神经元都可以根据实际情况所调整,使用经验公式来确定隐含层神经元的数量,其中l是隐藏层神经元数量,n是输入层的神经元,m是输出层的神经元,a是1和10之间的常量;根据信任等级数据集,构建训练集和测试集;将利用主成分分析pca算法分析出的与温度梯度存在相关的变量作为神经网络的输入,以信任等级作为网络的输出进行训练;通过梯度下降法和网络的反向传播,不断调整网络的权值和阈值,使网络的输出误差最小化;经过学习,网络中每个单元的连接权值趋于稳定,训练结束,获得温跃层预测模型;在此基础上,再次进行海洋区域的温跃层的预测。

本发明所提出的基于机器学习的温跃层预测方法利用深度学习和大数据,处理argo数据中的信息,研究温跃层与温度、盐度、密度、垂直深度等的关系,然后利用fcm算法对数据进行标准化处理,bp神经网络训练出温跃层神经网络预测模型,精确性较高,具有一定的实用性。

附图说明

图1本发明整体流程图

图2bp神经网络结构图

实施方式

本发明提出一种基于机器学习的温跃层预测方法,以argo收集数据为基础,并使用pca算法预处理数据,基于拉普拉斯核函数的fcm算法对数据集进行精确分类,bp神经网络构建温跃层的预测模型,其整体框架如图1所示。具体评价方法包括以下步骤:

第一步:针对argo数据,本发明采用三次样条曲线插值方法对数据进行插值预处理。首先将数据划分为[a,b]区间,n 1个节点分成n个区间,每个区间三次项函数为si(x),按照公式(1)进行矩阵求解mi:

其中s″(x)=mi,hi=xi 1-xi,i=1,2,…,n并结合m1=m2=0,求解出mi,对其进行两次积分,得到si(x),从而得到均匀的数据集。

第二步:对均匀的数据集,本发明利用主成分分析pca算法对数据进行降维处理。计算数据集的温度、盐度、高度等特征与温跃层的协方差,求出协方差的特征值和特征向量,将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵。其中,协方差的计算方式如公式(2)

将样本点投影到选取的特征向量上,从而将原始样例的n维特征变成了k维,实现了对数据集的降维处理,分析出各个特征对温跃层的影响程度。

第三步:对于降维后的数据集,本发明利用基于拉普拉斯核函数的fcm模糊聚类算法对数据进行分类。本发明将温跃层的信任等级划分为11个等级,在fcm模糊聚类算法的基础上,利用拉普拉斯核函数代替fcm算法中的欧氏距离,将数据集划分到11个等级之中。首先初始化隶属度矩阵u,取0~1之间的随机数,满足约束条件。然后计算出隶属度uij和中心点vi。、隶属度uij和中心点vi计算公式分别是公式(3)(4)。其中样本点到中心点的距离采用拉普拉斯核函数k,公式(5)。

利用隶属度和中心点计算目标函数j,更新隶属度,直至j收敛稳定。目标函数j计算公式为(6)

本发明利用基于拉普拉斯核函数的fcm模糊聚类算法将数据划分等级,从而根据等级来判断是否为温跃层。

第四步:对分类后的数据集,本发明利用bp神经网络训练数据,构建温跃层预测模型。为了防止过拟合问题,本实验将拥有的数据分为训练集和测试集两部分,测试集用于测试训练后的神经网络的输出误差。本发明bp神经网络包含输入层、隐式层和输出层,主要包括信号的正向传播和误差的反向传播两个步骤,通过不断调整网络的权值和阈值,使网络的输出误差最小化。

对于输出层误差:errj=oj(1-oj)(tj-oj),o是预测值,t是真实值。

对于隐藏层误差:

权值更新:wij=wij δwij

偏差更新:θj=θj δθj

第五步:温跃层预测模型进行性能的测试。本发明利用128°e-138°e和0°n-10°n海洋区域的数据,再次进行了区域温层预测,结果的准确率较高。因此该神经网络所得数据具有一定的科学性,从而可构建出温跃层预测的模型。


技术特征:

1.一种基于机器学习的温跃层预测方法,利用三次样值插值对海洋样本数据进行非均匀校正,主成分分析算法对数据进行降维处理,fcm模糊聚类算法划分数据等级,bp神经网络训练数据集,从而构建出温跃层的预测模型。包括以下步骤:

1)对原始数据预处理获取样本数据:获取包含温度、盐度、纬向速度、经向速度、海面高度五个变量的海洋样本数据,构建数据集,利用三次样条插值对数据集进行插值预处理,获得均匀的数据集;

2)对于均匀的数据集,利用主成分分析pca算法对数据进行降维处理,分析各变量对温跃层的影响:计算数据集的温度、盐度、高度特征与温跃层的协方差,求出协方差的特征值和特征向量,将特征值按照从大到小的顺序排序,选择其中最大的k个,然后将其对应的k个特征向量分别作为列向量组成特征向量矩阵,得到降维后的数据集,获得温度、盐度、纬向速度、经向速度、海面高度五个与温度梯度存在相关的变量对温跃层影响程度;

3)对于降维后的数据集,基于拉普拉斯核函数的模糊聚类算法fcm对数据进行分类:将温跃层的信任等级从高到低划分为10个等级,利用模糊聚类算法fcm得到每个样本点所属中心点的隶属度,根据隶属度的数值,将其划分到10个等级之中,从而获得包含(样本点,所属的信任等级)的信任等级数据集;再利用拉普拉斯核函数代替模糊聚类算法fcm中的欧氏距离,用以提高传统fcm聚类算法的抗噪能力,使其能够准确地对样本进行分类;

4)bp神经网络训练数据,构建温跃层预测模型:本发明对于神经网络的中间层以及每一层的神经元都可以根据实际情况所调整,使用经验公式来确定隐含层神经元的数量,其中l是隐藏层神经元数量,n是输入层的神经元,m是输出层的神经元,a是1和10之间的常量;根据信任等级数据集,构建训练集和测试集;将利用主成分分析pca算法分析出的与温度梯度存在相关的变量作为神经网络的输入,以信任等级作为网络的输出进行训练;通过梯度下降法和网络的反向传播,不断调整网络的权值和阈值,使网络的输出误差最小化;经过学习,网络中每个单元的连接权值趋于稳定,训练结束,获得温跃层预测模型;在此基础上,再次进行海洋区域的温跃层的预测。

技术总结
本发明涉及一种基于机器学习的温跃层预测方法,利用三次样值插值对海洋样本数据进行非均匀校正,主成分分析算法对数据进行降维处理,FCM模糊聚类算法划分数据等级,BP神经网络训练数据集,从而构建出温跃层的预测模型。

技术研发人员:杨嘉琛;吕彩云
受保护的技术使用者:天津大学
技术研发日:2020.01.10
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-16744.html

最新回复(0)