本发明涉及图像处理和智能算法技术领域,具体为一种用于图像分割的深度强化学习算法。
背景技术:
深度强化学习是一种基于动态规划求解框架的无模型马尔可夫决策过程处理方法,通过与环境的交互来指导智能体在不同的状态下进行收益最大化的动作,从而得到最优决策。由于其具有智能、有效解决高维状态输入、数据可重用等特点,目前已经广泛应用于智能控制、策略分析、图像处理等领域。然而,传统的深度强化学习算法的经验池大小以及采样大小是固定的,没有考虑到智能体随着训练的进行其学习能力也在不断增强的特性,因此导致在模型训练前期出现效率较低的现象。因此,本专利采用多因子学习曲线动态调整经验池的大小和样本采样大小,提出了一种用于图像分割的新型深度强化学习算法。
特别的,该算法已经成功运用于免疫层析图像试条的识别及其定量检测,可以为环境检测、临床诊断、食品安全检测、农业生产以及其它一些新兴领域比如分子诊断提供一种有效、准确而快速的检测手段。
技术实现要素:
本发明为了克服现有技术存在的不足之处,提供了一种用于图像分割的新型深度强化学习算法。所述方法将图像分割方法转换成目标像素的运动状态估计问题,采用多因素自学习曲线原理动态改变经验池大小和采样样本大小能够有效提高算法效率,得到较为准确的目标状态估计,从而实现最终的图像分割。
本发明采用的技术方案是:一种用于图像分割的深度强化学习算法,包括以下步骤:
1、采集若干相关图像作为训练图像集,并且对其进行预处理,提取出包含目标区域的感兴趣区域。
2、针对要分割图像的特点,构建深度强化学习所需的状态值,动作值以及奖赏值。
3、构建合适的深度学习网络模型作为深度强化学习算法中的值网络和目标网络,比如深度信念网络,堆栈自动编码网络等,并输入样本图像对网络进行训练。
4、根据多因子学习曲线动态调节经验池和样本采样大小,通过图像分割效果来调节深度神经网络的的参数,最终确定网络的模型。
5、深度强化学习模型确定之后,将待分割的图像以同样的方式构建测试样本,通过训练过的深度强化学习模型得出测试样本的分割结果。
所述步骤2具体包括:
21)针对要分割图像的特点,以图像感兴趣区域的每一列为研究对象,构建深度强化学习模型所需要的状态值,动作值,奖赏值。
22)状态值的确定:选取图像每一列某一像素的领域灰度值向量组成状态值。
23)动作值的确定:深度强化学习智能体以图像的顶部或者底部为起始位置,根据当前状态是否是最佳状态给出相应的奖赏值或者惩罚,并依据当前状态做出向上或者向下运动改变当前的状态。
24)奖赏值的确定:依据强化学习智能体当前状态是否是目标状态给出相应的奖赏值,奖赏值可以由图像当前的分割效果与人工最佳分割版本进行对比得出,与人工版本符合率高给出较高的奖赏值,符合率低的给出相应的惩罚值。
所述步骤3具体包括:
31)构建合适的深度学习网络模型作为深度强化学习算法中的值网络和目标网络,比如深度信念网络,堆栈自动编码网络等。其中,深度学习网络模型的输入层节点数与训练样本的状态特征向量维数一致,输出层的节点数与智能体的动作总数量相一致,隐含层的层数以及各层的节点数根据图像分割的效果来确定。
32)预训练阶段:从训练图片中获取训练样本并将训练样本储存到经验池中,从经验池中随机抽取部分训练样本,将训练样本输入到输入层,通过逐层训练的方式对各层结构进行训练,低一层隐含层输出作为高一层的输入。
33)微调阶段:采用有监督学习方式对整个网络进行训练,将目标网络的输出作为值网络输出的标签,将值网络的实际输出与目标网络的误差逐层向后传播,对值网络的参数进行微调。
34)目标网络更新阶段:训练每间隔一段时间将值网络的参数赋给目标网络,其余训练时间目标网络的参数保持固定不变,实现值网络和目标网络的参数同步。
35)根据图像分割效果调节和优化网络参数,完成深度神经网络的训练。最后,根据训练好的深度强化学习模型对测试样本进行最终的分割。
所述步骤4具体包括:
41)在后续的训练过程中,为了提高训练效率,根据多因子学习曲线动态调节经验池的大小:
42)在后续的训练过程中,为了提高训练效率,根据多因子学习曲线动态调节样本采样的大小:
r表示经验池的大小,n表示样本采样大小,k表示算法的首次学习效果,一般取为常数1,steps表示训练步数,γ表示奖赏折扣率,α表示学习率,c表示目标网络更新步数间隔,。
由上述对本发明的描述可知,与现有技术相比,本发明具有如下有益效果:
1)建立了针对图像分割的深度强化学习模型所需的状态值,动作值以及奖赏值;2)采用多因子学习曲线动态的调节经验池以及采样样本的大小,提高算法的效率;3)该新型深度强化学习算法能够取得较为准确的图像分割结果。特别的,该算法已经成功运用于免疫层析图像试条的识别及其定量检测,可以为环境检测、临床诊断、食品安全检测、农业生产以及其它一些新兴领域比如分子诊断提供一种有效、准确而快速的检测手段。
附图说明
图1是本发明的方法流程图;
图2是基于新型深度强化学习算法的免疫层析试条图像分割结果图;
图3是基于新型深度强化学习算法的免疫层析试条定量检测实例结果图。
具体实施方式
以下通过具体实施方式对本发明作进一步的描述。
下面结合附图和在基于图像的免疫层析试条定量检测上的具体实施例对本发明做进一步说明,如图1所示,一种用于图像分割的深度强化学习算法,包括以下步骤:
1、采集若干不同浓度样品液的免疫层析试条图像作为训练图像集,并对其进行预处理,分别提取出包含检测线和质控线的目标区域的感兴趣区域,并且将每一张训练图像被分为两张大小均为115*270的子图像。
2、针对要分割图像的特点,构建深度强化学习所需的状态值,动作值以及奖赏值。
21)针对要分割图像的特点,以子图像的每一列为研究对象,构建深度强化学习模型所必需的状态值,动作值,奖赏值。
22)确定状态量,选取图像每一列某一像素的领域灰度值向量组成状态值,比如领域大小选取为3,那么代表状态的输入向量维度为9。对于超出窗口的像素,采用镜像方法进行补充。
23)确定动作量:对于每一个子图像而言,深度强化学习智能体以顶端或者低端的第一个像素为起始点,根据当前状态与目标状态的差异向上(以低端为起始点)或者向下(以顶端为起始点)运动去改变状态。因此,动作的定义可依据下式:
a表示动作,当a为0时代表强化学习智能体停止运动,当a为1时表示智能体向上或者向下运动。
24)确定奖赏量:借助人工最佳分割版本评估当前分割的好坏,如果强化学习智能体当前的状态与目标状态符合率高于0.9,给与一个高的奖赏值,如果符合率低于0.9,给予一个负的惩罚值。奖赏值或惩罚值的定义如下:
cr表示当前状态的像素领域与目标像素领域之间的重合率,pf和pf|opt分别表示当前像素领域中的前景区域和目标像素领域中的前景区域,pb和pf|opt分别表示当前像素中的背景区域和目标像素中的背景区域。r表示奖赏值。
取8张不同浓度的图像作为训练集,对于每一张子图像,根据以上定义21)构建状态输入量,并且依据公式(4)和(5)计算出每个状态所对应的奖赏值。
3、构建合适的深度学习网络模型作为深度强化学习算法中的值网络和目标网络,选取深度信念网络,输入训练样本进行训练,并且根据图像分割效果来调节网络参数,从而确定深度网络模型。
31)构建基于受限玻尔兹曼机的深信度神经网络模型,包括一个输入层、两个隐含层和一个输出层,其中,输入层节点数为9,隐含层节点数均为20,输出层节点数为2;训练样本获取:通过深度强化学习智能体与不断环境交互,得到网络训练样本,并将其储存至经验池中,后续训练中,依据公式(1)和(2)从经验池中选取训练样本,初始的经验池大小设置为100,初始样本采样大小设置为80。
32)预训练阶段:将训练样本输入到第1层受限玻尔兹曼机的可见层,通过逐层训练的方式对各层受限玻尔兹曼机进行训练,低一层受限玻尔兹曼机隐含层输出作为高一层受限玻尔兹曼机可见层的输入,每层受限玻尔兹曼机通过对比散度算法确定模型参数θ=(wj,ai,bj)。
33)微调阶段:采用有监督学习方式对整个网络进行训练,将目标网络的输出作为值网络输出的标签,将值网络的实际输出与目标网络的误差逐层向后传播,对值网络的参数进行微调。
34)目标网络更新阶段:训练每间隔一段时间将值网络的参数赋给目标网络,其余训练时间目标网络的参数保持固定不变,实现值网络和目标网络的参数同步,目标网络的更新周期设置为20。
35)根据图像分割效果调节和优化网络参数,完成深信度神经网络的训练,参数确定如下:训练阶段学习率为0.1,奖赏折扣率为0.9。
4、根据多因子学习曲线动态调节经验池和样本采样大小,通过图像分割效果来调节深度神经网络的的参数,最终确定网络的模型。
41)在后续的训练过程中,为了提高训练效率,根据多因子学习曲线动态调节经验池的大小:
42)在后续的训练过程中,为了提高训练效率,根据多因子学习曲线动态调节样本采样的大小:
r表示经验池的大小,n表示样本采样大小,k表示算法的首次学习效果,一般取为常数1,steps表示训练步数,γ表示奖赏折扣率,α表示学习率,c表示目标网络更新步数间隔。
5、将待分割图像以同种方式组建为测试样本,输入训练好的深度强化学习模型得到初始的最终的分割结果y。
根据得到的图像分割结果计算待测样品液试条图像的特征量,根据样品液浓度与特征量之间的特定关系,得出待测物样品液的定量检测浓度值。
为了验证本发明方法在图像分割领域的效果,将其应用到基于图像的免疫层析试条定量检测上,对不同浓度的人绒毛膜促性腺激素样品液纳米金免疫层析试条图像进行分割,结果如图2、3所示。图2中左侧为试条的检测窗口,右侧为通过本方法的图像分割结果,可以看出,本方法能够取得较准确的分割效果。图3为根据图像分割的结果计算特征量,通过最小均方误差法拟合得到人绒毛膜促性腺激素特征量直线,明显地,拟合直线的相关度很好,相关系数为0.973,从而验证了本方法的准确性和应用性。
本发明提出的用于图像分割的深度强化学习算法,1)建立了针对图像分割的深度强化学习模型所需的状态值,动作值以及奖赏值;2)采用多因子学习曲线动态的调节经验池以及采样样本的大小,提高算法的效率;3)该新型深度强化学习算法能够取得较为准确的图像分割结果。特别的,该算法已经成功运用于免疫层析图像试条的识别及其定量检测,可以为环境检测、临床诊断、食品安全检测、农业生产以及其它一些新兴领域比如分子诊断提供一种有效、准确而快速的检测手段。
上述仅为本发明的具体实施方式,但本发明的设计构思并不局限于此,凡利用此构思对本发明进行非实质性的改动,均应属于侵犯本发明保护范围的行为。
1.一种用于图像分割的新型深度强化学习算法,其特征在于,包括:
s1:采集若干相关图像作为训练图像集,并且对其进行预处理,提取出包含目标区域的感兴趣区域;
s2:针对要分割图像的特点,建立深度强化学习所需的状态值,动作值以及奖赏值;
s3:构建合适的深度学习网络模型作为深度强化学习算法中的值网络和目标网络;
s4:在深度网络训练过程中,利用多因素自学习曲线对经验池和样本采样大小进行动态调整;
s4:完成网络的训练,对测试样本进行运动轨迹的预测,从而得到最终的图像的分割结果。
2.根据权利要求1所述的一种用于图像分割的新型深度强化学习算法,其特征在于,所述步骤s2中具体包括:
s21:针对要分割图像的特点,以图像感兴趣区域的每一列为研究对象,构建深度强化学习模型所需要的状态值,动作值,奖赏值;
s22:状态值的确定:选取图像每一列某一像素的领域灰度值向量组成状态值;
s23:动作值的确定:深度强化学习智能体以图像的顶部或者底部为起始位置,根据当前状态是否是最佳状态给出相应的奖赏值或者惩罚,并依据当前状态做出向上或者向下运动改变当前的状态;
s24:奖赏值的确定:依据强化学习智能体当前状态是否是目标状态给出相应的奖赏值,奖赏值可以由图像当前的分割效果与人工最佳分割版本进行对比得出,与人工版本符合率高给出较高的奖赏值,符合率低的给出相应的惩罚值。
3.根据权利要求1所述的一种用于图像分割的新型深度强化学习算法,其特征在于,所述步骤s3中具体包括:
s31:构建合适的深度学习网络模型作为深度强化学习算法中的值网络和目标网络,深度学习网络模型的输入层节点数与训练样本的状态特征向量维数一致,输出层的节点数与智能体的动作总数量相一致,隐含层的层数以及各层的节点数根据图像分割的效果来确定;
s32:预训练阶段从训练图片中获取训练样本并将训练样本储存到经验池中,从经验池中随机抽取部分训练样本,将训练样本输入到输入层,通过逐层训练的方式对各层结构进行训练,低一层隐含层输出作为高一层的输入;
s33:微调阶段:采用有监督学习方式对整个网络进行训练,将目标网络的输出作为值网络输出的标签,将值网络的实际输出与目标网络的误差逐层向后传播,对值网络的参数进行微调;
s34:目标网络更新阶段:训练每间隔一段时间将值网络的参数赋给目标网络,其余训练时间目标网络的参数保持固定不变,实现值网络和目标网络的参数同步;
s35:根据图像分割效果调节和优化网络参数,完成深度神经网络的训练;最后,根据训练好的深度强化学习模型对测试样本进行最终的分割。
4.根据权利要求1所述的一种用于图像分割的新型深度强化学习算法,其特征在于,所述步骤s4中具体包括:
s41:在后续的训练过程中,为了提高训练效率,根据多因子学习曲线动态调节经验池的大小:
s42:在后续的训练过程中,为了提高训练效率,根据多因子学习曲线动态调节样本采样的大小:
r表示经验池的大小,n表示样本采样大小,k表示算法的首次学习效果,一般取为常数1,steps表示训练步数,γ表示奖赏折扣率,α表示学习率,c表示目标网络更新步数间隔。
技术总结