本发明涉及计算机视觉领域的图像分类方法,具体涉及一种基于词袋模型和纹理特征的细胞光谱图像分类方法。
背景技术:
:细胞图像的特征提取和分类识别在辅助疾病诊断时有关键作用,计算机辅助诊断系统提供的特征描述和分类结果为医生的临床诊断提供了客观依据,可以提高诊断的准确率和效率,降低了人力成本,而且有效减少了因主观诊断经验造成的误诊现象。本发明使用的样本细胞图像由实验室自组的显微高光谱成像系统拍摄,样本细胞包括:椴树茎横切细胞、蚕豆叶下表皮细胞、洋葱表皮细胞、蜜蜂翅细胞和松花粉细胞。显微高光谱成像系统拍摄的图像不仅包含细胞的二维空间信息,还包含反映细胞特性的一维光谱信息,将二者结合成为一个三维的数据立方体,这样有助于特征提取和区分细胞类别。词袋模型是自然语言处理和信息检索领域的常用技术,它将一系列文本看作由许多独立的词汇构成,组成这些文本的词汇形成词典,一个文本中词典词汇出现的次数构成一个数值向量,这个向量就可以代表该文本进行分类。相应的,在计算机视觉领域,视觉词袋模型也成为了一种常用的图像表示方法。首先,对图像进行局部特征提取;然后,对这些局部特征进行聚类形成视觉词典;最后,统计一幅图像中所有视觉词汇出现的次数代表这幅图像。本发明使用sift(scale-invariantfeaturetransform,sift)具有尺度、旋转不变性的图像局部描述性算子提取图像的局部特征作为视觉单词,之后使用k-means聚类方法构建视觉词典。在对样本细胞拍摄时发现不同样本细胞的纹理特征有较大区别,纹理特征是一种全局特征,纹理是一种物体表面的特性,是对局部区域像素之间关系的一种度量,是描述识别物体的一种重要特征。细胞图像的纹理特征描述了图像中反复出现的局部规律和像素排列规则,反映了宏观意义上灰度变化的规律。纹理特征提取方法主要有:统计方法、几何法、模型法、信号处理法和结构方法。统计方法的典型代表是灰度共生矩阵的纹理特征分析方法,haralick等人定义了用于描述纹理特征的14个灰度共生矩阵特征参数,ulaby等人发现这14个参数中只有4个是不相关的即二阶矩、对比度、相关性和熵,本发明将相关性进行扩展并融入到svm(supportvectormachine,svm)核函数中形成加权核函数,此外补充一个逆差矩特征参数用于纹理分析,将词袋模型提取的图像特征和纹理分析得到的特征参数融合,有效提高了细胞图像分类精度。技术实现要素:目前,病理诊断仍然是医生诊断疾病的主要方式,但是诊断结果的准确率依靠着医生的经验,需要长期的学习和培训,有很高的人力和物力成本。随着图像识别、深度学习等技术的飞速发展,计算机辅助诊断系统为医生临床诊断提供了可靠的客观依据,有效提高了诊断准确率。本发明将显微成像和光谱成像技术结合起来,用到的样本细胞图像既包含细胞的空间信息,也包含了细胞在不同波长下的信息,提高了细胞图像分类的准确度。将拍摄的细胞图像实时上传工作站(通过无线或有线形式,如wi-fi、以太网网线等),利用细胞光谱图像分类程序进行分类。本发明的目的是通过以下技术方案实现的:首先,利用显微高光谱成像系统拍摄样本细胞,并对细胞光谱图像进行分割和直方图均衡化,提高图像对比度;其次分别计算图像的灰度共生矩阵和sift特征,得出图像的纹理特征向量和词袋模型后,将二者融合得到词袋纹理特征向量代表该细胞光谱图像;然后将拍摄的细胞光谱图像分为训练集和测试集,利用加权型svm分类器对训练集进行训练,得到加权型svm分类器模型并对测试集进行分类,得出细胞光谱图像的分类精度。本发明的流程图如图1所示,具体步骤如下:步骤一:利用由显微镜、液晶可调谐滤光片(liquidcrystaltunablefilter,lctf)、智能相机和计算机组成的显微高光谱成像系统拍摄样本细胞,基于lctf的光谱成像系统成像快、光强分布均匀、杂散光少,更适于目标探测采集用,方便医学图像方面的光谱数据采集。智能相机采用cmos图像传感器(ccd传感器的形式也可以更换采用),而且相机自身为嵌入式系统,可执行图片预处理及分析功能,拍摄得到的图像包含了细胞在不同波长下的信息,本发明采用的显微高光谱成像系统光谱范围为可见光波段,显微镜目镜和物镜倍数均可根据拍摄样本大小调节,由于拍摄的细胞图像有很大部分黑色背景区域,影响程序运行效率,选择一个合理的亮度阈值对图像进行分割,去除背景。步骤二:将经过分割的样本细胞光谱图像分别计算纹理特征参数向量和词袋模型,之后将二者融合,得到的词袋纹理特征向量代表该细胞光谱图像。根据样本细胞光谱图像得到灰度共生矩阵,计算出二阶矩、对比度、熵和逆差矩特征参数,具体步骤如下:步骤2-1-1:灰度共生矩阵定义为从灰度为n的像素点到灰度为m的像素点的概率,d是起点为n终点为m的向量d=(dx,dy),θ代表d的方向,灰度共生矩阵用p(n,m)(n,m=0,1,2,...,l-1)表示,l表示图像的灰度级(如图2所示)。细胞光谱图像有256个灰度级,对于计算灰度共生矩阵来说,灰度级过多。为减少计算量,提高效率,进行灰度级数压缩。步骤2-1-2:利用直方图均衡化技术处理图像,提高图像对比度,得到一幅拓展了动态范围的图像。步骤2-1-3:计算灰度共生矩阵,由于我们需要提取图像的纹理特征,通常取不同方向的d,取求得的特征参数均值作为一幅图像的纹理特征参数向量,这样就使得求出的特征参数与方向无关。步骤2-1-4:分别求4个方向灰度共生矩阵的特征参数。二阶矩反映图像灰度的均匀程度和纹理粗细度,其计算公式为:对比度反映图像的清晰度和纹理沟纹深浅的程度,其计算公式为:其中t=|n-m|。熵反映图像所具有的信息量,其计算公式为:逆差矩反映图像纹理局部变化的多少,其计算公式为:步骤2-1-5:分别求特征参数的均值,例如二阶矩特征参数计算公式:其中e0°,e45°,e90°,e135°,分别代表θ为0°,45°,90°,135°时灰度共生矩阵的二阶矩,另外3个特征值计算方法相同,计算出的特征参数组成一个的纹理特征参数向量t:t=[emeancmeanenmeandmean](6)代表该幅细胞光谱图像。将词袋模型运用到细胞光谱图像的分类上,具体步骤如下:步骤2-2-1:对细胞光谱图像逐波段进行均匀分割,分割出q个区域,每个区域经过局部特征提取,一共可以提取出q个视觉词汇。步骤2-2-2:对图像的q个区域进行sift特征提取,每个区域提取一个128维的特征向量作为该区域的视觉词汇。步骤2-2-3:对所有样本细胞图像提取出的sift特征向量进行k-means聚类,得到k个聚类中心即视觉词典。步骤2-2-4:根据得到的视觉词典,计算一幅图的视觉词汇(sift向量)到词典中词汇的距离,距离词典中视觉词汇最近的词汇归到该词典类,统计结果形成一个k维向量,称为该图像的词袋模型。提取纹理特征得到一个4维的纹理特征向量,提取词袋模型得到一个k维特征向量,将得到的词袋模型和纹理特征参数向量拼接融合,得到一个k 4维的词袋纹理特征向量z代表一幅细胞光谱图像。步骤三:本发明分类器采用加权型支持向量机模型,支持向量机又称最大间隔分类器,欲找到具有“最大间隔”的划分超平面,划分超平面可通过如下线性方程来描述:wtz b=0(7)其中w=(w1;w2;...;wd)为法向量,决定划分超平面的方向;b为位移项,决定超平面与原点之间的距离。为了最大化间隔需最小化||w||2,于是支持向量机基本型可表示为:s.t.yi(wtzi b)≥1,i=1,2,…,r.(9)其中zi表示训练样本,一共有r个样本。现已说明svm处理线性可分的情况,而对于非线性的情况,svm的处理方法是选择一个核函数,通过将数据映射到高维空间,来解决在原始空间中线性不可分的问题。svm分类器在进行多分类时,主要有两种方法:“一对一法”和“一对多法”。一对一法是在任意两类样本之间设计一个svm,因此h个类别就需要个svm分类器,当对一个未知样本进行分类时,最后得票最多的类别即为该未知样本的类别。一对多法训练时依次把某个类别的样本归为一类,其余剩余的样本归为一类,h个类别就构造了h个svm分类器。本发明svm多分类器是根据一对一法实现的。本发明在传统svm分类模型的基础上,将含有重要信息的数据与核函数进行融合,构成加权型核函数。本发明为加权型核函数中涉及到的加权系数设计了纹理相似性系数,即采用该系数作为加权系数。纹理相似性系数反映两个灰度共生矩阵元素在行或列方向上的相似程度,定义两个灰度共生矩阵的纹理相似性系数计算公式为:其中其中p1(n,m),p2(n,m)是两类图像同一方向上的灰度共生矩阵。在利用一对一法进行多分类时,一共有个分类器,每个分类器完成二分类任务,从两类的灰度共生矩阵4个方向上分别计算纹理相似性系数求均值,得到相应的纹理相似性系数λi,构成加权核函数,常用的核函数有线性核函数κlin(z,z')、多项式核函数κpoly(z,z')、高斯核函数κrbf(z,z')以及sigmoid核函数κsig(z,z'):将得到的数据集分为训练集和测试集,训练集中细胞光谱图像求出的特征向量输入加权svm分类器进行训练,优化分类器参数,得到加权svm分类器模型,之后将测试集输入到加权svm分类器中进行分类,得到细胞光谱图像分类精度。本发明与现有技术相比具有如下优点:本发明采用的细胞图像由实验室自组的显微高光谱成像系统拍摄,拍摄的样本图像既包含细胞空间信息,还包含不同波段上的信息,有利于特征提取。而且该显微高光谱成像系统波长只受波片两端的外部电场强度影响,控制简单,光谱范围宽且连续可调。目前存在的细胞分类方法只用到词袋模型,或者用纹理特征和形态特征结合进行分类,但分类精度较低,本发明将词袋模型和纹理特征参数结合,既用到了词袋模型,还用到了细胞光谱图像的纹理信息,而且分类器采用了加权型支持向量机,将含有重要信息的数据与核函数进行融合,构成加权型核函数,提高了细胞分类精度。附图说明图1为本发明方法的流程图。图2为灰度共生矩阵像素间关系示意图。图3为拍摄的样本细胞示意图。图4为显微高光谱成像系统示意图。图5为lctf与智能相机连接实物图。图6为图像分割前后对比示意图。图7多项式核函数svm分类结果示意图。图8高斯核函数svm分类结果示意图。图9蜜蜂翅细胞示意图。具体实施方式下面结合拍摄的五类细胞光谱图像阐述本发明的具体实施方式:利用实验室自组的显微高光谱成像系统拍摄5类细胞光谱图像分别为:椴树茎横切细胞、蚕豆叶下表皮细胞、洋葱表皮细胞、蜜蜂翅细胞和松花粉细胞,如图3所示,然后用本发明提出的细胞分类方法进行分类。执行步骤一:显微高光谱成像系统由显微镜、液晶可调谐滤光片(liquidcrystaltunablefilter,lctf)、智能相机和计算机组成,如图4所示。基于液晶可调谐滤光片的光谱成像系统成像快、光强分布均匀、杂散光少,且集成预处理功能,更适于目标探测采集用,方便医学图像方面的光谱数据采集。智能相机采用cmos图像传感器,而且相机自身为嵌入式系统,可执行图片预处理及分析功能,lctf和智能相机连接实物图如图5所示。利用实验室自组的显微高光谱成像系统分别拍摄5类样本细胞,拍摄的光谱范围为420~730nm,显微镜放大倍数100倍,每隔5nm拍摄一幅图像,一共63个波段,拍摄的细胞图像空间分辨率为640×480。拍摄的细胞图像灰度级为0~255,由于有很大部分的黑色背景区域,影响程序运行效率,亮度阈值设为20,对图像进行分割,分割前后对比图如图6所示。每类样本细胞共拍摄60幅图像,其中40幅图用来训练,20幅图用来测试,训练集共200张图像,测试集共100张图像。执行步骤二:将分割后的细胞光谱图像分别计算纹理特征参数和词袋模型,并对二者融合,得到的特征向量代表该细胞光谱图像。首先分析细胞光谱图像的纹理特征,将分割后的图像进行灰度级压缩,压缩为32级,细胞灰度图像原图一共256个灰度级,每个像素的亮度值除以8取整,压缩灰度级后,图像变暗,为了提高对比度和亮度,运用直方图均衡化技术处理图像。然后分别计算θ为0°,45°,90°,135°的灰度共生矩阵,灰度级l=32,生成的灰度共生矩阵p为32×32维,对于整幅图像i,其中任意一点a(x,y)及b(x,y),设a点的灰度值为in(x,y),b点的灰度值为im(x dx,y dy),令点(x,y)在整幅图中移动,得到32×32种(in,im)组合,统计每一种(in,im)出现的次数,排列成一个矩阵,设f(in,im)为每一种(in,im)出现的次数,则所有情况的总次数:p中每一个元素:则p为:灰度共生矩阵的每一个元素代表某个灰度组合下出现的概率,如元素p(0,1)代表图像上位置关系为d的两个像素灰度为0和1出现的概率。计算d=(1,0),d=(1,1),d=(0,1),d=(-1,1)时的灰度共生矩阵,再依据上述公式计算每个方向上灰度共生矩阵的特征值,求出均值,组成纹理特征向量t,图6所示图像计算得到的纹理特征向量为t=[0.01452.53014.71790.6389]。将词袋模型运用到细胞光谱图像上,对预处理后的细胞光谱图像进行均匀分割,8×8像素为一个区域,图6所示的图像可分为756个区域,每个区域进行sift特征提取,共提取756个128维的sift特征向量,对所有样本细胞图像提取出的sift特征向量进行k-means聚类,由于样本细胞种类不多,设k=20,k-means聚类具体步骤为:1)随机选取前两幅图像sift特征向量其中的20个为初始聚类中心2)对每一个sift特征向量h,找到离它最近的聚类中心,并将其分配到该类。使用欧式距离度量每一个样本到各类聚类中心的距离,找到离其距离最近的聚类中心。3)重新计算每一簇新的聚类中心pi,i=1,2,...,20其中ni是第i簇当前新的样本数,hij表示第i簇第j个sift特征向量,j=1,2......ni。4)计算偏差s:判断s值是否满足条件,如果满足则得到p1,p2...,p20,20个聚类中心,算法终止,否则跳转到第2)步。这20个聚类中心组成视觉词典计算一幅图的视觉词汇(sift向量)到词典中词汇的距离,距离词典中视觉词汇最近的词汇归到该词典类,统计结果形成一个20维向量,将得到的词袋模型和纹理特征参数向量融合,得到一个24维的词袋纹理特征向量z代表一幅细胞光谱图像。执行步骤三:经过上述步骤每幅细胞光谱图像得到一个24维的词袋纹理特征向量,每类细胞选取40幅图像用于训练,20幅图像用于测试,训练集和测试集图像数量比为2:1,计算纹理相似性系数并作为加权型支持向量机的核函数加权系数,将训练集中细胞光谱图像求出的词袋纹理特征向量输入svm加权分类器进行训练,优化分类器参数,得到svm分类器模型,之后将测试集输入到svm分类器中进行分类,得到细胞光谱图像分类精度,在进行实验时svm核函数选择加权高斯核函数(rbf)和加权多项式核函数,分类精度如表1所示,多项式核函数svm细胞分类结果如图7所示,高斯核函数svm细胞分类结果如图8所示。表1细胞光谱图像分类精度纹理特征词袋模型本发明方法加权svm多项式核函数53%92%95%加权svm高斯核函数62%93%96%由实验结果可知仅依据灰度纹理特征分类精度很低只有60%左右,词袋模型用于细胞分类精度可达93%,而本发明提出的方法将灰度纹理特征和词袋模型融合分类精度高达96%,而且核函数选择高斯核函数分类精度普遍高于多项式核函数。图像上样本细胞类别顺序为:蜜蜂翅细胞、蚕豆叶下表皮细胞、椴树茎横切细胞、松花粉细胞和洋葱表皮细胞,由图像可知,第一类蜜蜂翅细胞分类精度较差,蜜蜂翅细胞图像如图9所示,蜜蜂翅细胞的灰度分布均匀,纹理沟纹浅比较模糊,图像的局部纹理缺少变化,纹理特征不明显,这些原因导致该类细胞分类难度较大。从图像还可以看出,本发明提出的方法在分类时将两种特征间信息互补。例如第四类样本松花粉细胞,在基于词袋模型和纹理特征分别分类时,都存在分类错误的样本,而本发明提出的方法使得该类的单类别分类精度到达100%。当前第1页1 2 3 
技术特征:1.一种基于词袋模型和纹理特征的细胞光谱图像分类方法,其特征在于它包括以下步骤:
步骤一:利用实验室自组的显微高光谱成像系统拍摄样本细胞,拍摄得到的图像包含了细胞在不同波长下的信息,拍摄的细胞图像有很大部分黑色背景区域,选择一个合理的亮度阈值对图像进行分割,去除背景;
步骤二:将经过分割的样本细胞光谱图像分别计算纹理特征参数向量和词袋模型,根据样本细胞光谱图像得到灰度共生矩阵,计算出二阶矩e、对比度c、熵en和逆差矩d特征参数,之后将纹理特征向量和词袋模型融合,得到的词袋纹理特征向量代表该细胞光谱图像;
步骤三:计算纹理相似性系数得到加权核函数,将数据集分为训练集和测试集,将训练集中细胞光谱图像的词袋纹理特征向量输入加权型svm多分类器进行训练,优化分类器参数,得到svm分类器模型,将测试集输入到svm分类器中进行分类,得到细胞光谱图像分类精度。
2.根据权利要求1所述的词袋模型和纹理特征的细胞光谱图像分类方法,其特征在于所述的步骤一具体包括:
利用由显微镜、lctf、智能相机和计算机组成的显微高光谱成像系统拍摄5类样本细胞,基于液晶可调谐滤光片的光谱成像系统成像快、光强分布均匀、杂散光少,更适于目标探测采集用,方便医学图像方面的光谱数据采集,智能相机采用cmos图像传感器,而且相机自身为嵌入式系统,可执行图片预处理及分析功能,拍摄得到的图像包含了细胞在不同波长下的信息,显微高光谱成像系统光谱范围为可见光波段,显微镜目镜和物镜倍数均可根据拍摄样本大小调节,由于拍摄的细胞图像有很大部分黑色背景区域,影响程序运行效率,选择一个合理的亮度阈值对图像进行分割,去除背景。
3.根据权利要求1所述的词袋模型和纹理特征的细胞光谱图像分类方法,其特征在于所述的步骤二具体包括:
根据样本细胞光谱图像得到灰度共生矩阵,计算出二阶矩、对比度、熵和逆差矩特征参数,具体步骤如下:
步骤2-1-1:初始细胞光谱图像灰度级较多,为提高效率进行灰度级压缩;
步骤2-1-2:运用直方图均衡化技术处理图像,提高亮度和对比度;
步骤2-1-3:根据样本细胞光谱图像得到4个方向上的灰度共生矩阵;
步骤2-1-4:计算二阶矩e、对比度c、熵en和逆差矩个特征参数:
其中p(n,m)表示灰度共生矩阵n行m列的值;
步骤2-1-5:分别求特征参数的均值,例如二阶矩特征参数计算公式:
其中e0°,e45°,e90°,e135°,分别代表θ为0°,45°,90°,135°时的二阶矩,另外4个特征值计算方法相同,计算出的特征参数组成一个纹理特征参数向量t:
t=[emeancmeanenmeandmean]
代表该幅细胞光谱图像。
4.根据权利要求1所述的词袋模型和纹理特征的细胞光谱图像分类方法,其特征在于所述的步骤二具体包括:
将词袋模型运用到细胞光谱图像的分类上,具体步骤如下:
步骤2-2-1:对细胞光谱图像逐波段进行均匀分割,分割出q个区域,每个区域经过局部特征提取,一共可以提取出q个视觉词汇;
步骤2-2-2:对图像的q个区域进行sift特征提取,每个区域提取一个128维的特征向量作为该区域的视觉词汇;
步骤2-2-3:对所有样本细胞图像提取出的sift特征向量进行k-means聚类,得到k个聚类中心即视觉词典;
步骤2-2-4:根据得到的视觉词典,计算一幅图的视觉词汇(sift向量)到词典中词汇的距离,距离词典中视觉词汇最近的词汇归到该词典类,统计结果形成一个k维向量,称为该图像的词袋模型;
提取纹理特征得到一个4维的纹理特征向量,提取词袋模型得到一个k维特征向量,将得到的词袋模型和纹理特征参数向量拼接融合,得到一个k 4维的词袋纹理特征向量z代表一幅细胞光谱图像。
5.根据权利要求1所述的词袋模型和纹理特征的细胞光谱图像分类方法,其特征在于所述的步骤三具体包括:
本发明分类器采用加权型支持向量机模型,支持向量机又称最大间隔分类器,欲找到具有“最大间隔”的划分超平面,划分超平面可通过如下线性方程来描述:
wtz b=0
其中w=(w1;w2;…;wd)为法向量,决定划分超平面的方向;b为位移项,决定超平面与原点之间的距离,为了最大化间隔需最小化||w||2,于是支持向量机基本型可表示为:
s.t.yi(wtzi b)≥1,i=1,2,...,r.
其中zi表示训练样本,一共有r个样本,现已说明svm处理线性可分的情况,而对于非线性的情况,svm的处理方法是选择一个核函数,通过将数据映射到高维空间,来解决在原始空间中线性不可分的问题,svm分类器在进行多分类时,主要有两种方法:“一对一法”和“一对多法”,一对一法是在任意两类样本之间设计一个svm,因此h个类别就需要个svm分类器,当对一个未知样本进行分类时,最后得票最多的类别即为该未知样本的类别,一对多法训练时依次把某个类别的样本归为一类,其余剩余的样本归为一类,h个类别就构造了h个svm分类器,本发明svm多分类器是根据一对一法实现的;
本发明在传统svm分类模型的基础上,将含有重要信息的数据与核函数进行融合,构成加权型核函数,本发明为加权型核函数中涉及到的加权系数设计了纹理相似性系数,即采用该系数作为加权系数,纹理相似性系数反映两个灰度共生矩阵元素在行或列方向上的相似程度,定义两个灰度共生矩阵的纹理相似性系数计算公式为:
其中
其中p1(n,m),p2(n,m)是两类图像同一方向上的灰度共生矩阵,在利用一对一法进行多分类时,一共有个分类器,每个分类器完成二分类任务,从两类的灰度共生矩阵4个方向上分别计算纹理相似性系数求均值,得到相应的纹理相似性系数λi,构成加权核函数,常用的核函数有线性核函数κlin(z,z')、多项式核函数κpoly(z,z')、高斯核函数κrbf(z,z')以及sigmoid核函数κsig(z,z'):
将得到的数据集分为训练集和测试集,训练集中细胞光谱图像求出的特征向量输入加权svm分类器进行训练,优化分类器参数,得到加权svm分类器模型,之后将测试集输入到加权svm分类器中进行分类,得到细胞光谱图像分类精度。
技术总结一种基于词袋模型和纹理特征的细胞光谱图像分类方法,它涉及运用特征提取技术进行细胞光谱图像分类,可用于医学上计算机辅助诊断系统中,提高临床及实验诊断效率和准确率。本发明的步骤为:一、利用显微高光谱成像系统拍摄样本细胞光谱图像;二、对细胞光谱图像进行纹理特征提取和词袋模型计算;三、将得到的词袋纹理特征向量输入加权型SVM多分类模型进行训练,优化分类器参数,并用测试集得出分类精度。本发明的基本思想是不仅运用细胞图像的空间信息,还运用其光谱信息,并在特征提取时将词袋模型和纹理特征融合对细胞图像进行分类,可有效提高细胞图像的分类精度。
技术研发人员:张淼;鲁一帆;牛思聪;冯迦炆;沈毅
受保护的技术使用者:哈尔滨工业大学
技术研发日:2020.01.14
技术公布日:2020.06.09