本发明属于医学图像处理技术领域,尤其涉及一种基于影像组学的肝癌图像特征提取与病理分类方法。
背景技术:
肝癌是世界上癌症死亡的主要原因之一,在全球的肿瘤发病率和死亡率分别排第7位和第3位。中国占世界新发肝癌病例的50%,危害国民健康的同时给家庭和社会造成沉重的经济负担。根据肝癌的不同阶段进行个体化综合治疗,是提高疗效的关键。目前,判断肝癌分期的传统影响因素包括肿瘤大小、数目、肿瘤浸润深度等,并无法反映肿瘤的内在异质性,而肿瘤异质性决定了肿瘤的临床生物学行为和预后。肝癌的病理学分级可以通过活检获得,然而活检获得肿瘤标本进行肿瘤分级的准确性存在争议,并有肿瘤种植转移等风险。亟需一种非侵入式的虚拟的数字活检方法,影像组学有望成为解决手术前评价肝癌分化这一临床难题的有效工具。
近些年,荷兰学者lambin提出了影像组学(radiomics)的概念,将包含有大量的肿瘤病理生理改变信息的数字化的医学图像被转换成可供开发的高维度数据,通过定量的方法对这些信息数据进行分析,实现对肿瘤诊断、疗效和预后等因素的评估,以提高临床的决策能力。其不同于受到采样位置限制的侵入式活检方法,影像组学特征可以非侵入式地反映肿瘤内在异质性。以前的研究表明,来源于计算机断层扫描成像(ct)磁共振成像(mri)的影像组学特征有助于其他癌症的病理分级识别,然而在肝癌病理分级方面的影像组学研究较少,对于术前肝癌的分化程度评价仍然是粗糙的。因此需要探索影像新技术和新方法以获得术前相对准确的肝癌病理分级预测模型。
技术实现要素:
本发明公开了一种基于影像组学的术前肝癌病理分级模型。其目的是利用影像组学的技术,完成对肝癌病理分级模型的全流程设计,构建影像组学特征参与的预测模型,为肝癌的术前病理分级评价提供实用的评价方法,帮助实现肝癌患者的精准治疗。
本发明解决其技术问题所采用的技术方案如下:
步骤(1).将肝癌图像及其对应的病理分类标签作为训练数据集;
步骤(2).利用growcut算法对影像中的肝癌病灶区域进行半自动分割,提取肝癌病灶区域的影像;
步骤(3).对步骤(2)中分割出来的肝癌病灶区域进行影像组学特征的提取,所述的影像组学特征包括形态学特征、灰度统计特征、纹理特征和小波特征,得到影像组学特征集合x={x1,x2,...,xn},其中n表示特征向量的数量,xi表示影像组学特征集合中的第i个特征向量,xi={xi1,xi2,...,xim},xi表示xi中的第i个元素,m表示xi中的元素数量;
步骤(4).对步骤(3)中提取的影像组学特征进行筛选:
步骤(4.1).首先通过过滤法排除只有单一值的特征、方差小于预设阈值的特征、与病理分级无关的特征、以及冗余特征;
特征与病理分级的关系强度通过互信息计算来衡量,将互信息值低于预设阈值的特征称为与病理分级无关的特征,所述互信息的计算公式为:
其中,xi表示影像组学特征集合中的第i个特征向量,y表示标签,p(x,y)是x和y的联合概率密度函数,p(x)和p(y)分别是x和y的边缘概率密度函数;
所述的冗余特征为相关系数大于0.9的特征,相关系数的计算公式为:
其中,ρ为相关系数的计算结果,xik表示影像组学特征集合中的第i个特征向量中的第k个元素,xjk表示影像组学特征集合中的第j个特征向量中的第k个元素,
步骤(4.2).采用boruta算法对筛选后的影像组学特征进行二次筛选,步骤为:
a.将步骤(4.1)筛选后得到的特征矩阵x′随机打乱顺序,得到阴影特征矩阵xs,将xs拼接在x′后面,构成新的特征矩阵n=[x′,xs];
b.将新的特征矩阵输入随机森林分类器,得到x′和xs的z分数;
c.将z分数作为重要性度量,取xs的z分数的最大值mzsa,将x′中得分高于mzsa的特征记录一次命中;
d.根据累计命中次数,标记x′中特征重要或者不重要,
e.对于每个重要性未定的属性,执行与mzsa相等的双侧检验;
f.将标记为不重要的特征剔除,重复步骤a-e,直到所有的特征都被标记;
所述的重要性度量是通过对象之间属性值的随机排列导致分类准确性的损失来获得的,通过随机森林分类器得到精度损失的平均值和标准偏差,由平均损失除以其标准偏差计算得到z分数;
步骤(5).获取肝癌病灶区域影像的临床指标特征,利用χ2检验和kruskal-wallish检验对临床指标特征进行筛选,剔除显著性水平p值大于0.01的临床指标特征;
步骤(6).将经过步骤(4)筛选得到的影像组学特征和经过步骤(5)筛选得到的临床指标特征进行融合,融合后的特征采用步骤(4.2)所述的boruta算法进行最终的特征筛选,获得最终特征矩阵;将最终特征矩阵输入随机森林进行训练预测,获得最佳预测模型,最终映射为肝癌的病理分级结果;
步骤(7).获取待进行肝癌病理分级的临床ct影像,按照步骤(2)分割出肝癌病灶区域影像,从肝癌病灶区域影像中提取与步骤(6)所述最终特征矩阵中特征类别相同的特征作为待分级特征矩阵,将待分级特征矩阵输入到步骤(6)得到的最佳预测模型中,得到肝癌病理分级结果。
进一步的,本发明的提取的特征主要包括以下的几种类别:
a.形态学特征,代表肿瘤形状的相关特征,各个形态特征的计算公式为:
网格表面:
其中oiai和oibi是网格中第i个三角形的边,由顶点ai、bi和原点o构成。
像素表面:
通过将感兴趣区域中的像素数乘以单个像素ak的表面积来近似感兴趣区域apixel的表面积。
周长:
其中ai和bi是外围网格中第i条线的顶点。首先计算网格圆周中每条线的周长pi。然后通过取所有计算出的子区域的总和来获得总周长p。
周长与表面积之比:
圆球度:
球形不规则度:
主轴长度:
λmajor表示对感兴趣区域像素中心的物理坐标执行主成分分析后的最大主成分值;主轴长度特征产生包围感兴趣区域的椭球的最大轴长,并且使用最大主成分λmajor来计算;
短轴长度:
λminor表示对感兴趣区域像素中心的物理坐标执行主成分分析后的最二大主成分值;短轴长度特征产生包围感兴趣区域的椭球的第二大轴长度,并且使用最二大主成分λminor来计算;
延伸率:
延伸率显示了感兴趣区域形状中两个最大主成分之间的关系。
b.一阶特征(灰度统计特征):灰度统计特征是基于强度直方图得到的特征,描述了肿瘤区内的像素强度的分布。用下式表示强度直方图的定义:
其中,i表示离散强度级别,np表示肝癌病灶区域影像中总的像素数,ng表示离散强度级别的种类数,ni表示肝癌病灶区域影像中具有离散强度级别i的像素个数,h(i)表示肝癌病灶区域影像中具有离散强度级别i的像素出现的频率;此外,令m表示肝癌肿瘤区域所有像素的像素值集合,m(i)表示第i个像素的像素值;
所述的灰度统计特征包括:
能量:
总能量:
熵:
四分位间距:interquartilerange=n75-n25,其中n25和n75分别表示离散强度级别在第25和第75百分位的像素个数;
平均绝对偏差:
稳健的平均绝对偏差:
稳健平均绝对偏差是在灰度级介于或等于第10和第90百分位的像素矩阵子集上计算的所有强度值与平均值的平均距离;
偏度:
峰度:
一致性:
此外还有常用的一阶统计特征包括最大值、最小值、均值、方差、标准差,这里均不再赘述。
c.二阶特征(纹理特征):纹理特征分析由图像的灰度共生矩阵(glcm)、灰度游程矩阵(glrlm)、灰度区域大小矩阵(glszm)、局部灰度差分矩阵(ngtdm)提取用于描述肿瘤内纹理分布的特征。
glcm:计算在肿瘤区中相邻体素之间的灰度关系来表征图像的纹理。大小为ng×ng的glcm描述了受掩模约束的图像区域的二阶联合概率函数,定义为p(i,j|δ,θ)。该矩阵的第(i,j)个元素表示图像中像素i级和j级沿角度θ相距δ像素的组合出现次数。中心像素的δ被定义为具有无穷范数的距离。
glrlm:分析相同强度的像素在空间中的关系来表述图像的条状纹理。灰度级游程被定义为连续具有相同灰度级值的像素数量长度。在灰度级游程长度矩阵p(i,j|θ)中,第(i,j)个元素描述了灰度级i和长度j沿角度θ出现在图像(roi)中的游程数量。
glszm:灰度级大小区域量化图像中的灰度级区域。灰度区域被定义为共享相同灰度强度的连接像素的数量。根据无穷范数,如果距离为1(2d中的8连通区域,3d中的26连通区域),则像素被认为是连通的。在灰度级区域矩阵p(i,j)中,第(i,j)个元素等于图像中出现的具有灰度级i和尺寸j的区域的数量。与灰度共生矩阵和glrlm矩阵相反,是独立于旋转的,在感兴趣区域的所有方向上只计算一个矩阵。
ngtdm:描述基于某个体素及其邻域的纹理视觉特性。相邻灰度差异矩阵量化距离δ内相邻灰度值和平均灰度值之间的差异。灰度级i的绝对差值之和存储在矩阵中。让xgl是一组分割的体素,xgl(jx,jy,jz)∈xgl是一个体素在位置(jx,jy,jz)的灰度级,那么邻域的平均灰度级是:
其中(jx,jy,jz)≠(0,0,0)并且xgl(jx kx,jy ky,jz kz)∈xgl。w是领域的像素个数。
d.小波特征:采用非抽样二维(2d)小波变换对原始二维图像进行滤波。将二维图像看成一系列行向量构成,经过小波滤波以后原信号被分为高频信号和低频信号两部分,对这两部分信号进行下采样,保留行向量的小标为偶数的元素,这样高频部分得到相应的高频矩阵,低频信号获得新的低频矩阵。再分别针对新生成的矩阵的列向量进行小波滤波以及下采样,由此获得三个高频信号和一个低频信号。再对低频信号进行上述处理,反复jdec次后最终获得jdec×3个高频信号以及一个低频近似图像。使用的daubechies小波的模平方表达式为:
|m0(ω)|2=[cos2(ω/2)]np[sin2(ω/2)]
其中小波的离散形式为
进一步的,为结合临床,充分挖掘有助于肝癌病理分级的信息,需对病人的临床特性进行筛选后融合进后续模型的构建。首先分别利用χ2检验和kruskal-wallish检验进行分类变量、连续变量的组间差异分析。卡方检验的计算公式如下:
其中,ai为i水平的观测频数,ei为原假设条件下i水平的期望频数,n为总频数,pi为i水平的期望概率。i水平的期望频数ei等于总频数n×i水平的期望概率pi,k为单元格数。当n比较大时,χ2统计量近似服从k-1个自由度的卡方分布。
kruskal-wallish检验用来检验k个独立样本的组间差异,计算公式为:
式中,k为样本数,nj为第j个样本的个案数,n为总个案数;rj为第j个样本中的秩和。通过以上两种假设检验将显著性水平设置为0.01,p值大于0.01的临床特性舍去后,将保留的临床特性与步骤(4)中筛选出的影像组学特征融合并再次代入到boruta算法中进行最终的特征筛选。
本发明的另一目的在于提供一种基于影像组学的肝癌图像特征提取与病理分类装置,其包括:
采样模块,用于将肝癌图像中的肝癌病灶区域进行分割,提取肝癌病灶区域的影像并进行标注,将带有标注结果的肝癌病灶区域影像作为训练集合;
特征提取模块,用于对采样模块得到的肝癌病灶区域进行影像组学特征和临床指标特征的提取;所述的影像组学特征包括形态学特征、灰度统计特征、纹理特征和小波特征,得到影像组学特征集合和临床指标特征集合;
特征筛选模块:用于将特征提取模块获得的影像组学特征和临床指标特征进行筛选;
分类模块,用于将特征筛选结果进行组合,作为最终特征矩阵,并进行分类。
作为本发明的优选,所述采样模块包括:
标注子模块:用于将肝癌图像进行前景区域和背景区域的区分,所述的前景区域为肝癌病灶区域,背景区域为非肝癌病灶区域,并为肝癌病灶区域的像素分配标签,为元胞自动机子模块提供初始分割种子。
元胞自动机子模块:用于为肝癌病灶区域的每一个像素分配标签,通过建立三元组a=(s,n,δ)实现,其中a表示一个元胞自动机模型,s是一个非空状态集,n是领域系统,δ是局部状态转移函数;元胞自动机子模块的初始状态通过指定分割种子实现。
作为本发明的优选,所述特征筛选模块包括:
第一级特征筛选子模块:用于排除只有单一值的特征、方差小于预设阈值的特征、互信息值低于预设阈值的特征、以及相关系数大于0.9的特征;
第二级特征筛选子模块:用于基于boruta算法,将第一级特征筛选子模块筛选后的特征进行进一步筛选。
本发明的另一目的在于提供一种基于影像组学的肝癌图像特征提取与病理分类装置,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现前述任一方案所述的基于影像组学的肝癌图像特征提取与病理分类方法。
本发明的另一目的在于提供一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现前述任一方案所述的基于影像组学的肝癌图像特征提取与病理分类方法。
本发明的有益效果:
本发明开发了一套完整的基于影像组学的用于肝癌病理分级模型构建系统和装置,包括数据获取、病灶分割、特征提取、特征筛选、模型构建。最终借用随机森林的机器学习方法获得一种适应影像组学特征和临床特征的肝癌病理分级模型。实验结果表明,该模型可以有效预测术前肝癌的病理分级,与其它在医学诊断上尝试过的分类模型相比较,本发明在算法和运用上都有自己的独创性和独特性,而且对区别微妙差异的性能更加优越,该装置可方便地用作术前评估工具,有望帮助外科医生在未来定制个体化术前治疗方案和预后评估。
附图说明
图1为本发明的一种基于影像组学的肝癌图像特征提取与病理分类方法的流程图。
具体实施方式
下面结合附图对本发明方法作进一步说明。
步骤(1).将肝癌图像及其对应的病理分类标签作为训练数据集;
步骤(2).利用growcut算法实现对肝癌病灶区域的半自动分割。在网格位置
细胞状态
元胞自动机的初始状态通过指定分割种子实现。为种子的对应细胞设定标签后,同时将细胞强度设置为种子的强度值。在第t 1次迭代中,细胞标签
其中g是限制在[0,1]之间的单调递减函数,表达公式为:
其中,x表示
区域生长和竞争的规则:在每个离散的时间步中,每个细胞都试图“攻击”其邻域,攻击力由攻击细胞的强度θq以及“攻击者”和“防御者”的特征向量
步骤(3).对步骤(2)中分割出来的病灶区域进行图像特征的提取,提取的特征主要包括以下的几种类别:
a.形态学特征。各个形态特征的计算公式为:
网格表面积a:
其中oiai和oibi是网格中第i个三角形的边,由顶点ai、bi和原点o构成,nf表示网格中三角形的个数。
像素表面积:
通过将感兴趣区域中的像素数乘以单个像素ak的表面积来近似感兴趣区域apixel的表面积,nv表示像素数。
周长p:
其中ai和bi是外围网格中第i条线的顶点。首先计算网格圆周中每条线的周长pi。然后通过取所有计算出的子区域的总和来获得总周长p,nw表示总线数。
周长与表面积之比:
圆球度:
球形不规则度:
主轴长度:
λmajor表示对感兴趣区域像素中心的物理坐标执行主成分分析后的最大主成分值;主轴长度特征产生包围感兴趣区域的椭球的最大轴长,并且使用最大主成分λmajor来计算;
短轴长度:
λminor表示对感兴趣区域像素中心的物理坐标执行主成分分析后的最二大主成分值;短轴长度特征产生包围感兴趣区域的椭球的第二大轴长度,并且使用最二大主成分λminor来计算;
延伸率:
b.一阶特征(灰度统计特征):所述的灰度统计特征是基于强度直方图得到的特征,表示肝癌病灶区域内的像素强度的分布,用下式表示强度直方图的定义:
其中,i表示离散强度级别,np表示肝癌病灶区域影像中总的像素数,ng表示离散强度级别的种类数,ni表示肝癌病灶区域影像中具有离散强度级别i的像素个数,h(i)表示肝癌病灶区域影像中具有离散强度级别i的像素出现的频率;此外,令m表示肝癌肿瘤区域所有像素的像素值集合,m(i)表示第i个像素的像素值;
所述的灰度统计特征包括:
能量:
这里c是可选值,表示移动的像素强度以防止在x中出现负值。
总能量:
熵:
四分位间距:interquartilerange=n75-n25(3-14)
其中n25和n75分别表示离散强度级别在第25和第75百分位的像素个数。
平均绝对偏差:
稳健的平均绝对偏差:
其中m10-90(i)表示离散强度级别在第10和第90百分位之间第i个像素的像素值,
偏度:
峰度:
一致性:
此外还有常用的一阶统计特征包括最大值、最小值、均值、方差、标准差。
c.二阶特征(纹理特征):通过图像的灰度共生矩阵(glcm)、灰度游程矩阵(glrlm)、灰度区域大小矩阵(glszm)、局部灰度差分矩阵(ngtdm)提取用于描述肿瘤内纹理分布的特征。
glcm:大小为ng×ng的glcm描述为受掩模约束的图像区域的二阶联合概率函数,定义为p(i,j|δ,θ)。该矩阵的第(i,j)个元素表示图像中像素i级和j级沿角度θ相距δ像素的组合出现次数。中心像素的δ被定义为具有无穷范数的距离。
glrlm:在灰度级游程长度矩阵p(i,j|θ)中,第(i,j)个元素描述了灰度级i和长度j沿角度θ出现在图像(roi)中的游程数量。
glszm:在灰度区域矩阵p(i,j)中,第(i,j)个元素等于图像中出现的具有灰度级i和尺寸j的区域的数量。在感兴趣区域的所有方向上只计算一个矩阵。
ngtdm:相邻灰度差异矩阵量化距离δ内相邻灰度值和平均灰度值之间的差异。灰度级i的绝对差值之和存储在矩阵中。让xgl是一组分割的体素,是xgl(jx,jy,jz)∈xgl一个体素在位置(jx,jy,jz)的灰度级,那么邻域的平均灰度级是:
其中(jx,jy,jz)≠(0,0,0)并且xgl(jx kx,jy ky,jz kz)∈xgl。w是领域的像素个数。
d.小波特征:采用非抽样二维(2d)小波变换对原始二维图像进行滤波。将二维图像看成一系列行向量构成,经过小波滤波以后原信号被分为高频信号和低频信号两部分,对这两部分信号进行下采样,保留行向量的小标为偶数的元素,这样高频部分得到相应的高频矩阵,低频信号获得新的低频矩阵。再分别针对新生成的矩阵的列向量进行小波滤波以及下采样,由此获得三个高频信号和一个低频信号。再对低频信号进行上述处理,反复jdec次后最终获得jdec×3个高频信号以及一个低频近似图像。本发明设置尺度为jdec=1的分解,共获得四种组合的小波变换的图像,即xlyl,xlyh,xhyl,xhyh,其中xlyl表示在x方向上取低频段,在y方向上取低频段的图像。使用的daubechies小波的模平方表达式为:
|m0(ω)|2=[cos2(ω/2)]np[sin2(ω/2)](3-21)
其中小波的离散形式为
步骤(4).对步骤(3)中提取的特征进行特征筛选。特征筛选主要从过滤法和包裹法两方面入手:
ⅰ.排除了只有单一值的特征。同样,方差太小的特征也被过滤掉。
ⅱ.基于互信息过滤与病理分级明显无关的特征。互信息计算公式为:
其中,xi表示影像组学特征集合中的第i个特征向量,y表示标签,p(x,y)是x和y的联合概率密度函数,p(x)和p(y)分别是x和y的边缘概率密度函数;
ⅲ.使用相关分析去除相关系数大于0.9的冗余特征。相关系数的计算公式为:
其中,ρ为相关系数的计算结果,xik表示影像组学特征集合中的第i个特征向量中的第k个元素,xjk表示影像组学特征集合中的第j个特征向量中的第k个元素,
接下来采用基于随机森林的boruta算法。boruta算法步骤如下:
a.将步骤(4.1)筛选后得到的特征矩阵x′随机打乱顺序,得到阴影特征矩阵xs,将xs拼接在x′后面,构成新的特征矩阵n=[x′,xs];
b.将新的特征矩阵n输入随机森林分类器,得到x′和xs的z分数;
c.将z分数作为重要性度量,取xs的z分数的最大值mzsa,将x′中得分高于mzsa的特征记录一次命中;
d.根据累计命中次数,标记x′中特征重要或者不重要,
e.对于每个重要性未定的属性,执行与mzsa相等的双侧检验;
f.将标记为不重要的特征剔除,重复步骤a-e,直到所有的特征都被标记或者已经达到预设的随机森林运行限制;
所述的重要性度量是通过对象之间属性值的随机排列导致分类准确性的损失来获得的。在随机森林中计算出精度损失的平均值和标准偏差。由平均损失除以其标准偏差计算出z分数。
步骤(5).结合临床特性进行后续模型的构建。首先分别利用χ2检验和kruskal-wallish检验进行分类变量、连续变量的组间差异分析。卡方检验的计算公式如下:
其中,ai为i水平的观测频数,ei为原假设条件下i水平的期望频数,n为总频数,pi为i水平的期望概率。i水平的期望频数ei等于总频数n×i水平的期望概率pi,k为单元格数。当n比较大时,χ2统计量近似服从k-1个自由度的卡方分布。
kruskal-wallish检验用来检验k个独立样本的组间差异,计算公式为:
式中,k为样本数,nj为第j个样本的个案数,n为总个案数;rj为第j个样本中的秩和。将显著性水平设置为0.01,通过以上两种假设检验,将p值大于0.01的临床特性舍去后,将保留的临床特性与步骤(4)中筛选出的影像组学特征融合并再次代入到boruta算法中进行最终的特征筛选,获得最终特征矩阵。
步骤(6).将最终特征矩阵进行随机森林(rf)训练预测,获得最佳预测模型,最终映射为肝癌的病理分级。
rf采用多中心的方法进行训练、测试和验证模型。具体方案如下:
步骤(6.1).将来自一家机构的数据样本随机按照7:3的比例分为训练集和内部测试集,同时保证每一级病理的样本比例相等。在训练集进行rf训练并在内部测试集上测试以获得最佳模型。
步骤(6.2).来自另外一家机构的数据样本作为外部独立验证集来验证模型的泛化能力。模型的性能由roc和auc来衡量。
模型可表达如下:
grade=rf(index1,index2,…,indexn)(6-1)
其中,grade为肝癌病理分级的预测结果。
在另一实施例中提供了一种基于影像组学的肝癌图像特征提取与病理分类装置,其包括:
采样模块,用于将肝癌图像中的肝癌病灶区域进行分割,提取肝癌病灶区域的影像并进行标注,将带有标注结果的肝癌病灶区域影像作为训练集合;
特征提取模块,用于对采样模块得到的肝癌病灶区域进行影像组学特征和临床指标特征的提取;所述的影像组学特征包括形态学特征、灰度统计特征、纹理特征和小波特征,得到影像组学特征集合和临床指标特征集合;
特征筛选模块:用于将特征提取模块获得的影像组学特征和临床指标特征进行筛选;
分类模块,用于将特征筛选结果进行组合,作为最终特征矩阵,并进行分类。
其中,采样模块包括:
标注子模块:用于将肝癌图像进行前景区域和背景区域的区分,所述的前景区域为肝癌病灶区域,背景区域为非肝癌病灶区域,并为肝癌病灶区域的像素分配标签,为元胞自动机子模块提供初始分割种子。
元胞自动机子模块:用于为肝癌病灶区域的每一个像素分配标签,通过建立三元组a=(s,n,δ)实现,其中a表示一个元胞自动机模型,s是一个非空状态集,n是领域系统,δ是局部状态转移函数;元胞自动机子模块的初始状态通过指定分割种子实现。
其中,特征筛选模块包括:
第一级特征筛选子模块:用于排除只有单一值的特征、方差小于预设阈值的特征、互信息值低于预设阈值的特征、以及相关系数大于0.9的特征;
第二级特征筛选子模块:用于基于boruta算法,将第一级特征筛选子模块筛选后的特征进行进一步筛选。
另外,在另一实施例中,本发明提供了一种基于影像组学的肝癌图像特征提取与病理分类装置,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现前述任一方案所述的基于影像组学的肝癌图像特征提取与病理分类方法。
需要注意的是,存储器可以包括随机存取存储器(randomaccessmemory,ram),也可以包括非易失性存储器(non-volatilememory,nvm),例如至少一个磁盘存储器。上述的处理器可以是通用处理器,包括中央处理器(centralprocessingunit,cpu)、网络处理器(networkprocessor,np)等;还可以是数字信号处理器(digitalsignalprocessing,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。当然,还装置中还应当具有实现程序运行的必要组件,例如电源、通信总线等。
本发明的另一目的在于提供一种计算机可读存储介质,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现前述任一方案所述的基于影像组学的肝癌图像特征提取与病理分类方法。
下面利用前述实施例中的一种基于影像组学的肝癌图像特征提取与病理分类方法,通过一个具体实施例来展现本发明分类方法的具体效果,具体步骤如上述,此处不再赘述。为了证明随机森林在本研究问题上的优越性能,根据不同的机器学习模型进行了预测结果的比较,在测试集和独立验证集上比较的结果由表1所示。实验结果表明在诸多的模型中随机森林的预测性能最优,最大的auc值表明了借助本发明的模型在肝癌病理分级问题上的有效性。
表1不同机器学习模型的比较
1.一种基于影像组学的肝癌图像特征提取与病理分类方法,其特征在于,包括以下步骤:
步骤(1).将肝癌图像及其对应的病理分类标签作为训练数据集;
步骤(2).利用growcut算法对影像中的肝癌病灶区域进行半自动分割,提取肝癌病灶区域的影像;
步骤(3).对步骤(2)中分割出来的肝癌病灶区域进行影像组学特征的提取,所述的影像组学特征包括形态学特征、灰度统计特征、纹理特征和小波特征,得到影像组学特征集合x={x1,x2,...,xn},其中n表示特征向量的数量,xi表示影像组学特征集合中的第i个特征向量,xi={xi1,xi2,...,xim},xi表示xi中的第i个元素,m表示xi中的元素数量;
步骤(4).对步骤(3)中提取的影像组学特征进行筛选:
步骤(4.1).首先通过过滤法排除只有单一值的特征、方差小于预设阈值的特征、与病理分级无关的特征、以及冗余特征;
特征与病理分级的关系强度通过互信息计算来衡量,将互信息值低于预设阈值的特征称为与病理分级无关的特征,所述互信息的计算公式为:
其中,xi表示影像组学特征集合中的第i个特征向量,y表示标签,p(x,y)是x和y的联合概率密度函数,p(x)和p(y)分别是x和y的边缘概率密度函数;
所述的冗余特征为相关系数大于0.9的特征,相关系数的计算公式为:
其中,ρ为相关系数的计算结果,xik表示影像组学特征集合中的第i个特征向量中的第k个元素,xjk表示影像组学特征集合中的第j个特征向量中的第k个元素,
步骤(4.2).采用boruta算法对筛选后的影像组学特征进行二次筛选,步骤为:
a.将步骤(4.1)筛选后得到的特征矩阵x′随机打乱顺序,得到阴影特征矩阵xs,将xs拼接在x′后面,构成新的特征矩阵n=[x′,xs];
b.将新的特征矩阵输入随机森林分类器,得到x′和xs的z分数;
c.将z分数作为重要性度量,取xs的z分数的最大值mzsa,将x′中得分高于mzsa的特征记录一次命中;
d.根据累计命中次数,标记x′中特征重要或者不重要,
e.对于每个重要性未定的属性,执行与mzsa相等的双侧检验;
f.将标记为不重要的特征剔除,重复步骤a-e,直到所有的特征都被标记;
所述的重要性度量是通过对象之间属性值的随机排列导致分类准确性的损失来获得的,通过随机森林分类器得到精度损失的平均值和标准偏差,由平均损失除以其标准偏差计算得到z分数;
步骤(5).获取肝癌病灶区域影像的临床指标特征,利用χ2检验和kruskal-wallish检验对临床指标特征进行筛选,剔除显著性水平p值大于0.01的临床指标特征;
步骤(6).将经过步骤(4)筛选得到的影像组学特征和经过步骤(5)筛选得到的临床指标特征进行融合,融合后的特征采用步骤(4.2)所述的boruta算法进行最终的特征筛选,获得最终特征矩阵;将最终特征矩阵输入随机森林进行训练预测,获得最佳预测模型,最终映射为肝癌的病理分级结果;
步骤(7).获取待进行肝癌病理分级的临床ct影像,按照步骤(2)分割出肝癌病灶区域影像,从肝癌病灶区域影像中提取与步骤(6)所述最终特征矩阵中特征类别相同的特征作为待分级特征矩阵,将待分级特征矩阵输入到步骤(6)得到的最佳预测模型中,得到肝癌病理分级结果。
2.如权利要求1所述的一种基于影像组学的肝癌图像特征提取与病理分类方法,其特征在于,步骤(2)所述的growcut算法基于元胞自动机模型ca实现分割,获得的临床ct影像是一个k*m的二维矩阵,每一个像素点对应于ca中的一个细胞,形成细胞集合p,一个未被标记的临床ct影像视为元胞自动机的特定配置状态,分割的最终目标是为像素分配标签;
建立三元组a=(s,n,δ),其中a表示一个元胞自动机模型,s是一个非空状态集,n是领域系统,δ是局部状态转移函数;元胞自动机的初始状态通过指定分割种子实现,对临床ct影像设置前景区域和背景区域初始分割种子以及对应的标签,所述的前景区域为肝癌病灶区域,背景区域为非肝癌病灶区域;
种子细胞实施攻击,定义当前细胞状态
其中,x表示
3.如权利要求1所述的一种基于影像组学的肝癌图像特征提取与病理分类方法,其特征在于,步骤(3)所述的形态学特征包括:
网格表面积a:
像素表面积apixel:
周长p:
周长与表面积之比
圆球度
球形不规则度
主轴长度
短轴长度
延伸率:
步骤(3)所述的灰度统计特征是基于强度直方图得到的特征,表示肝癌病灶区域内的像素强度的分布,用下式表示强度直方图的定义:
其中,i表示离散强度级别,np表示肝癌病灶区域影像中总的像素数,ng表示离散强度级别的种类数,ni表示肝癌病灶区域影像中具有离散强度级别i的像素个数,h(i)表示肝癌病灶区域影像中具有离散强度级别i的像素出现的频率;此外,令m表示肝癌肿瘤区域所有像素的像素值集合,m(i)表示第i个像素的像素值;
所述的灰度统计特征包括:
能量:
总能量:
熵:
四分位间距:interquartilerange=n75-n25,其中n25和n75分别表示离散强度级别在第25和第75百分位的像素个数;
平均绝对偏差:
稳健的平均绝对偏差:
稳健平均绝对偏差是在灰度级介于或等于第10和第90百分位的像素矩阵子集上计算的所有强度值与平均值的平均距离;
偏度:
峰度:
一致性:
此外还包括最大值、最小值、均值、方差、标准差。
步骤(3)所述的纹理特征为所述纹理特征为基于灰度共生矩阵glcm、灰度游程矩阵glrlm、灰度区域大小矩阵glszm和基于局部灰度差分矩阵ngtdm衍生出的特征。
步骤(3)所述的小波特征采用非抽样二维小波变换对原始二维图像进行滤波,将二维图像看成一系列行向量构成,经过小波滤波以后原信号被分为高频信号和低频信号两部分,对这两部分信号进行下采样,保留行向量的小标为偶数的元素,生成高频矩阵和低频矩阵;
分别针对新生成的矩阵的列向量进行小波滤波以及下采样,由此获得三个高频信号和一个低频信号;对低频信号进行上述处理,反复jdec次后最终获得jdec×3个高频信号以及一个低频近似图像;使用的daubechies小波的模平方表达式为:
|m0(ω)|2=[cos2(ω/2)]np[sin2(ω/2)]
其中,小波的离散形式为
4.一种基于影像组学的肝癌图像特征提取与病理分类装置,其特征在于,包括:
采样模块,用于将肝癌图像中的肝癌病灶区域进行分割,提取肝癌病灶区域的影像并进行标注,将带有标注结果的肝癌病灶区域影像作为训练集合;
特征提取模块,用于对采样模块得到的肝癌病灶区域进行影像组学特征和临床指标特征的提取;所述的影像组学特征包括形态学特征、灰度统计特征、纹理特征和小波特征,得到影像组学特征集合和临床指标特征集合;
特征筛选模块:用于将特征提取模块获得的影像组学特征和临床指标特征进行筛选;
分类模块,用于将特征筛选结果进行组合,作为最终特征矩阵,并进行分类。
5.如权利要求4所述的一种基于影像组学的肝癌图像特征提取与病理分类装置,其特征在于,所述采样模块包括:
标注子模块:用于将肝癌图像进行前景区域和背景区域的区分,所述的前景区域为肝癌病灶区域,背景区域为非肝癌病灶区域,并为肝癌病灶区域的像素分配标签,为元胞自动机子模块提供初始分割种子。
元胞自动机子模块:用于为肝癌病灶区域的每一个像素分配标签,通过建立三元组a=(s,n,δ)实现,其中a表示一个元胞自动机模型,s是一个非空状态集,n是领域系统,δ是局部状态转移函数;元胞自动机子模块的初始状态通过指定分割种子实现。
6.如权利要求4所述的一种基于影像组学的肝癌图像特征提取与病理分类装置,其特征在于,所述特征筛选模块包括:
第一级特征筛选子模块:用于排除只有单一值的特征、方差小于预设阈值的特征、互信息值低于预设阈值的特征、以及相关系数大于0.9的特征;
第二级特征筛选子模块:用于基于boruta算法,将第一级特征筛选子模块筛选后的特征进行进一步筛选。
7.一种基于影像组学的肝癌图像特征提取与病理分类装置,其特征在于,包括存储器和处理器;
所述存储器,用于存储计算机程序;
所述处理器,用于当执行所述计算机程序时,实现如权利要求1~3任一项所述的基于影像组学的肝癌图像特征提取与病理分类方法。
8.一种计算机可读存储介质,其特征在于,所述存储介质上存储有计算机程序,当所述计算机程序被处理器执行时,实现如权利要求1~3任一项所述的基于影像组学的肝癌图像特征提取与病理分类方法。
技术总结