本发明属于环保技术领域,具体涉及一种ppcps类有机化学品中温厌氧消化去除率预测模型的构建方法。
背景技术:
我国是化学品研发、生产、使用大国,除了4.5万多种现有化学物质外,每年还有上千种新化学物质投入使用。这些化学品中存在大量的有毒有害化学品。在污水生物处理过程中,大量难降解、有毒性的新型化学品通过吸附转移到污泥中。这些污泥经过厌氧消化、好氧发酵等污泥处置后,将可能用于土壤施肥。
但是,大量研究表明,污泥在厌氧消化、好氧发酵等处置过程中,有毒有害化学品仍然不能完全去除,处置后的污泥中仍然存在高水平的ppcps、溴系阻燃剂、全氟化合物、药物和个人护理产品(ppcps)等化学品(含量水平达mg/kg级别)。
在污泥农用过程中,这些有毒有害物质城市污泥中含有较高含量的有机污染物进入土壤后,可能对土壤生物、地下水、地表水带来潜在环境风险。因此研究污泥消化处理过程中化学品的去除效率,对于评估化学品的风险、保证土壤生物和地下水安全具有重要意义。
药物和个人护理用品(pharmaceuticalandpersonalcareproducts,ppcps)因其对人类健康和环境的潜在影响而受到关注。国内外已有一些报道污泥中温厌氧消化过程中药物和个人护理产品(ppcps)的分配和去除(narumiyam,etal.phasedistributionandremovalofpharmaceuticalsandpersonalcareproductsduringanaerobicsludgedigestion.journalofhazardousmaterials,2013,260:305–312;stasinakisas.reviewonthefateofemergingcontaminantsduringsludgeanaerobicdigestion.bioresourcetechnology,2012,121:432-440)。但是,这些研究仅针对有限数量的ppcps,还有大量的ppcps物质在污泥中温厌氧消化过程中的去除效率未经过评估。由于试验测定需要较高的代价,费时费力,使用模型预测的方法将是一种最佳的选择。
技术实现要素:
为了解决上述问题,本发明提供了一种ppcps类有机化学品中温厌氧消化去除率预测模型的构建方法,构建的模型用于预测ppcps在厌氧消化过程中的去除效率,以期为污泥处理工程设计以及ppcps的环境风险评估提供技术依据。所述预测模型的构建方法包括以下步骤:
(1)数据收集、设置训练集和验证集样本化合物;
从文献中查询了中温厌氧消化条件下污泥中44种有机化学品去除率数据(污泥停留时间srt=25d,ph=8.0;来源于文献journalofhazardousmaterials,2013,260,305–312)。a表示去除率≥60%,可去除;i表示去除率<60%,不可去除。训练集选取35个样本化合物,验证集选取9个样本化合物。训练集样本在结构上尽可能多样化,活性覆盖范围应尽可能大,以使模型的应用范围广,预测能力强。验证集则用来评价所建立模型的预测能力,包含在训练集的描述符空间之内。
(2)计算描述符
采用hyperchem7.0软件中的mm 分子力学对化合物结构进行预优化,半经验am1方法对化合物结构进行优化,基于优化的结构,使用dragon5.4软件计算描述符,并对计算的1664个描述符进行初步筛选,即去掉常数项、近似常数项和具有高度相关(相关系数大于0.98的两个分子描述符中与目标值相关系数较小的)的分子描述符最终得到626个分子描述符。
(3)模型构建
采用mobydigs软件中遗传算法ga进行变量选择,ga的相关参数为:种群数100,变异概率0.5,模型中允许的最大特征个数10,评价函数是留一法交互验证loo-cv,其他参数均为默认值,当增加变量数目对结果影响不大时,就得到了最优的参数个数;
最终筛选出4个最优描述符,即dispm、mor15m、hatse、o-060;模型表征参数如下:
dispm属于组成描述符,表示位移量/质量加权;mor15m属于3d-morse描述符,是基于电子衍射的分子结构表征,hatse属于getaway描述符,表示sanderson电负性加权,o-060是原子中心碎片描述符,表示al-o-ar/ar-o-ar/r..o..r/r-o-c=x原子。
根据计算出来的最优描述符,采用基于欧几里德距离的knn方法构建了二元分类模型。欧几里德距离计算方法为:
其中,de是欧几里德距离;x表示验证集化合物,y表示训练集化合物;xi和yi分别是化学品x和y的第i个描述符,n表示最优描述符个数;
训练集样本分类结果如表2所示,验证集中样本与训练集中每个样本做欧式距离计算,取k=3,即选出与其距离最近的3个训练集样本,该验证集样本的分类结果与这3个训练集分类结果最多的一致。
(4)模型性能评价
采用预测准确度(q)、敏感性(sn)、特异性(sp)参数表征模型效果。
其中,tp(truepositive)和tn(truenegative)分别是正确分类为不可去除和可去除的化合物数量;fn(falsenegative)和fp(falsepositive)分别是错误分类为可去除和不可去除的化合物数量。mcc表示马修斯相关系数。
基于knn方法构建了二元分类算法准确度(q)、敏感性(sn)、特异性(sp)和马修斯相关系数(mcc)参数如表1所示。
表1有机化学品中温厌氧消化去除率模型表征结果
本发明的另一目的是提供上述模型的应用,未知化物经过分子结构的输入和结构优化过程,通过dragon软件计算4种描述符,dispm、mor15m、hatse、o-060,利用所述预测模型得到未知化合物中温厌氧消化去除率。
优选的,上述模型应用于阿奇霉素和醋酸甲地孕酮的中温厌氧消化去除率预测的应用。
本发明的有益效果在于:利用本方法构建出的预测模型能准确预测出ppcps在污泥中温厌氧消化过程中的去除效率,预测方法简单、快速,准确性高,避免了实测研究,节省了人力、物力和时间,为污泥高效厌氧消化处理工程设计以及ppcps的环境风险评估提供理论和技术支持。
附图说明
图1ppcps类有机化学品中温厌氧消化去除率模型的应用域williams图。
图2基于欧几里德距离的模型应用域表征图。
具体实施方式
根据下述实施例,可以更好地理解本发明。然而,本领域的技术人员容易理解,实施例所描述的内容仅用于说明本发明,而不应当也不会限制权利要求书中所详细描述的本发明。
实施例1ppcps类有机化学品中温厌氧消化去除率模型预测模型构建
(1)数据收集、设置训练集和验证集样本化合物;
从文献中查询了中温厌氧消化条件下污泥中44种有机化学品去除率数据(污泥停留时间srt=25d,ph=8.0;来源于文献phasedistributionandremovalofpharmaceuticalsandpersonalcareproductsduringanaerobicsludgedigestion.journalofhazardousmaterials,2013,260,305–312)。将a:去除率≥60%可去除;i去除率<60%不可去除。训练集选取35个样本化合物,验证集选取9个样本化合物。训练集样本在结构上尽可能多样化,活性覆盖范围应尽可能大,以使模型的应用范围广,预测能力强。验证集则用来评价所建立模型的预测能力,包含在训练集的描述符空间之内。
(2)描述符
采用hyperchem7.0软件中的mm 分子力学对化合物结构进行预优化,半经验am1方法对化合物结构进行优化,基于优化的结构,使用dragon5.4软件计算描述符,并对计算的1664个描述符进行初步筛选,即去掉常数项、近似常数项和具有高度相关(相关系数大于0.98的两个分子描述符中与目标值相关系数较小的)的分子描述符,得到626个重要分子描述符。
(3)模型构建
采用mobydigs软件中遗传算法ga进行变量选择,ga的相关参数为:种群数100,变异概率0.5,模型中允许的最大特征个数10,评价函数是留一法交互验证loo-cv,其他参数均为默认值,当增加变量数目对结果影响不大时,就得到了最优的参数个数;
最终筛选出4个最优描述符,即dispm、mor15m、hatse、o-060;模型表征参数如下:
dispm属于组成描述符,表示位移量/质量加权;mor15m属于3d-morse描述符,是基于电子衍射的分子结构表征,hatse属于getaway描述符,表示sanderson电负性加权,o-060是原子中心碎片描述符,表示al-o-ar/ar-o-ar/r..o..r/r-o-c=x原子。
根据计算出来的最优描述符,采用基于欧几里德距离的knn方法构建了二元分类模型。欧几里德距离计算方法为:
其中,de是欧几里德距离;x和y是不同的化学品;xi和yi分别是化学品x和y的第i个描述符。
训练集样本分类结果如表所示,验证集中样本与训练集中每个样本做欧式距离计算,取k=3,即选出与其距离最近的3个训练集样本,该验证集样本的分类结果与这3个训练集分类结果最多的一致。
采用预测准确度(q)、敏感性(sn)、特异性(sp)参数表征模型效果。
其中,tp(truepositive)和tn(truenegative)分别是正确分类为不可去除和可去除的化合物数量;fn(falsenegative)和fp(falsepositive)分别是错误分类为可去除和不可去除的化合物数量。mcc表示马修斯相关系数,值通常位于-1和 1之间。 1代表预测值与实验值一致;0代表预测不比随机好;值为-1表示预测值与实验值不一致。
基于knn方法构建了二元分类算法准确度(q)、敏感性(sn)、特异性(sp)和马修斯相关系数(mcc),训练集准确度和相关系数分别为0.886、0.755;验证集准确度和相关系数分别为0.778、0.381;马修斯相关系数分别为0.755和0.381;结果显示,二元分类模型效果较好,具体参数如表1所示。
表1有机化学品中温厌氧消化去除率模型表征结果
实施例2对构建的模型进行模型应用域表征
采用欧几里德距离方法和基于leverage的williams图定义模型的应用域。欧几里德距离使用ambitdiscoveryv0.04软件计算(http://ambit.sourceforge.net/download_ambitdiscovery.html)。欧几里德距离由下式计算得到:
式中,μ是描述符x的均值。
williams图是由标准残差(δ)和杠杆值(以hi表示,i代表不同的化合物)定义的一种模型应用域。δ采用下式计算:
训练集化合物的杠杆值(leverage,hi)可以通过下面的公式求得:
hi=xit(xtx)–1xi(8)
式中,xi为第i个化合物分子结构描述符的行向量。警戒值(h*)定义为:
h*=3(k 1)/n(9)
其中,k为描述符的个数,n为训练集个数。
模型应用域表征结果如图1、图2所示。图1中h*=3(k 1)/n=3(4 1)/35=0.42。williams图纵坐标用实验值和预测值的标准残差来表征实验值的离散程度,当化合物的标准残差δ的绝对值大于3.0时,被视为离群点。横坐标代表训练集中化合物hi值,hi大于警戒值(h*=0.42)时,说明在训练集中该物质的子结构出现较少,会对模型预测结果有显著影响。由图可见,有1个化合物的杠杆值h超过了警戒杠杆值h*,表明这个化合物的结构与训练集化合物的结构有一定的差异,但标准残差均在(-3, 3)范围内,说明本模型适用于十溴二苯醚(cas:1163-19-5)
基于欧几里得距离法表征模型的应用域。图2即是欧几里德距离图。训练集化合物特征向量到中心点特征向量的欧几里德距离范围为0.208-0.855,因此特征向量欧几里德距离不大于0.855的化合物适用于本模型。本模型验证集化合物都在应用域内。
实施例344中ppcps类有机化合物进行中温厌氧消化去除率预测
利用实施例1构建的预测模型,对44中ppcps类有机化合物进行中温厌氧消化去除率预测,结果见表2。由表2可知,雌三醇和吐纳麝香的预测结果较差,其他化合物预测正确,准确率达到80%左右,具有较好的预测能力。
表2ppcps类有机化学品中温厌氧消化去除率预测值与实验值结果
实施例4阿奇霉素的中温厌氧消化去除率预测
给阿奇霉素(smiles:cn([c@h](c)[c@@h](o)[c@@](o)(c)[c@@h](cc)o1)c[c@h](c)c[c@](o)(c)[c@h](o[c@h]3[c@h](o)[c@@h](n(c)c)c[c@@h](c)o3)[c@@h](c)[c@h](o[c@h]2c[c@@](c)(oc)[c@@h](o)[c@h](c)o2)[c@@h](c)c1=o)预测其中温厌氧消化去除率。首先根据化学物质分子结构,使用dragon软件计算出4种描述符dispm、mor15m、hatse、o-060;分别为3.274、2.213、8.685和0;与训练集中每个化合物做欧式距离计算,计算出与其距离最近的3个训练集化合物为克拉霉素、罗红霉素和甲氧苄啶。hat为0.311,欧几里得距离为0.369,在模型应用域范围内,可以用本模型对环丙沙星厌氧消化去除率进行预测:
则环丙沙星中温厌氧消化去除率预测值≥60%,可去除;去除率实验值为78%,可去除;与试验测定结果一致。
实施例5醋酸甲地孕酮的中温厌氧消化去除率预测
给醋酸甲地孕酮(smileso=c(c)[c@]([c@](cc2)(c)[c@@h](cc1)[c@h](c=c3c)[c@h]2[c@](cc4)(c)c3=cc4=o)1oc(c)=o)预测其中温厌氧消化去除率。首先根据化学物质分子结构,使用dragon软件计算出4种描述符dispm、mor15m、hatse、o-060;分别为3.649、0.252、8.97和0;与训练集中每个化合物做欧式距离计算,计算出与其距离最近的3个训练集化合物为扑热息痛、磺胺甲基嘧啶和雌酮。hat为0.351,欧几里得距离为0.503,在模型应用域范围内,可以用本模型对醋酸甲地孕酮厌氧消化去除率进行预测:
则醋酸甲地孕酮中温厌氧消化去除率预测值≥60%,可去除;去除率实验值为83%,可去除;与试验测定结果一致。
1.一种ppcps类有机化学品中温厌氧消化去除率预测模型的构建方法,其特征在于,所述方法包括以下步骤:
步骤一、数据收集,设置训练集和验证集样本化合物;
步骤二、计算描述符;
步骤三、模型构建;
步骤四、模型性能评价。
2.根据权利要求1所述的ppcps类有机化学品中温厌氧消化去除率预测模型的构建方法,其特征在于,步骤一收集数据,所述数据为44种有机化学品中温厌氧消化去除率数据,训练集选取35个样本化合物,验证集选取9个样本化合物。
3.根据权利要求1所述的ppcps类有机化学品中温厌氧消化去除率预测模型的构建方法,其特征在于,步骤二采用hyperchem7.0软件中的mm 分子力学对化合物结构进行预优化,半经验am1方法对化合物结构进行优化,基于优化的结构,使用dragon5.4软件计算描述符,并对计算的1664个描述符进行初步筛选,即去掉常数项、近似常数项和具有高度相关的626个分子描述符。
4.根据权利要求1所述的ppcps类有机化学品中温厌氧消化去除率预测模型的构建方法,其特征在于,步骤三采用mobydigs软件中遗传算法ga进行变量选择,ga的相关参数为:种群数100,变异概率0.5,模型中允许的最大特征个数10,评价函数是留一法交互验证loo-cv,其他参数均为默认值,当增加变量数目对结果影响不大时,得到最优的参数个数;
最终筛选出4个最优描述符,即dispm、mor15m、hatse、o-060;其中,dispm属于组成描述符,表示位移量/质量加权;mor15m属于3d-morse描述符,是基于电子衍射的分子结构表征;hatse属于getaway描述符,表示sanderson电负性加权;o-060是原子中心碎片描述符,表示al-o-ar/ar-o-ar/r..o..r/r-o-c=x原子;
根据计算出来的最优描述符,基于欧几里德距离的knn方法构建二元分类模型,欧几里德距离计算方法为:
其中,de是欧几里德距离;x表示验证集化合物,y表示训练集化合物;xi和yi分别是化学品x和y的第i个描述符,n表示最优描述符个数;
验证集中样本与训练集中每个样本做欧式距离计算,取k=3,k代表设定欧几里得距离最近的化合物个数,即选出与其距离最近的3个训练集化合物,该验证集化合物的分类结果与这3个训练集物质分类结果最多的一致。
5.根据权利要求1所述的ppcps类有机化学品中温厌氧消化去除率预测模型的构建方法,其特征在于,步骤四采用预测准确度q、敏感性sn、特异性sp参数表征模型效果:
其中,tp(truepositive)和tn(truenegative)分别是正确分类为不可去除和可去除的化合物数量;fn(falsenegative)和fp(falsepositive)分别是错误分类为可去除和不可去除的化合物数量,mcc表示马修斯相关系数。
6.权利要求1所述的ppcps类有机化学品中温厌氧消化去除率预测模型构建方法的应用,其特征在于,未知化合物经过分子结构的输入和结构优化过程,通过dragon软件计算4种描述符dispm、mor15m、hatse、o-060,利用所述预测模型得到未知化合物中温厌氧消化去除率。
7.根据权利要求6所述的应用,其特征在于:所述应用为阿奇霉素和醋酸甲地孕酮的中温厌氧消化去除率预测的应用。
技术总结