本发明涉及一种沉香属物种的鉴定方法,更具体地,设计一种its序列和机器学习鉴定土沉香、云南沉香、毛沉香、卡明沉香、小果沉香、具喙沉香的方法。
背景技术:
瑞香科(thymelaeaceae)沉香属(aquilaria)植物是热带及亚热带常绿乔木,大多分布于印度尼西亚、马来西亚、越南等东南亚国家。沉香,即沉香属植物受伤后分泌的树脂与木质结合在一起形成的融合物。沉香是我国及其他东南亚国家沿用历史悠久的珍贵传统药材,其价值极高,被誉为“药中黄金”。沉香其味辛苦,性微温,具行气止痛、文中止呕、纳气平喘等功效,可用于胸腹胀闷疼痛、胃寒呕吐呃逆、肾虚气逆喘息。除了具有极高的药用价值,沉香也是制作高级香料的必备材料,同时,沉香还可以制作雕刻品、家具等产品,倍受国内外消费者的欢迎。但由于需索无度,长期无节制的毁灭性采香,使得野生沉香植物濒临灭绝。目前已发现有多种沉香属物种可形成沉香,而不同沉香物种、不同结香方法产生的沉香在沉香品质、化学成分含量、药用价值及市场价格方面具有较大差异,单靠形态、化学组分分析等方法不能全面、科学地鉴定与评估沉香植物。因此,为了从沉香物种水平上对沉香质量进行把控,需要一种更精确、更快速的鉴定方法来实现对沉香物种进行鉴定。
已有利用snp分子标记对土沉香、云南沉香和马来沉香序列进行鉴别的报道,报道中需同时满足核苷酸序列中连续4个碱基方可鉴定成功,一旦连续的4个碱基中某1个碱基发生突变,就可能导致鉴定失败。因此,有必要改进鉴别方法,为沉香的基源植物资源保护和贸易提供理论基础和技术支持。
随着人工智能的发展,机器学习作为当前计算机科学最热门的研究方向之一,在各种各样的领域得到了迅速的发展。为了充分且有效地利用生物学数据,机器学习技术也被广泛应用于生物信息学研究中。目前,国内外尚未有将its序列和机器学习相结合用于沉香属物种鉴定的报道。
技术实现要素:
为了克服已有技术的不足,本发明的目的在于提供一种结合its序列与机器学习的方法来准确、快速、特异地鉴定种土沉香、云南沉香、毛沉香、卡明沉香、小果沉香、具喙沉香6个沉香属物种。
本发明上述目的通过以下技术方案实现:
一种基于its序列和机器学习的沉香属物种鉴定方法,包括如下步骤:
s1:数据的获取和数据集的建立
获取土沉香、云南沉香、毛沉香、卡明沉香、小果沉香、具喙沉香的its区序列,并进行比对,切除引物端后,去除存在高度缺失的序列,得到用于机器学习的数据集。
具体地,上述s1中,its区序列一部分来自于实验获取,物种是土沉香、云南沉香和毛沉香,通过分子生物学实验及测序获得该3个沉香属物种的its区序列,具体包括如下步骤:
s11.以改良的ctab法,对3个待测物种样品的总dna进行提取;
优选地,取新鲜采集的瑞香科沉香属植物的叶片,待测叶片先经过预处理后才进行dna的提取,所述预处理是将叶片浸泡于75%乙醇溶液中5min,取出后放置于无菌环境中风干。将风干的叶片放置在已预冷的研钵中,加液氮进行研磨至粉末,该粉末即为待测样品。
s12.以3个待测物种样品的总dna为模板,利用引物its5和its4进行pcr扩增得到沉香属植物的its区序列;上述引物its5和its4是针对沉香属植物而设计的专用引物,其中,引物its4的核苷酸序列如seqidno:1所示,its5的核苷酸序列如seqidno:2所示。
seqno.1:tcctccgcttattgatatgc20
seqno.2:ggaagtaaaagtcgtaacaagg22
优选地,pcr扩增反应体系总体积为20μl,该反应体系包含10×pcrbuffer(2.5mmol/l,含mgcl2)2μl,dntps(2.5mmol/l)1.6μl,引物its4、its5(10μmol/l)各0.8μl,hifidna聚合酶(5u/μl)0.1μl,加入dna模板2μl,其余体积用无菌水补足。
优选地,所述pcr扩增参数为:95℃预变性3min,95℃变性1min,56℃退火50s,72℃延伸50s,共循环30次,最后在72℃延伸10min。
具体地,上述s1中,its区序列一部分来自于genbank,物种是土沉香、云南沉香、毛沉香、卡明沉香、小果沉香、具喙沉香。
进一步地,将实验获得的与从genbank下载的its区序列合为一个文件并导入mega(版本7.0)软件中进行比对。
s2:利用机器学习提取鉴定6个沉香属物种的核苷酸特征
将步骤s1得到的数据集以barcodingwithlogic作为机器学习进行100次-1000次迭代计算,得到鉴定该沉香属植物的核苷酸特征。
进一步地,以barcodingwithlogic作为机器学习方法,是将s1得到的数据集按比例随机分成训练集(80%)和测试集(20%),进行1000次迭代计算。
s3:6个沉香属物种的鉴定
鉴定6个沉香属物种的特异核苷酸位点,具体标准是:
若第619为碱基为g,则鉴定为土沉香aquilariasinensis;
若第105位碱基为t,则鉴定为云南沉香a.yunanensis;
若第570位碱基为c,则鉴定为毛沉香a.hirta;
若第569位碱基为a,则鉴定为卡明沉香a.cumingiana;
若第622位碱基为t,则鉴定为小果沉香a.microcarpa;
若第634位碱基为a,则鉴定为具喙沉香a.rostrata。
上述核苷酸位点为鉴定土沉香、云南沉香、毛沉香、卡明沉香、小果沉香、具喙沉香的特异位点(species-specificpositions)。第618位碱基g是土沉香区别于另外5个物种的特异碱基,所有土沉香序列在该位点未发生种内变异;第105位碱基t是云南沉香区别于另外5个物种的特异碱基,所有云南沉香序列在该位点未发生变异;第570位碱基c是毛沉香区别于另外5个物种的特异碱基,所有毛沉香序列在该位点未发生变异;第569位碱基a是卡明沉香区别于另外5个物种的特异碱基,所有卡明沉香序列在该位点未发生变异;第621位碱基t是小果沉香区别于另外5个物种的特异碱基,所有小果沉香序列在该位点未发生变异;第634位碱基a是具喙沉香区别于另外5个物种的特异碱基,所有具喙沉香序列在该位点未发生变异。
与现有技术相比,本发明有如下有益效果:
本发明首次将its序列与机器学习相结合的方法用于沉香属植物的鉴定,得到了鉴定6个沉香属植物的特异核苷酸位点,6个沉香属物种分别仅需一个位点即可准确鉴定。该方法通过机器筛选变异位点,可以快速、准确、特异性地从众多位点中筛选出鉴定6个沉香属物种的特异位点,说明its序列与机器学习结合的方法用于鉴定该6个沉香属物种的结果是可靠的。本发明弥补了基于形态学等传统鉴定方法以及基于dna条形码序列的snp分子标记的局限性,填补了将生物学信息与机器学习结合用于鉴定沉香属植物的空白,为沉香物种鉴定、分类和物种检测提供了重要的核苷酸信息,也为沉香的质量把控、基源植物资源保护和贸易提供理论基础和技术支持。
具体实施方式
以下结合说明书和具体实施例来进一步说明本发明,但实施例并不对本发明做任何形式的限定。除非特别说明,本发明采用的试剂、方法和设备为本技术领域常规试剂、方法和设备。
除非特别说明,以下实施例所用试剂和材料均为市购。
实施例16个沉香属植物的鉴定
1、样品dna的提取
(1)待测样品:从不同地区采集多份沉香属植物共26份样品,如表1所示。
表13个沉香属物种样品采集地点
(2)按照下述方法分别对表1的沉香属植物样品进行dna的提取
1)取2g待测样品,将待测样品浸泡在75%乙醇中5min,取出,放置在无菌环境中风干;
2)将风干的材料放置在预冷的研钵中,加液氮研磨至粉末状,转移至50ml离心管中,然后加入5ml65℃预热的3×ctab提取液,65℃水浴2h,期间每隔15-20min轻轻震荡摇匀;所述3×ctab提取液配方为:4%ctab,1.4mol/lnacl,100mmol/ltris-hcl,1%pvpp,25mmol/ledta,2%β-巯基乙醇,ph8.0;体系中的“%”代表体积分数;
3)水浴结束后,12000rpm离心5min,取上清分装在1.5ml离心管中,用等体积氯仿-异戊醇(24:1),tris饱和酚-氯仿-异戊醇(25:24:1)和氯仿-异戊醇先后各抽提一次,10000rpm离心5min;
4)取上清液至新1.5ml离心管中,加0.8倍体积异丙醇和0.2倍体积3mol/l醋酸钠,-20℃沉淀1h,12000rpm离心10min;
5)弃上清液,用1ml预冷的70%乙醇洗涤沉淀,12000rpm离心5min,重复洗涤2-3次;
6)洗涤结束后,将沉淀自然风干,加100μl无菌水或1×te溶液进行溶解,置于-20℃保存,得到待测样品的dna。
2、its区序列片段的扩增
(1)引物its5和its4的序列如下所示
引物its5(如seqidno.1所示):5’ggaagtaaaagtcgtaacaagg3’
引物its4(如seqidno.2所示):5’tcctccgcttattgaataatgc3’
引物由生工生物工程(上海)股份有限公司合成。
(2)pcr反应体系
10×pcrbuffer(2.5mmol/l,含mgcl2)2μl,dntps(2.5mmol/l)1.6μl,引物its4、its5(10μmol/l)各0.8μl,hifidna聚合酶(5u/μl)0.1μl,加入dna模板2μl,其余体积用无菌水补足。
(3)pcr扩增参数
95℃预变性3min,95℃变性1min,56℃退火50s,72℃延伸50s,共循环30次,最后在72℃延伸10min。
3、pcr产物纯化、链接及转化
采用dna凝胶回收试剂盒(takaraminibestagarosegeldnaextractionkit)对pcr扩增产物进行割胶回收。沉香its序列的pcr扩增产物从1%的琼脂凝胶中割胶纯化。纯化产物连接到pmd18-t-vecter(takara),连接产物转化到escherichiacolijm109感受态细胞,进行氨苄青霉素选择。
4、its区序列测定
挑取单克隆菌落送至睿博兴科生物技术有限公司进行测序,测序引物与上述pcr引物一致。
5、its区序列分析
(1)选取土沉香aquilariasinensis、云南沉香a.yunnanensis、毛沉香a.hirta、卡明沉香a.cumingiana、小果沉香a.microcarpa和具喙沉香a.rostrata共6种沉香属植物,并在ncbi数据库上查询和下载其its区序列的fasta格式文件,共47条序列,见表2。
表2从genbank下载的沉香属植物its序列
(2)根据测序结果可知,17条土沉香序列存在6个位点的差异,8条云南沉香序列存在3个位点的差异(经过研究验证显示,下述鉴别6个沉香属植物的位点均不存在种内差异)。实验获取的序列已上传至ncbi,genbank登录号为ky817952、ky817960、ky817966、ky817974-ky817978、ky817980、ky817981、ky817983-ky817985、mh594310、mh594312、mh594317、mh594319-mh594328。
(3)将实验获得的its区序列和从genbank下载的its区序列,一起导入mega(版本7.0)软件进行比对,切除引物端后,去除中间存在高变的插入或缺失的序列,得到用于机器学习的数据集。
(4)以barcodingwithlogic作为机器学习方法,将数据集随机分成训练集和测试集,其中训练集占总集合的80%,测试集占总集合的20%,进行1000次迭代计算,获得鉴定沉香属植物的特异核苷酸位点。
6、6个沉香属植物的鉴定
根据机器学习结果可知,训练集和测试集对6个沉香属物种的鉴定成功率均为100%。鉴定6种沉香属植物的特异核苷酸位点,具体标准是:
若第619为碱基为g,则鉴定为土沉香aquilariasinensis;
若第105位碱基为t,则鉴定为云南沉香a.yunanensis;
若第570位碱基为c,则鉴定为毛沉香a.hirta;
若第569位碱基为a,则鉴定为卡明沉香a.cumingiana;
若第622位碱基为t,则鉴定为小果沉香a.microcarpa;
若第634位碱基为a,则鉴定为具喙沉香a.rostrata。
实施例2:土沉香、云南沉香的鉴定试验
1、基因组dna的提取
从不同产地收集多份根据形态分别鉴定为土沉香和云南沉香的样品,如表3所示:
表32个沉香属物种样品采集地点
分别按照下述方法进行鉴定:
步骤1:
取2g待测样品,将待测样品浸泡在75%乙醇中5min,取出,放置在无菌环境中风干;将风干的材料放置在预冷的研钵中,加液氮研磨至粉末状,转移至50ml离心管中,然后加入5ml65℃预热的3×ctab提取液,65℃水浴2h,期间每隔15-20min轻轻震荡摇匀;所述3×ctab提取液配方为:4%ctab,1.4mol/lnacl,100mmol/ltris-hcl,1%pvpp,25mmol/ledta,2%β-巯基乙醇,ph8.0;体系中的“%”代表体积分数。
水浴结束后,12000rpm离心5min,取上清分装在1.5ml离心管中,用等体积氯仿-异戊醇(24:1),tris饱和酚-氯仿-异戊醇(25:24:1)和氯仿-异戊醇先后各抽提一次,10000rpm离心5min。
取上清液至新1.5ml离心管中,加0.8倍体积异丙醇和0.2倍体积3mol/l醋酸钠,-20℃沉淀1h;12000rpm离心10min,弃上清液,用1ml预冷的70%乙醇洗涤沉淀,12000rpm离心5min,重复洗涤2-3次;洗涤结束后,将沉淀自然风干,加100μl无菌水或1×te溶液进行溶解,置于-20℃保存,得到待测样品的dna。
步骤2:
以步骤1提取的dna为模板,用引物its4和its5进行pcr扩增。
pcr反应体系(20μl):10×pcrbuffer(2.5mmol/l,含mgcl2)2μl,dntps(2.5mmol/l)1.6μl,引物its4、its5(10μmol/l)各0.8μl,hifidna聚合酶(5u/μl)0.1μl,加入dna模板2μl,其余体积用无菌水补足。
pcr扩增参数:95℃预变性3min,95℃变性1min,56℃退火50s,72℃延伸50s,共循环30次,最后在72℃延伸10min。
采用takara的pcr产物回收试剂盒纯化回收扩增产物并送交测序。
步骤3:
将步骤2获得的和从genbank下载的6个沉香属物种的its序列一起导入mega(版本7.0)软件进行比对,切除引物端后,去除中间存在高度缺失的序列。其中,将步骤2获得的序列作为测试集,将从genbank下载的序列作为训练集,以barcodingwithlogic作为机器学习方法,进行1000次迭代计算,获得鉴定6个沉香属物种的特异核苷酸位点。
根据机器学习结果可知,训练集的鉴定成功率为100%,从训练集中获取的鉴别沉香属植物的核苷酸规则如下:
若第619为碱基为g,则鉴定为土沉香aquilariasinensis;
若第105位碱基为t,则鉴定为云南沉香a.yunanensis;
若第570位碱基为c,则鉴定为毛沉香a.hirta;
若第569位碱基为a,则鉴定为卡明沉香a.cumingiana;
若第622位碱基为t,则鉴定为小果沉香a.microcarpa;
若第634位碱基为a,则鉴定为具喙沉香a.rostrata。
根据机器学习结果可知,测试集的鉴定成功率为100%,说明训练集生成的核苷酸规则适用于测试集,2个沉香属待测物种得到了准确的鉴定。
本发明上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的范围内。
1.一种基于its序列和机器学习的沉香属物种鉴定方法,其特征在于,包括以下步骤:
s1.数据的获取和数据集的建立
获取6个沉香属物种的its区序列,并进行比对,切除引物端后,去除存在高度缺失的序列,得到用于机器学习的数据集;
s2.利用机器学习提取鉴定6个沉香属物种的核苷酸特征
以barcodingwithlogic作为机器学习方法,将s1得到的数据集进行100次-1000次迭代计算,得到鉴定6个沉香属物种的核苷酸特征;
s3.6个沉香属物种的鉴定
鉴定6个沉香属物种的特异核苷酸位点,具体标准是:
若第619为碱基为g,则鉴定为土沉香aquilariasinensis;
若第105位碱基为t,则鉴定为云南沉香a.yunanensis;
若第570位碱基为c,则鉴定为毛沉香a.hirta;
若第569位碱基为a,则鉴定为卡明沉香a.cumingiana;
若第622位碱基为t,则鉴定为小果沉香a.microcarpa;
若第634位碱基为a,则鉴定为具喙沉香a.rostrata。
2.根据权利要求1所述的基于its序列和机器学习的6个沉香属物种鉴定方法,其特征在于,在步骤s1中,its区序列一部分来自于实验获取,物种是土沉香、云南沉香和毛沉香,通过分子生物学实验及测序获得该3个沉香属物种的its区序列,具体包括如下步骤:
s11.采用改良ctab法,对3个待测物种样品的总dna进行提取;
s12.以3个待测物种样品的总dna为模板,利用引物its5和its4进行pcr扩增;
s13.扩增产物纯化后连接到载体pmd18-t,连接产物转化到e.colijm109感受态细胞,进行氨苄青霉素选择,对阳性菌落进行测序,测序引物与pcr扩增引物一致,得到its区序列。
3.根据权利要求1所述的基于its序列和机器学习的沉香属物种鉴定方法,其特征在于,在步骤s1中,its区序列一部分来自于genbank,物种是土沉香、云南沉香、毛沉香、卡明沉香、小果沉香、具喙沉香。
4.根据权利要求3所述的基于its序列和机器学习的沉香属物种鉴定方法,其特征在于,在步骤s1中,将实验获得的与从genbank下载的its区序列合为一个文件并导入mega7.0软件进行比对。
5.根据权利要求2所述的基于its序列和机器学习的沉香属物种鉴定方法,其特征在于,在步骤s11中,取新鲜采集的瑞香科沉香属植物的叶片,待测叶片先经过预处理后才进行dna的提取,所述预处理是将叶片浸泡于75%乙醇溶液中5min,取出后放置于无菌环境中风干,将风干的叶片放置在已预冷的研钵中,加液氮进行研磨至粉末,该粉末即为待测样品。
6.根据权利要求5所述的基于its序列和机器学习的沉香属物种鉴定方法,其特征在于,在步骤s12中,所述引物its4的核苷酸序列如seqidno:1所示,its5的核苷酸序列如seqidno:2所示,
seqno.1:tcctccgcttattgatatgc20
seqno.2:ggaagtaaaagtcgtaacaagg22。
7.根据权利要求6所述的基于its序列和机器学习的沉香属物种鉴定方法,其特征在于,在步骤s12中,pcr扩增反应体系总体积为20μl,该反应体系包含2.5mmol/l10×pcrbuffer(含mgcl2)2μl,2.5mmol/ldntp1.6μl,10μmol/l引物its40.8μl,10μmol/l引物its50.8μl,5u/μlhifidna聚合酶0.1μl,加入dna模板50ng,其余体积用无菌水补足。
8.根据权利要求7所述的基于its序列和机器学习的沉香属物种鉴定方法,其特征在于,在步骤s12中,pcr扩增参数为:95℃预变性3min,95℃变性1min,56℃退火50s,72℃延伸50s,共循环30次,最后在72℃延伸10min。
9.根据权利要求1所述的基于its序列和机器学习的个沉香属物种鉴定方法,其特征在于,在步骤s2中,以barcodingwithlogic作为机器学习方法,将s1得到的数据集按比例随机分成训练集和测试集,其中训练集占总集合的80%,测试集占总集合的20%,进行1000次迭代计算。
10.根据权利要求1所述的基于its序列和机器学习的沉香属物种鉴定方法,其特征在于,在步骤s3中,鉴别土沉香、云南沉香、毛沉香、卡明沉香、小果沉香、具喙沉香的核苷酸特征为鉴别这6个沉香属物种的物种特异位点,各沉香属物种在其特异位点未发生变异。
技术总结