一种基于ITS序列和机器学习的沉香属植物鉴定方法与流程

专利2022-06-28  144

本发明涉及一种沉香属物种的鉴定方法,更具体地,设计一种its序列和机器学习鉴定土沉香、云南沉香、毛沉香、卡明沉香、小果沉香、具喙沉香的方法。



背景技术:

瑞香科(thymelaeaceae)沉香属(aquilaria)植物是热带及亚热带常绿乔木,大多分布于印度尼西亚、马来西亚、越南等东南亚国家。沉香,即沉香属植物受伤后分泌的树脂与木质结合在一起形成的融合物。沉香是我国及其他东南亚国家沿用历史悠久的珍贵传统药材,其价值极高,被誉为“药中黄金”。沉香其味辛苦,性微温,具行气止痛、文中止呕、纳气平喘等功效,可用于胸腹胀闷疼痛、胃寒呕吐呃逆、肾虚气逆喘息。除了具有极高的药用价值,沉香也是制作高级香料的必备材料,同时,沉香还可以制作雕刻品、家具等产品,倍受国内外消费者的欢迎。但由于需索无度,长期无节制的毁灭性采香,使得野生沉香植物濒临灭绝。目前已发现有多种沉香属物种可形成沉香,而不同沉香物种、不同结香方法产生的沉香在沉香品质、化学成分含量、药用价值及市场价格方面具有较大差异,单靠形态、化学组分分析等方法不能全面、科学地鉴定与评估沉香植物。因此,为了从沉香物种水平上对沉香质量进行把控,需要一种更精确、更快速的鉴定方法来实现对沉香物种进行鉴定。

已有利用snp分子标记对土沉香、云南沉香和马来沉香序列进行鉴别的报道,报道中需同时满足核苷酸序列中连续4个碱基方可鉴定成功,一旦连续的4个碱基中某1个碱基发生突变,就可能导致鉴定失败。因此,有必要改进鉴别方法,为沉香的基源植物资源保护和贸易提供理论基础和技术支持。

随着人工智能的发展,机器学习作为当前计算机科学最热门的研究方向之一,在各种各样的领域得到了迅速的发展。为了充分且有效地利用生物学数据,机器学习技术也被广泛应用于生物信息学研究中。目前,国内外尚未有将its序列和机器学习相结合用于沉香属物种鉴定的报道。



技术实现要素:

为了克服已有技术的不足,本发明的目的在于提供一种结合its序列与机器学习的方法来准确、快速、特异地鉴定种土沉香、云南沉香、毛沉香、卡明沉香、小果沉香、具喙沉香6个沉香属物种。

本发明上述目的通过以下技术方案实现:

一种基于its序列和机器学习的沉香属物种鉴定方法,包括如下步骤:

s1:数据的获取和数据集的建立

获取土沉香、云南沉香、毛沉香、卡明沉香、小果沉香、具喙沉香的its区序列,并进行比对,切除引物端后,去除存在高度缺失的序列,得到用于机器学习的数据集。

具体地,上述s1中,its区序列一部分来自于实验获取,物种是土沉香、云南沉香和毛沉香,通过分子生物学实验及测序获得该3个沉香属物种的its区序列,具体包括如下步骤:

s11.以改良的ctab法,对3个待测物种样品的总dna进行提取;

优选地,取新鲜采集的瑞香科沉香属植物的叶片,待测叶片先经过预处理后才进行dna的提取,所述预处理是将叶片浸泡于75%乙醇溶液中5min,取出后放置于无菌环境中风干。将风干的叶片放置在已预冷的研钵中,加液氮进行研磨至粉末,该粉末即为待测样品。

s12.以3个待测物种样品的总dna为模板,利用引物its5和its4进行pcr扩增得到沉香属植物的its区序列;上述引物its5和its4是针对沉香属植物而设计的专用引物,其中,引物its4的核苷酸序列如seqidno:1所示,its5的核苷酸序列如seqidno:2所示。

seqno.1:tcctccgcttattgatatgc20

seqno.2:ggaagtaaaagtcgtaacaagg22

优选地,pcr扩增反应体系总体积为20μl,该反应体系包含10×pcrbuffer(2.5mmol/l,含mgcl2)2μl,dntps(2.5mmol/l)1.6μl,引物its4、its5(10μmol/l)各0.8μl,hifidna聚合酶(5u/μl)0.1μl,加入dna模板2μl,其余体积用无菌水补足。

优选地,所述pcr扩增参数为:95℃预变性3min,95℃变性1min,56℃退火50s,72℃延伸50s,共循环30次,最后在72℃延伸10min。

具体地,上述s1中,its区序列一部分来自于genbank,物种是土沉香、云南沉香、毛沉香、卡明沉香、小果沉香、具喙沉香。

进一步地,将实验获得的与从genbank下载的its区序列合为一个文件并导入mega(版本7.0)软件中进行比对。

s2:利用机器学习提取鉴定6个沉香属物种的核苷酸特征

将步骤s1得到的数据集以barcodingwithlogic作为机器学习进行100次-1000次迭代计算,得到鉴定该沉香属植物的核苷酸特征。

进一步地,以barcodingwithlogic作为机器学习方法,是将s1得到的数据集按比例随机分成训练集(80%)和测试集(20%),进行1000次迭代计算。

s3:6个沉香属物种的鉴定

鉴定6个沉香属物种的特异核苷酸位点,具体标准是:

若第619为碱基为g,则鉴定为土沉香aquilariasinensis;

若第105位碱基为t,则鉴定为云南沉香a.yunanensis;

若第570位碱基为c,则鉴定为毛沉香a.hirta;

若第569位碱基为a,则鉴定为卡明沉香a.cumingiana;

若第622位碱基为t,则鉴定为小果沉香a.microcarpa;

若第634位碱基为a,则鉴定为具喙沉香a.rostrata。

上述核苷酸位点为鉴定土沉香、云南沉香、毛沉香、卡明沉香、小果沉香、具喙沉香的特异位点(species-specificpositions)。第618位碱基g是土沉香区别于另外5个物种的特异碱基,所有土沉香序列在该位点未发生种内变异;第105位碱基t是云南沉香区别于另外5个物种的特异碱基,所有云南沉香序列在该位点未发生变异;第570位碱基c是毛沉香区别于另外5个物种的特异碱基,所有毛沉香序列在该位点未发生变异;第569位碱基a是卡明沉香区别于另外5个物种的特异碱基,所有卡明沉香序列在该位点未发生变异;第621位碱基t是小果沉香区别于另外5个物种的特异碱基,所有小果沉香序列在该位点未发生变异;第634位碱基a是具喙沉香区别于另外5个物种的特异碱基,所有具喙沉香序列在该位点未发生变异。

与现有技术相比,本发明有如下有益效果:

本发明首次将its序列与机器学习相结合的方法用于沉香属植物的鉴定,得到了鉴定6个沉香属植物的特异核苷酸位点,6个沉香属物种分别仅需一个位点即可准确鉴定。该方法通过机器筛选变异位点,可以快速、准确、特异性地从众多位点中筛选出鉴定6个沉香属物种的特异位点,说明its序列与机器学习结合的方法用于鉴定该6个沉香属物种的结果是可靠的。本发明弥补了基于形态学等传统鉴定方法以及基于dna条形码序列的snp分子标记的局限性,填补了将生物学信息与机器学习结合用于鉴定沉香属植物的空白,为沉香物种鉴定、分类和物种检测提供了重要的核苷酸信息,也为沉香的质量把控、基源植物资源保护和贸易提供理论基础和技术支持。

具体实施方式

以下结合说明书和具体实施例来进一步说明本发明,但实施例并不对本发明做任何形式的限定。除非特别说明,本发明采用的试剂、方法和设备为本技术领域常规试剂、方法和设备。

除非特别说明,以下实施例所用试剂和材料均为市购。

实施例16个沉香属植物的鉴定

1、样品dna的提取

(1)待测样品:从不同地区采集多份沉香属植物共26份样品,如表1所示。

表13个沉香属物种样品采集地点

(2)按照下述方法分别对表1的沉香属植物样品进行dna的提取

1)取2g待测样品,将待测样品浸泡在75%乙醇中5min,取出,放置在无菌环境中风干;

2)将风干的材料放置在预冷的研钵中,加液氮研磨至粉末状,转移至50ml离心管中,然后加入5ml65℃预热的3×ctab提取液,65℃水浴2h,期间每隔15-20min轻轻震荡摇匀;所述3×ctab提取液配方为:4%ctab,1.4mol/lnacl,100mmol/ltris-hcl,1%pvpp,25mmol/ledta,2%β-巯基乙醇,ph8.0;体系中的“%”代表体积分数;

3)水浴结束后,12000rpm离心5min,取上清分装在1.5ml离心管中,用等体积氯仿-异戊醇(24:1),tris饱和酚-氯仿-异戊醇(25:24:1)和氯仿-异戊醇先后各抽提一次,10000rpm离心5min;

4)取上清液至新1.5ml离心管中,加0.8倍体积异丙醇和0.2倍体积3mol/l醋酸钠,-20℃沉淀1h,12000rpm离心10min;

5)弃上清液,用1ml预冷的70%乙醇洗涤沉淀,12000rpm离心5min,重复洗涤2-3次;

6)洗涤结束后,将沉淀自然风干,加100μl无菌水或1×te溶液进行溶解,置于-20℃保存,得到待测样品的dna。

2、its区序列片段的扩增

(1)引物its5和its4的序列如下所示

引物its5(如seqidno.1所示):5’ggaagtaaaagtcgtaacaagg3’

引物its4(如seqidno.2所示):5’tcctccgcttattgaataatgc3’

引物由生工生物工程(上海)股份有限公司合成。

(2)pcr反应体系

10×pcrbuffer(2.5mmol/l,含mgcl2)2μl,dntps(2.5mmol/l)1.6μl,引物its4、its5(10μmol/l)各0.8μl,hifidna聚合酶(5u/μl)0.1μl,加入dna模板2μl,其余体积用无菌水补足。

(3)pcr扩增参数

95℃预变性3min,95℃变性1min,56℃退火50s,72℃延伸50s,共循环30次,最后在72℃延伸10min。

3、pcr产物纯化、链接及转化

采用dna凝胶回收试剂盒(takaraminibestagarosegeldnaextractionkit)对pcr扩增产物进行割胶回收。沉香its序列的pcr扩增产物从1%的琼脂凝胶中割胶纯化。纯化产物连接到pmd18-t-vecter(takara),连接产物转化到escherichiacolijm109感受态细胞,进行氨苄青霉素选择。

4、its区序列测定

挑取单克隆菌落送至睿博兴科生物技术有限公司进行测序,测序引物与上述pcr引物一致。

5、its区序列分析

(1)选取土沉香aquilariasinensis、云南沉香a.yunnanensis、毛沉香a.hirta、卡明沉香a.cumingiana、小果沉香a.microcarpa和具喙沉香a.rostrata共6种沉香属植物,并在ncbi数据库上查询和下载其its区序列的fasta格式文件,共47条序列,见表2。

表2从genbank下载的沉香属植物its序列

(2)根据测序结果可知,17条土沉香序列存在6个位点的差异,8条云南沉香序列存在3个位点的差异(经过研究验证显示,下述鉴别6个沉香属植物的位点均不存在种内差异)。实验获取的序列已上传至ncbi,genbank登录号为ky817952、ky817960、ky817966、ky817974-ky817978、ky817980、ky817981、ky817983-ky817985、mh594310、mh594312、mh594317、mh594319-mh594328。

(3)将实验获得的its区序列和从genbank下载的its区序列,一起导入mega(版本7.0)软件进行比对,切除引物端后,去除中间存在高变的插入或缺失的序列,得到用于机器学习的数据集。

(4)以barcodingwithlogic作为机器学习方法,将数据集随机分成训练集和测试集,其中训练集占总集合的80%,测试集占总集合的20%,进行1000次迭代计算,获得鉴定沉香属植物的特异核苷酸位点。

6、6个沉香属植物的鉴定

根据机器学习结果可知,训练集和测试集对6个沉香属物种的鉴定成功率均为100%。鉴定6种沉香属植物的特异核苷酸位点,具体标准是:

若第619为碱基为g,则鉴定为土沉香aquilariasinensis;

若第105位碱基为t,则鉴定为云南沉香a.yunanensis;

若第570位碱基为c,则鉴定为毛沉香a.hirta;

若第569位碱基为a,则鉴定为卡明沉香a.cumingiana;

若第622位碱基为t,则鉴定为小果沉香a.microcarpa;

若第634位碱基为a,则鉴定为具喙沉香a.rostrata。

实施例2:土沉香、云南沉香的鉴定试验

1、基因组dna的提取

从不同产地收集多份根据形态分别鉴定为土沉香和云南沉香的样品,如表3所示:

表32个沉香属物种样品采集地点

分别按照下述方法进行鉴定:

步骤1:

取2g待测样品,将待测样品浸泡在75%乙醇中5min,取出,放置在无菌环境中风干;将风干的材料放置在预冷的研钵中,加液氮研磨至粉末状,转移至50ml离心管中,然后加入5ml65℃预热的3×ctab提取液,65℃水浴2h,期间每隔15-20min轻轻震荡摇匀;所述3×ctab提取液配方为:4%ctab,1.4mol/lnacl,100mmol/ltris-hcl,1%pvpp,25mmol/ledta,2%β-巯基乙醇,ph8.0;体系中的“%”代表体积分数。

水浴结束后,12000rpm离心5min,取上清分装在1.5ml离心管中,用等体积氯仿-异戊醇(24:1),tris饱和酚-氯仿-异戊醇(25:24:1)和氯仿-异戊醇先后各抽提一次,10000rpm离心5min。

取上清液至新1.5ml离心管中,加0.8倍体积异丙醇和0.2倍体积3mol/l醋酸钠,-20℃沉淀1h;12000rpm离心10min,弃上清液,用1ml预冷的70%乙醇洗涤沉淀,12000rpm离心5min,重复洗涤2-3次;洗涤结束后,将沉淀自然风干,加100μl无菌水或1×te溶液进行溶解,置于-20℃保存,得到待测样品的dna。

步骤2:

以步骤1提取的dna为模板,用引物its4和its5进行pcr扩增。

pcr反应体系(20μl):10×pcrbuffer(2.5mmol/l,含mgcl2)2μl,dntps(2.5mmol/l)1.6μl,引物its4、its5(10μmol/l)各0.8μl,hifidna聚合酶(5u/μl)0.1μl,加入dna模板2μl,其余体积用无菌水补足。

pcr扩增参数:95℃预变性3min,95℃变性1min,56℃退火50s,72℃延伸50s,共循环30次,最后在72℃延伸10min。

采用takara的pcr产物回收试剂盒纯化回收扩增产物并送交测序。

步骤3:

将步骤2获得的和从genbank下载的6个沉香属物种的its序列一起导入mega(版本7.0)软件进行比对,切除引物端后,去除中间存在高度缺失的序列。其中,将步骤2获得的序列作为测试集,将从genbank下载的序列作为训练集,以barcodingwithlogic作为机器学习方法,进行1000次迭代计算,获得鉴定6个沉香属物种的特异核苷酸位点。

根据机器学习结果可知,训练集的鉴定成功率为100%,从训练集中获取的鉴别沉香属植物的核苷酸规则如下:

若第619为碱基为g,则鉴定为土沉香aquilariasinensis;

若第105位碱基为t,则鉴定为云南沉香a.yunanensis;

若第570位碱基为c,则鉴定为毛沉香a.hirta;

若第569位碱基为a,则鉴定为卡明沉香a.cumingiana;

若第622位碱基为t,则鉴定为小果沉香a.microcarpa;

若第634位碱基为a,则鉴定为具喙沉香a.rostrata。

根据机器学习结果可知,测试集的鉴定成功率为100%,说明训练集生成的核苷酸规则适用于测试集,2个沉香属待测物种得到了准确的鉴定。

本发明上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的范围内。


技术特征:

1.一种基于its序列和机器学习的沉香属物种鉴定方法,其特征在于,包括以下步骤:

s1.数据的获取和数据集的建立

获取6个沉香属物种的its区序列,并进行比对,切除引物端后,去除存在高度缺失的序列,得到用于机器学习的数据集;

s2.利用机器学习提取鉴定6个沉香属物种的核苷酸特征

以barcodingwithlogic作为机器学习方法,将s1得到的数据集进行100次-1000次迭代计算,得到鉴定6个沉香属物种的核苷酸特征;

s3.6个沉香属物种的鉴定

鉴定6个沉香属物种的特异核苷酸位点,具体标准是:

若第619为碱基为g,则鉴定为土沉香aquilariasinensis;

若第105位碱基为t,则鉴定为云南沉香a.yunanensis;

若第570位碱基为c,则鉴定为毛沉香a.hirta;

若第569位碱基为a,则鉴定为卡明沉香a.cumingiana;

若第622位碱基为t,则鉴定为小果沉香a.microcarpa;

若第634位碱基为a,则鉴定为具喙沉香a.rostrata。

2.根据权利要求1所述的基于its序列和机器学习的6个沉香属物种鉴定方法,其特征在于,在步骤s1中,its区序列一部分来自于实验获取,物种是土沉香、云南沉香和毛沉香,通过分子生物学实验及测序获得该3个沉香属物种的its区序列,具体包括如下步骤:

s11.采用改良ctab法,对3个待测物种样品的总dna进行提取;

s12.以3个待测物种样品的总dna为模板,利用引物its5和its4进行pcr扩增;

s13.扩增产物纯化后连接到载体pmd18-t,连接产物转化到e.colijm109感受态细胞,进行氨苄青霉素选择,对阳性菌落进行测序,测序引物与pcr扩增引物一致,得到its区序列。

3.根据权利要求1所述的基于its序列和机器学习的沉香属物种鉴定方法,其特征在于,在步骤s1中,its区序列一部分来自于genbank,物种是土沉香、云南沉香、毛沉香、卡明沉香、小果沉香、具喙沉香。

4.根据权利要求3所述的基于its序列和机器学习的沉香属物种鉴定方法,其特征在于,在步骤s1中,将实验获得的与从genbank下载的its区序列合为一个文件并导入mega7.0软件进行比对。

5.根据权利要求2所述的基于its序列和机器学习的沉香属物种鉴定方法,其特征在于,在步骤s11中,取新鲜采集的瑞香科沉香属植物的叶片,待测叶片先经过预处理后才进行dna的提取,所述预处理是将叶片浸泡于75%乙醇溶液中5min,取出后放置于无菌环境中风干,将风干的叶片放置在已预冷的研钵中,加液氮进行研磨至粉末,该粉末即为待测样品。

6.根据权利要求5所述的基于its序列和机器学习的沉香属物种鉴定方法,其特征在于,在步骤s12中,所述引物its4的核苷酸序列如seqidno:1所示,its5的核苷酸序列如seqidno:2所示,

seqno.1:tcctccgcttattgatatgc20

seqno.2:ggaagtaaaagtcgtaacaagg22。

7.根据权利要求6所述的基于its序列和机器学习的沉香属物种鉴定方法,其特征在于,在步骤s12中,pcr扩增反应体系总体积为20μl,该反应体系包含2.5mmol/l10×pcrbuffer(含mgcl2)2μl,2.5mmol/ldntp1.6μl,10μmol/l引物its40.8μl,10μmol/l引物its50.8μl,5u/μlhifidna聚合酶0.1μl,加入dna模板50ng,其余体积用无菌水补足。

8.根据权利要求7所述的基于its序列和机器学习的沉香属物种鉴定方法,其特征在于,在步骤s12中,pcr扩增参数为:95℃预变性3min,95℃变性1min,56℃退火50s,72℃延伸50s,共循环30次,最后在72℃延伸10min。

9.根据权利要求1所述的基于its序列和机器学习的个沉香属物种鉴定方法,其特征在于,在步骤s2中,以barcodingwithlogic作为机器学习方法,将s1得到的数据集按比例随机分成训练集和测试集,其中训练集占总集合的80%,测试集占总集合的20%,进行1000次迭代计算。

10.根据权利要求1所述的基于its序列和机器学习的沉香属物种鉴定方法,其特征在于,在步骤s3中,鉴别土沉香、云南沉香、毛沉香、卡明沉香、小果沉香、具喙沉香的核苷酸特征为鉴别这6个沉香属物种的物种特异位点,各沉香属物种在其特异位点未发生变异。

技术总结
本发明公开了一种基于ITS序列和机器学习的沉香属物种鉴定方法,包括以下步骤:(1)收集土沉香、云南沉香、毛沉香、卡明沉香、小果沉香、具喙沉香的ITS序列;(2)利用机器学习提取鉴别该6个沉香属物种的特异核苷酸位点;(3)对该6个沉香属物种进行鉴别。将ITS序列和机器学习结合对6个沉香属物种进行鉴定的方法,该方法能够减少从多个变异位点中手动筛选核苷酸位点来鉴定物种的时间,提高了鉴定效率;同时还能避免因某个位点变异而不能满足多个位点同时存在作为鉴定物种的依据而造成鉴定失败的情况,保证了鉴定的准确性和特异性,从而实现快速、高准确性、高特异性地鉴定6个沉香属物种。

技术研发人员:朱爽;冯婷婷;梁文杰;邓锦思;林月霞
受保护的技术使用者:广东药科大学
技术研发日:2020.02.28
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-8343.html

最新回复(0)