本技术涉及人工智能技术和计算结构生物学,尤其涉及一种抗原表位预测方法、装置、设备及存储介质。
背景技术:
1、抗体作为一种免疫球蛋白,具有高度的特异性,能够与相应抗原特异性结合发挥免疫功能。抗体与抗原之间的相互作用依赖于抗体的变异区域(v区)的互补决定区(cdrs)与抗原之间的精准识别,其中,抗体中能够与抗原相互作用的结合位点称为抗原结合位点(paratope),抗原上能够与抗体特异性结合的位点称为表位(epitope)或抗原决定簇。表位和抗原结合位点之间的精准匹配在疫苗设计、免疫诊断、抗体药物开发等领域发挥重要作用。
2、随着生物组学技术的发展,针对某一特定抗原蛋白可以快速获取大量的抗体序列。传统的实验方法例如冷冻电镜、核磁共振、x射线晶体学等方法通过对蛋白复合物结构进行解析,从而分析蛋白结合界面的具体残基,但因耗时长、实验成本高昂等问题也会限制其应用。目前市面上的一些基于机器学习方法的抗原-抗体结合位点预测工具多聚焦于抗原结构,忽略了相应抗体的信息,或者由于抗体三维结构数据量不足等原因导致其预测结果准确度低。
3、因此,如何基于抗原和抗体相互作用实现抗原表位的高准确度预测是目前需要解决的问题。
技术实现思路
1、为解决或部分解决相关技术中存在的问题,本技术提供一种抗原表位预测方法、装置、设备及存储介质,能够对抗体是否能够与指定抗原表位相结合,或对于抗原结构的抗原表位信息进行高准确度预测。
2、本技术第一方面提供一种抗原表位预测方法,包括:
3、获取待预测抗原和待预测抗体;
4、对所述待预测抗原和待预测抗体进行预处理,得到待预测抗原-抗体片段复合物;
5、将所述待预测抗原-抗体片段复合物输入抗原表位预测模型,由所述抗原表位预测模型对所述待预测抗原和所述待预测抗体进行结合概率预测;
6、获取所述抗原表位预测模型输出的预测结果;所述预测结果用于筛选所述待预测抗原表位对应的目标抗体,或用于确定所述待预测抗体对应的目标表位;
7、其中,所述抗原表位预测模型,由语言模型和图神经网络对已知抗原-抗体复合物构建的正负样本训练得到。
8、作为一个可选的实施例,所述对所述待预测抗原和待预测抗体进行预处理,得到待预测抗原-抗体片段复合物,包括:
9、对所述待预测抗原进行片段切分预处理,得到多个待预测抗原片段;
10、对所述待预测抗体进行截取预处理,保留所述待预测抗体的cdr区,得到待预测抗体片段;
11、将所述待预测抗体片段分别与多个待预测抗原片段合并,得到多个待预测抗原-抗体片段复合物。
12、作为一个可选的实施例,所述抗原表位预测模型包括以下训练步骤:
13、获取具有相互作用的抗原-抗体复合物;
14、分别对所述抗原-抗体复合物的抗原和抗体进行预处理,合并得到多个抗原-抗体片段复合物;
15、分别基于多个所述抗原-抗体片段复合物的结构和序列信息对多个所述抗原-抗体片段复合物进行特征提取及数据标记处理,得到正样本数据集;
16、根据预设负样本构造规则对所述正样本数据集进行负样本构造处理,并与所述正样本数据集融合,得到样本集;
17、采用语言模型和图神经网络对所述样本集进行训练,得到抗原表位预测模型。
18、作为一个可选的实施例,所述分别对所述抗原-抗体复合物的抗原和抗体进行预处理,合并得到多个抗原-抗体片段复合物,包括:
19、对所述抗原-抗体复合物的抗原结构进行切分预处理,得到多个抗原片段;
20、对所述抗原-抗体复合物的抗体结构进行预处理,保留所述抗原-抗体复合物中抗体的cdr区,得到抗体片段;
21、将所述抗体片段分别与多个所述抗原片段合并,得到多个抗原-抗体片段复合物。
22、作为一个可选的实施例,所述分别对所述抗原-抗体复合物的抗原和抗体进行预处理,合并得到多个抗原-抗体片段复合物,还包括:
23、根据所述抗原-抗体复合物的uniprot编号对多个所述抗原-抗体片段复合物进行归类,得到多个标签化的所述抗原-抗体片段复合物。
24、作为一个可选的实施例,所述分别基于多个所述抗原-抗体片段复合物的结构和序列信息对多个所述抗原-抗体片段复合物进行特征提取及数据标记处理,得到正样本数据集,包括:
25、根据多个所述抗原-抗体片段复合物中抗原片段和抗体片段的结构和序列信息,分别提取多个所述抗原-抗体片段复合物中抗原片段和抗体片段的特征信息,合并作为所述抗原-抗体复合物中抗原和抗体的特征信息;
26、利用分词器分别对所述抗原-抗体复合物中抗原的序列信息和抗体的序列信息进行数据向量化处理,得到抗原序列数据集和抗体序列数据集;
27、根据所述抗原-抗体复合物中抗原的特征信息和抗体的特征信息,对所述抗原序列数据集和抗体序列数据集进行数据标记处理,得到正样本数据集。
28、作为一个可选的实施例,所述利用分词器分别对所述抗原-抗体复合物中抗原的序列信息和抗体的序列信息进行数据向量化处理,得到抗原序列数据集和抗体序列数据集,包括:
29、利用分词器分别对所述抗原-抗体复合物的抗原序列,以及抗体序列中的cdrh1-2和cdrl1-3区域,进行数据向量化处理,得到抗原序列数据集和抗体序列数据集。
30、作为一个可选的实施例,所述预设负样本构造规则,包括以下方式的至少一种:
31、选取所述正样本数据集中的任意一抗原样本数据,采用增加高斯噪声的方式构造负样本;
32、选取所述正样本数据集中的任意一抗体样本数据,采用增加高斯噪声的方式构造负样本;
33、选取所述正样本数据集中的任意一抗原样本数据和任意一非该抗原对应的抗体样本数据组合构造负样本。
34、本技术第二方面提供一种抗原表位预测装置,包括:
35、获取模块,用于获取待预测抗原和待预测抗体;
36、预处理模块,用于对所述待预测抗原结构和待预测抗体进行预处理,得到待预测-抗体片段复合物;
37、预测模块,用于将所述待预测抗原-抗体片段复合物输入抗原表位预测模型,由所述抗原表位预测模型预测对所述待预测抗原和所述待预测抗体进行结合概率预测;
38、结果输出模块,用于获取所述抗原表位预测模型输出的预测结果;所述预测结果用于筛选所述待预测抗原表位对应的目标抗体,或用于确定所述待预测抗体对应的目标表位;
39、其中,所述抗原表位预测模型,由语言模型和图神经网络对已知抗原-抗体复合物构建的正负样本训练得到。
40、本技术第三方面提供一种电子设备,包括:
41、处理器;以及
42、存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
43、本技术第四方面提供一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
44、本技术提供的技术方案可以包括以下有益效果:通过语言模型和图神经网络的融合,共同根据待预测抗原和待预测抗体的结构信息、序列信息、界面信息等数据,进行待预测抗原-待预测抗体的结合概率预测,从而基于预测分数筛选待预测抗原已知表位对应的目标抗体,或者确定待预测抗体对应的目标表位。模型表现能力强,预测准确度高。
45、同时,通过构造的大量高质量负样本使得模型学习到更多的抗体cdr构象和抗原表位之间的关系,从而实现抗体非cdrh3区域是否能够结合到目标表位的高准确度预测。
46、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。
1.一种抗原表位预测方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述对所述待预测抗原和待预测抗体进行预处理,得到待预测抗原-抗体片段复合物,包括:
3.根据权利要求1所述的方法,其特征在于,所述抗原表位预测模型包括以下训练步骤:
4.根据权利要求3所述的方法,其特征在于,所述分别对所述抗原-抗体复合物的抗原和抗体进行预处理,合并得到多个抗原-抗体片段复合物,包括:
5.根据权利要求3所述的方法,其特征在于,所述分别对所述抗原-抗体复合物的抗原和抗体进行预处理,合并得到多个抗原-抗体片段复合物,还包括:
6.根据权利要求3所述的方法,其特征在于,所述分别基于多个所述抗原-抗体片段复合物的结构和序列信息对多个所述抗原-抗体片段复合物进行特征提取及数据标记处理,得到正样本数据集,包括:
7.根据权利要求6所述的方法,其特征在于,所述利用分词器分别对所述抗原-抗体复合物中抗原和抗体的序列信息进行数据向量化处理,得到抗原序列数据集和抗体序列数据集,包括:
8.一种抗原表位预测装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括:
10.一种计算机可读存储介质,其上存储有可执行代码,其特征在于,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如权利要求1-7中任一项所述的方法。
