用于检索环状分子的结构的方法和装置以及记录介质与流程

专利2022-06-29  84


本文中讨论的实施方案涉及用于使用三维格点空间(three-dimensionallatticespace)来检索环状分子的稳定结构的方法和装置,以及在其中存储有用于使计算机执行所述方法之程序的记录介质。



背景技术:

通常情况下,大尺寸分子的稳定结构很重要。该情况的一些实例包括药物发现。然而,在现实的时间尺度内可能难以根据阐明并考虑所有原子的计算来检索大尺寸分子(例如,蛋白质)的稳定结构。

因此,已研究了用于通过粗略地捕获(粗略地可视化)分子的结构来缩短计算时间的技术。例如,研究了被称为格点蛋白质的技术,其中检索了仅由氨基酸残基的一维布置信息构成的蛋白质的粗略可视化结构。作为其一个实例,已报道了使用量子退火(quantumannealing)技术来高速检索直链蛋白质的简单立方格点结构的稳定结构的技术。根据当前的技术,用于通过退火机(annealingmachine)(例如量子退火)来检索格点蛋白质结构的技术仅可应用于直链结构。然而,就在考虑药物发现领域中与充当靶标的蛋白质键合的药物候选化合物的情况下,环状化合物比直链化合物更强烈地键合。因此,考虑到对于药物发现的应用,能够检索环状分子的稳定结构是重要的。背景技术的一个实例在r.babbush等,constructionofenergyfunctionsforlatticeheteropolymermodels:acasestudyinconstraintsatisfactionprogrammingandadiabaticquantumoptimization,arxiv:quant-ph/1211.3422v2(https://arxiv.org/abs/1211.3422)中公开。



技术实现要素:

所公开的发明的目的是提供用于检索环状分子之结构的方法和装置以及记录介质,所述方法和装置可检索环状分子的稳定结构,所述记录介质在其中存储有用于使计算机执行用于检索结构之方法的程序。

根据本公开内容的一个方面,用于检索环状分子的结构的方法是使用计算机检索环状分子的稳定结构的方法,其中数目为n的化合物基团连接以形成环。所述方法包括将数目为n的化合物基团中的每一个布置在每个格点上以在三维格点空间中创建环状分子的三维结构,其中所述格点是作为格点集合的三维格点空间的格点。在环状化合物的化合物基团的数目(n)为奇数的情况下,该布置包括:将连接基团插入到环状分子内以第n个顺序布置的化合物基团与第一个布置的化合物基团之间,将连接基团布置在格点上,并以以下方式调整布置:以第n个顺序布置的化合物基团与第一个布置的化合物基团不彼此正对(faceeachother),并且连接基团在以第n个顺序布置的化合物基团与第一个布置的化合物基团之间。

根据本公开内容的另一个方面,用于检索环状分子之结构的装置是用于检索环状分子的稳定结构的装置,其中,数目为n的化合物基团连接以形成环。所述装置包括:创建单元,其配置为将数目为n的化合物基团中的每一个布置在每个格点上以在三维格点空间中创建环状分子的三维结构,其中所述格点是作为格点集合的三维格点空间的格点。在环状化合物的化合物基团的数目(n)为奇数的情况下,创建单元配置为将连接基团插入到环状分子内以第n个顺序布置的化合物基团与第一个布置的化合物基团之间,将连接基团布置在格点上,并以以下方式调整布置:以第n个顺序布置的化合物基团与第一个布置的化合物基团不彼此正对,并且连接基团在以第n个顺序布置的化合物基团与第一个布置的化合物基团之间。

根据本公开内容的另一个方面,记录介质在其中存储有用于使计算机执行用于检索环状分子结构之方法的程序。所述程序是用于检索环状分子的稳定结构的程序,其中,数目为n的化合物基团连接以形成环。所述方法包括将数目为n的化合物基团中的每一个布置在每个格点上以在三维格点空间中创建环状分子的三维结构,其中所述格点是作为格点集合的三维格点空间的格点。在环状化合物的化合物基团的数目(n)为奇数的情况下,该布置包括:将连接基团插入到环状分子内以第n个顺序布置的化合物基团与第一个布置的化合物基团之间,将连接基团布置在格点上,并以以下方式调整布置:以第n个顺序布置的化合物基团与第一个布置的化合物基团不彼此正对,并且连接基团在以第n个顺序布置的化合物基团与第一个布置的化合物基团之间。

所公开的用于检索环状分子之结构的方法可解决本领域中存在的多种问题,可实现该目的,并且可提供检索环状分子之结构的方法,所述方法可检索环状分子的稳定结构。

所公开的用于检索环状分子之结构的装置可解决本领域中存在的多种问题,可实该现目的,并且可提供检索环状分子之结构的装置,所述装置可检索环状分子的稳定结构。

所公开的记录介质可解决本领域中存在的多种问题,可实现该目的,并且可提供可检索环状分子的稳定结构的记录介质。

附图说明

图1a是用于检索蛋白质的稳定结构的示意图(部分1)。

图1b是用于检索蛋白质的稳定结构的示意图(部分2)。

图1c是用于检索蛋白质的稳定结构的示意图(部分3)。

图2a是用于描述菱形编码方法(diamondencodingmethod)的示意图(部分1)。

图2b是用于描述菱形编码方法的示意图(部分2)。

图2c是用于描述菱形编码方法的示意图(部分3)。

图2d是用于描述菱形编码方法的示意图(部分4)。

图2e是用于描述菱形编码方法的示意图(部分5)。

图3a是用于举例说明在氨基酸残基数目为8的环状蛋白质的情况下的一个布置实例的示意图。

图3b是用于举例说明在氨基酸残基数目为7的环状蛋白质的情况下的一个布置实例的示意图。

图3c是用于举例说明在氨基酸残基数目为7的环状蛋白质的情况下的另一个布置实例的示意图。

图4是举例说明了其中在氨基酸残基数目为7的环状蛋白质的情况下添加连接基团s的一个实例的示意图。

图5是举例说明了其中在氨基酸残基数目为7的环状蛋白质的情况下添加连接基团s的一个实例的示意图。

图6是举例说明了检索蛋白质的稳定结构的方法的流程图。

图7是举例说明了其中在半径r内的每个格点为sr的情况的图。

图8a是举例说明了氨基酸残基所移动至的格点的集合的图(部分1)。

图8b是举例说明了氨基酸残基所移动至的格点的集合的图(部分2)。

图8c是举例说明了氨基酸残基所移动至的格点的集合的图(部分3)。

图8d是举例说明了氨基酸残基所移动至的格点的集合的图(部分4)。

图9是三维地表示s1、s2和s3的图。

图10a是举例说明了其中空间信息被分配至比特(bit)x1至xn中每一个的情况的一个实例的图(部分1)。

图10b是举例说明了其中空间信息被分配至比特x1至xn中每一个的情况的一个实例的图(部分2)。

图10c是举例说明了其中空间信息被分配至比特x1至xn中每一个的情况的一个实例的图(部分3)。

图11是用于描述hone的图。

图12是用于描述hconn的图。

图13是用于描述holap的图。

图14a是用于描述hpair的图(部分1)。

图14b是用于描述hpair的图(部分2)。

图15是举例说明权重文件(weightfile)的图。

图16是举例说明了用于模拟退火的优化装置(运算单元)的概念结构的图。

图17是转换控制单元的电路级(circuitlevel)的框图。

图18是举例说明了转换控制单元的操作流程的图。

图19是举例说明了所公开的用于检索环状分子的结构的装置的一个结构实例的图。

图20是举例说明了所公开的用于检索环状分子的结构的装置的另一个结构实例的图。

图21是举例说明了所公开的用于检索环状分子的结构的装置的另一个结构实例的图。

具体实施方式

所公开的用于检索环状分子的结构的方法是使用计算机检索环状分子的稳定结构的方法,其中数目为n的化合物基团连接以形成环。

用于检索环状分子的结构的方法包括创建步骤,并且根据需要还可包括其他步骤。

创建步骤包括将数目为n的化合物基团中的每一个布置在每个格点上以在三维格点空间中创建环状分子的三维结构,其中所述格点是作为格点集合的三维格点空间的格点。

在环状分子的化合物基团的数目(n)为奇数的情况下,创建步骤包括以下处理1至3。

处理1:将连接基团插入到环状分子内以第n个顺序布置的化合物基团与第一个布置的化合物基团之间的处理。

处理2:将连接基团布置在格点上的处理。

处理3:以以下方式调整该布置的处理:以第n个顺序布置的化合物基团与第一个布置的化合物基团不彼此正对,并且连接基团在以第n个顺序布置的化合物基团与第一个布置的化合物基团之间。

在描述所公开技术的细节之前,将描述用于根据菱形编码方法确定蛋白质折叠的方法。

通常以以下方式进行蛋白质的稳定结构的检索。

首先,进行蛋白质的粗视化(coarsegraining)(图1a)。例如,蛋白质的粗视化是通过将构成蛋白质的原子2粗视化为氨基酸残基单元1a、1b和1c来进行的。

接下来,使用所创建的粗视化模型进行结构检索(图1b)。根据稍后描述的菱形编码方法进行结构检索。

接下来,将粗视化模型返回到整个原子(图1c)。

菱形编码方法通常是其中将线性氨基酸嵌入菱形格点上的位置的方法,并且可表示三维结构。出于简化的目的,将二维结构描述为实例。

当结构由线性结构表示时,用作实例的是具有图2a中所举例说明的结构的线性五肽,其中5个氨基酸残基相连接。在图2a至2e中,每个圆圈中的数字是线性五肽中氨基酸残基的编号。

首先,如在图2a中所举例说明的,将1号氨基酸残基布置在菱形格点的中心,如在图2b中所举例说明的,其中可布置2号氨基酸残基的位置限于与中心紧邻的位置(编号为2的位置)。

接下来,在图2c中,可布置与2号氨基酸残基键合并紧邻的3号氨基酸残基的位置限于与图2b中编号为2的位置紧邻的位置(编号为3的位置)。

接下来,在图2d中,可布置与3号氨基酸残基键合并紧邻的4号氨基酸残基的位置限于与图2c中编号为3的位置紧邻的位置(编号为4的位置)。

接下来,在图2e中,可布置与4号氨基酸残基键合并紧邻的5号氨基酸残基的位置限于与图2d中编号为4的位置紧邻的位置(编号为5的位置)。

以如上所述的方式,可通过连接可布置氨基酸残基的位置来表示三维结构。

如下,将本领域中的上述技术应用于作为环状分子的环状蛋白质。

作为其中氨基酸残基数目为偶数的环状蛋白质的情况,参考图3a描述氨基酸残基数目为8的环状蛋白质。在氨基酸残基数目为8的环状蛋白质的情况下,布置在第一个定位处的氨基酸残基(第一个)与布置在第八个定位处的氨基酸残基(最后一个)可布置在彼此相邻的格点上,并且因此环状结构可在菱形格点中再现。

作为其中氨基酸残基数目为奇数的环状蛋白质的情况,参考图3b描述氨基酸残基数目为7的环状蛋白质。在氨基酸残基数目为7的环状蛋白质的情况下,布置在第一个定位处的氨基酸残基(第一个)与布置在第七个定位处的氨基酸残基(最后一个)不能布置在彼此相邻的格点上,并且因此环状结构不能在菱形格点中再现。

因此,在其中氨基酸残基数目为奇数的环状蛋白质的情况下,不能获得三维结构。

然而,在如图3b中所举例说明的情况下,布置在第一个定位处的氨基酸残基(第一个)与布置在第七个定位处的氨基酸残基(最后一个)彼此紧邻布置,并因此所述布置可被认为是可实现的环状结构。

因此,本发明人研究了用于在如图3b中所举例说明的情况下获得环状蛋白质的三维结构的方法。

由于布置在第一个定位处的氨基酸残基(第一个)与布置在第七个定位处的氨基酸残基(最后一个)在图3b中彼此紧邻地存在,所以可通过用于在第一个布置的氨基酸残基与最后布置的氨基酸残基之间进行连接的处理来获得环状蛋白质。

同时,在如图3c中所举例说明的布置的情况下,不适合在布置在第一个定位处的氨基酸残基(第一个)与布置在第七个定位处的氨基酸残基(最后一个)之间进行连接,因为第一个布置的氨基酸残基与最后布置的氨基酸残基之间的距离大。

因此,如下本发明人已经解决了上述问题。在其中氨基酸残基数目为奇数的环状蛋白质的情况下,如图4中所举例说明的,添加连接基团s,并且最后布置的化合物基团与第一个布置的化合物基团不彼此正对,并且连接基团在第一个布置的化合物基团与最后布置的化合物基团之间。

作为结果,格点以环的形式与连接基团s连接,从而在菱形格点中获得环状蛋白质的三维结构。此外,可通过以以下方式进行布置来避免使布置在第一个定位处的氨基酸残基(第一个)与布置在第七个定位处的氨基酸残基(最后一个)之间的距离变大,如图3c中所举例说明的:最后布置的化合物基团与第一个布置的化合物基团不彼此正对,并且连接基团在最后布置的化合物基团与第一个布置的化合物基团之间。

本发明人已发现,根据用于检索环状分子的稳定结构的方法,可如下获得环状分子的稳定结构,在所述环状分子中,数目为n的化合物基团连接以形成环。具体地,将数目为n的化合物基团中的每一个布置在每个格点上以在三维格点空间中创建环状分子的三维结构,其中所述格点是作为格点集合的三维格点空间的格点。在环状分子的化合物基团的数目(n)为奇数的情况下,为了确定环状分子的稳定结构而进行的是将连接基团插入到环状分子内以第n个顺序布置的化合物基团与第一个布置的化合物基团之间,将连接基团布置在格点上,并以以下方式调整布置:以第n个顺序布置的化合物基团与第一个布置的化合物基团不彼此正对,并且连接基团在以第n个顺序布置的化合物基团和第一个布置的化合物基团之间。

调整布置优选通过以下来进行:将末端基团与连接基团键合以将末端基团布置为正对在三维格点空间中以第n个顺序布置的化合物基团,并且连接基团在末端基团与化合物基团之间。

如图5中所举例说明的,例如,将末端基团e添加至正对布置在第七个定位处的氨基酸残基(最后一个)的位置,并且连接基团在末端基团与最后布置的氨基酸残基之间。作为该布置的结果,可避免使所获得的环状分子中布置在第一个定位处的氨基酸残基(第一个)与布置在第七个定位处的氨基酸残基(最后一个)之间的距离变大,如图3c中所举例说明的。

注意,连接基团和末端基团是实际不存在于环状分子中的虚构基团(imaginarygroup)。

此外,使用模拟退火计算最低能量,从而对所创建的环状分子的三维结构进行基态检索。

例如,化合物基团是氨基酸残基。

在化合物基团是氨基酸残基的情况下,环状分子的一些实例包括环状蛋白质。

作为氨基酸残基的基础的氨基酸可以是天然氨基酸或合成氨基酸。天然氨基酸的一些实例包括丙氨酸、精氨酸、天冬酰胺、天冬氨酸、半胱氨酸、谷氨酰胺、谷氨酸、甘氨酸、组氨酸、异亮氨酸、亮氨酸、赖氨酸、甲硫氨酸、苯丙氨酸、脯氨酸、丝氨酸、苏氨酸、色氨酸、酪氨酸、缬氨酸、β-丙氨酸和β-苯丙氨酸。合成氨基酸的一些实例包括对苯甲酰苯丙氨酸。

蛋白质中的氨基酸残基的数目没有特别限制,并且可根据预期目的来适当地选择。例如,其数目可为约10至约30个,或者约数百个。

在下文中将使用流程图等来描述所公开技术的一个实例。

图6是用于检索蛋白质的稳定结构的流程图。

<步骤s101>

首先,基于氨基酸残基的数目(n),限定作为布置多个氨基酸残基的格点之集合的三维格点空间(s101)。

将描述三维格点空间的限定的一个实例。格点空间是三维的,但为简单起见,将二维格点空间描述为一个实例。

首先,将菱形格点空间中的半径r内的格点的集合确定为壳,并且将每个格点确定为sr。每个格点sr如图7中表示。

例如,1号至5号氨基酸残基所移动至的格点的集合v1至v5如图8a至8d中所示。

在图8a中,v1=s1,且v2=s2。

在图8b中,v3=s3。

在图8c中,v4=s2、s4。

在图8d中,v5=s3、s5。

注意,当s1、s2和s3以三维表示时,s1、s2和s3如图9中所示。在图9中,a=s1,b=s2且c=s3。

用于具有数目为n个氨基酸残基的蛋白质中编号为i的氨基酸残基的空间vi由下式表示。

在上式中,i={1、2、3,……n}。

在以奇数编号(i=奇数)的氨基酸残基的情况下,j={1、3,……i}。在以偶数编号(i=偶数)的氨基酸残基的情况下,j={2、4,……i}。

<步骤s102>

接下来,判断氨基酸残基的数目(n)是偶数还是奇数。在其数目(n)是偶数的情况下,该方法进行至步骤s104。在其数目(n)是奇数的情况下,该方法进行至步骤s103(s102)。

<步骤s103>

接下来,在氨基酸残基的数目(n)为奇数的情况下,将连接基团s和末端基团e添加至待在步骤s103中在三维格点空间中布置的元件上。

将连接基团s插入到环状蛋白质中以第n个顺序布置的氨基酸残基与第一个布置的氨基酸残基之间。末端基团e与连接基团s键合。对末端基团e给予限制,其中所述限制是这样的限制:将末端基团e布置为正对以第n个顺序布置的氨基酸残基,并且连接基团s在末端基团e和以第n个顺序布置的氨基酸残基之间。

<步骤s104>

接下来,将这样的格点的集合确定为vi:其为编号为i的氨基酸残基、连接基团s和末端基团e所移动至的位置(s104)。

如上所述,限定了布置氨基酸残基、连接基团s和末端基团e的空间。

<步骤s105>

接下来,将比特分配至每个格点。具体地,将特定信息分配至比特x1至xn中的每一个(s105)。如图10a至10c中所举例说明的,具体地,对于布置每个氨基酸残基的空间,将在该位置中存在氨基酸残基、连接基团或末端基团表示为1的比特且将不存在氨基酸残基、连接基团或末端基团表示为0的比特进行分配。注意,在图10a至10c中,多个xi被分配至氨基酸残基2至4,但实际上一个比特xi被分配至一个氨基酸残基1。

<步骤s106>

接下来,设置hone、hconn、holap、hpair、hbond和hend并创建通过基于与每个格点相关的限制条件进行的转换而获得的伊辛模型(isingmodel)(s106)。

在菱形编码方法中,整个能量可如下表示。

下式是当氨基酸残基的数目(n)为偶数时的全部能量的式。

e(x)=h=hone hconn holap hpair

下式是当氨基酸残基的数目(n)为奇数时的全部能量的式。

e(x)=h=hone hconn holap hpair hbond hend

在上式中,hone是编号为1至n的氨基酸残基中的每一个中仅存在一个的限制。

hconn是编号为1至n的氨基酸残基全部彼此连接的限制。

holap是编号为1至n的氨基酸残基彼此不重叠的限制。

hpair是表示氨基酸残基之间相互作用的限制。

hbond是表示连接基团s与第一个氨基酸残基和编号为n的氨基酸残基相邻的限制。

hend是表示末端基团e正对编号为n的氨基酸残基的限制,并且连接基团s在末端基团e和编号为n的氨基酸残基之间。

每种限制的一个实例如下。

注意,在以下所述的图11至14a和14b中,x1是可布置1号氨基酸残基的位置。

x2至x5是可布置2号氨基酸残基的位置。

x6至x13是可布置3号氨基酸残基的位置。

x14至x29是可布置4号氨基酸残基的位置。

hone的一个实例如下所示。

在上面的函数中,xa和xb可为1或0。具体地,当x2、x3、x4和x5的任意两个或更多个为1时,hone是能量提高的函数,因为图11中x2、x3、x4、x5中的仅一个为1,以及当x2、x3、x4和x5中的仅一个为1时,hone是罚项(termofpenalty)并且变为0。

注意,在上面的函数中,λone是加权系数(weightingcoefficient)。

hconn的一个实例如下所示。

在上面的函数中,xd和xu可为1或0。具体地,当图12中的x2为1时,只要x13、x6或x7为1,hconn就是能量降低的式,以及当所有氨基酸残基彼此连接时,hconn是罚项并且变为0。

注意,在上面的函数中,λconn是加权系数。例如,满足λone>λconn的关系。

holap的一个实例如下所示。

在上面的函数中,xa和xb为1或0。具体地,当图13中的x14为1且x2为1时,holap是生成罚分(penalty)的项。

注意,在上面的函数中,λolap是加权系数。

hpair的一个实例如下所示。

在上面的函数中,xa和xb可为1或0。具体地,当图14a和14b中的x15为1且x1为1时,hpair是由于x1的氨基酸残基与x15的氨基酸残基之间的相互作用pω(x1)ω(x15)而使能量降低的函数。通过两个氨基酸残基的组合来确定相互作用pω(x1)ω(x15)。例如,参考miyazawa-jemigan(mj)矩阵确定相互作用pω(x1)ω(x15)。

适当地设置hbond以满足连接基团s与第一个氨基酸残基和编号为n的氨基酸残基相邻的限制。

适当地设置hend以满足末端基团e正对编号为n的氨基酸残基、并且连接基团s在末端基团e和编号为n的氨基酸残基之间的限制。

然后,通过合成hone、hconn、holap和hpair以及任选的hbond和hend来计算h。

接下来,提取以上每个函数的加权系数(λone、λconn和λolap)。

接下来,创建对应于提取的权重系数的权重文件。例如,权重文件是矩阵。例如,在2x1x2 4x2x3的情况下,权重文件是如图15中所举例说明的矩阵文件。

伊辛模型的以下能量式可通过使用所创建的权重文件来表示。

在上面的函数中,状态xi和xj可为0或1,其中0意指不存在,并且1意指存在。作为右侧第一项的wij是加权系数。

在没有任何遗漏或重叠的情况下,右侧的第一项是两个神经元电路的状态与来自整个神经元电路的两个神经元电路的所有可选组合的加权值的乘积的整合。

此外,右侧的第二项是偏离值与整个神经元电路中的每一个的状态的乘积的整合。bi是编号为i的神经元电路的偏离值。

<步骤s107>

接下来,退火机执行根据模拟退火计算伊辛模型的最低能量,从而基于与每个格点相关的限制条件进行转换的伊辛模型的基态检索(s107)。

如果使用的计算机是采用退火系统以进行由伊辛模型表示的能量函数之基态检索的计算机,则退火机可以是量子退火机、使用半导体技术的半导体退火机、或通过使用中央处理器(centralprocessingunit,cpu)或图形处理器(graphicsprocessingunit,gpu)的软件执行的模拟退火中的任一种。

下面将描述模拟退火和退火机的一个实例。

模拟退火(simulatedannealing,sa)是一种蒙特卡罗方法(montecarlomethod),并且是使用随机数值进行随机确定的方法。在下面的描述中,将使待优化的评价函数的值极小化的问题作为实例,并且将评价函数的值称为能量。在最大化的情况下,可改变评价函数的正号或负号。

从其中将一个离散值分配至每个变量的初始状态开始,从当前状态(变量值的组合)中选择接近初始状态的状态(例如,其中仅改变一个变量的状态),并随后研究其状态转换。计算状态转换的能量变化,并根据计算的值随机地确定是使状态转换适应(adapt)以改变状态,还是在不使状态转换适应的情况下保持原始状态。当能量降低的情况下的适应概率被选择为大于能量提高的情况下的适应概率时,状态变化以平均而言能量降低的趋势发生,并且预期状态随时间推移转换为合适的状态。然后,最终可获得给予与最优解或最优值接近的能量的近似解。如果确定性地采用能量降低的情况且不对能量提高进行适应的情况,则能量变化处于相对于时间而言微弱降低的状态,但是一旦达到局部解,则变化将停止。由于在如上所述的离散优化问题中存在大量的局部解,因此很可能该状态被与最优值不太接近的局部解捕获。因此,重要的是随机确定是否进行适应。

在模拟退火中证明了当状态转换的适应(容差)概率确定如下时,状态达到具有无限时间限制(迭代的数目)的最优解。

(1)对于能量变化(能量降低)值(-δe)以及状态转换,通过任意以下函数f()来确定状态转换的接受概率p:

p(δe,t)=f(-δe/t)(式1-1)

f梅特(x)=min(1,ex)梅特罗波利斯方法(metropolismethod)(式1-2)

在上式中,t是称为温度值的参数,其如下变化。

(2)温度值t相对于迭代的数目t以对数方式降低,如由下式所示。

在上式中,t0是初始温度值,并且期望根据问题而足够大。

在使用由式(1)表示的接受概率的情况下,一旦状态在充分迭代之后达到稳定状态,每个状态的占有概率遵循热力学中的热平衡状态的玻尔兹曼分布(boltzmanndistribution)。

随着温度从高温逐渐降低,低能态的占有概率提高。因此,当温度充分降低时,应获得低能态。如上所述的状态与当研制材料时发生的状态变化非常类似。因此,上述方法称为模拟退火。能量提高的状态转换的随机发生等同于物理学中的热激发。

在图16中举例说明了用于执行模拟退火的优化装置(运算单元18)。以下描述包括生成状态转换的多个候选物,但是在原始基本模拟退火中逐个生成转换候选物的情况。

优化装置100包含状态保持单元111,其配置为保持当前状态s(多个状态变量值)。此外,优化装置100包含能量计算单元112,其配置为当由于任意状态变量值的变化而从当前状态s发生状态转换时计算每个状态转换的能量变化值{-δei}。此外,优化装置100包含转换控制单元114,其配置为控制温度值t的温度控制单元113和被配置为控制状态转换。

转换控制单元114配置为根据能量变化值{-δei}与基于温度值t、能量变化值{-δei}和随机数值的热激发能之间的相关性随机地确定是否适应于任意状态转换。

将转换控制单元114进一步细分。转换控制单元114包括:被配置为生成状态转换的候选物的候选物生成单元114a,和被配置为基于能量变化值{-δei}和其温度值t随机地判断每个候选物是否允许状态转换的判断单元114b。转换控制单元114还包括:被配置为确定所允许的候选物中待适应的候选物的转换确定单元114c,和被配置为生成概率变量的随机数生成单元114d。

一次迭代的操作如下。首先,候选物生成单元114a生成从保持在状态保持单元111中的当前状态s到下一状态的状态转换的一个或更多个候选物(候选物编号{ni})。能量计算单元112使用当前状态s和状态转换的候选物来计算被列为候选物的每个状态转换的能量变化值{-δei}。判断单元114b使用由温度控制单元113生成的温度值t和由随机数生成单元114d生成的概率变量(随机数值),根据每个状态转换的能量变化值{-δei}接受具有上式(1)的接受概率的状态转换。然后,判断单元114b输出每个状态转换的接受或拒绝{fi}。在存在多个被接受的状态转换的情况下,转换确定单元114c使用随机数值随机地选择被接受的状态转换中的一个。转换确定单元114c输出所选择的状态转换的转换数目n和转换的接受或拒绝f。在存在被接受的状态转换的情况下,根据适应的状态转换来更新存储在状态保持单元111中的状态变量的值。

上述迭代从初始状态开始并且在通过温度控制单元113降低温度值的情况下重复。当满足完成判断条件(例如,达到特定数目的迭代或能量降低至某个值以下)时操作完成。通过优化装置110输出的答案是完成时的状态。

图17是其中逐个生成候选物的典型模拟退火中用于转换控制单元(特别是判断单元)的运算部分的结构实例的电路级的框图。

转换控制单元114包含随机数生成器114b1、选择器114b2、噪声表114b3、乘法器114b4和比较器114b5。

选择器114b2被配置为选择对应于转换数n的值,该转换数n是在针对每个状态转换的候选物计算的能量变化值{-δei}中由随机数生成器114b1生成的随机数值,并随后输出该值。

稍后将描述噪声表114b3的功能。作为噪声表114b3,例如可使用存储器,例如,随机存取存储器(randomaccessmemory,ram)和闪速存储器。

乘法器114b4输出通过由噪声表114b3输出的值和温度值t相乘而获得的乘积(对应于上述热激发能)。

比较器114b5输出作为转换接受或拒绝f的比较结果,所述比较结果通过对由乘法器114b4输出的乘积结果和由选择器114b2选择的能量变化值-δe进行比较而获得。

实际上,在图17中举例说明的转换控制单元114基本上具有上述功能,但是尚未描述用于接受具有由式(1)表示的接受概率的状态转换的机制。因此,将补充性地描述该机制。

在接受概率为p下输出1和在接受概率为(1-p)下输出0的电路具有两个输入端a和b,可通过将接受概率p输入到比较器的输入端a并将具有区间[0,1)中的值的均匀随机数输入到比较器的输入端b(其中当a>b时比较器输出1,当a<b时比较器输出0)来实现。因此,上述功能可通过将使用式(1)根据能量变化值和温度值t计算的接受概率p的值输入到比较器的输入端a来实现。

具体地,当f(δe/t)大于u时,用输出1的电路可实现上述功能,其中f是由式(1)表示的函数,并且u是具有区间[0,1)的值的均匀随机数。

电路可按照原样,但是可通过进行以下变形来实现相同的功能。当将赋予相同的单调递增函数以两个数时,两个数的大小关系不会改变。因此,即使当赋予相同的单调递增函数以比较器的两个输入端,输出也不会改变。可理解,当将f的反函数f1用作单调递增函数时,当-δe/t大于f1(u)时,输出1的电路是可接受的。此外,由于温度值t为正值,所以当-δe大于tf1(u)时,输出1的电路是可接受的。图17中的噪声表114b3是用于实现反函数f1(u)的转换表,并且是用于输出相对于离散化区间[0,1)的输入的以下函数值的表。

转换控制单元114还包括被配置为保持判断结果等的锁存器(latch),被配置为生成其定时等的状态机,但是为了使说明简化,在图17中省略了上述单元。

图18举例说明了转换控制单元114的操作流程。所述操作流程包括:选择一种状态转换作为候选物的步骤(s0001),通过对状态转换的能量变化值、温度值和随机数值的乘积进行比较来确定状态转换的接受或拒绝的步骤(s0002),以及如果状态转换是可接受的则适应状态转换、如果状态转换是不可接受的则拒绝的步骤(s0003)。

<步骤s108>

在步骤s108中输出计算结果。结果可作为蛋白质的三维结构图输出或者可作为构成蛋白质的每个氨基酸残基的坐标信息输出。

(程序)

所公开的程序是用于执行所公开的用于检索环状分子的结构之方法的程序。

执行用于检索环状分子的结构之方法的程序的一些优选实施方案与所公开的用于检索环状分子的结构的方法的一些优选实施方案相同。

可根据所使用的计算机系统的配置、所使用的操作系统的类型或版本,使用本领域中已知的多种编程语言中的任一种来创建程序。

程序可记录在存储媒体上,例如集成硬盘和外部硬盘上,或记录在存储介质上,例如光盘只读存储器(compactdiscreadonlymemory,cd-rom)、数字通用磁盘只读存储器(digitalversatilediskreadonlymemory,dvd-rom)、磁-光(magneto-optical,mo)盘和通用串行总线(universalserialbus,usb)记忆棒(usb闪存驱动器)上。在程序记录在存储介质(例如cd-rom、dvd-rom、mo磁盘和usb记忆棒)上的情况下,可根据需要直接使用所述程序,或通过由计算机系统中配备的存储介质读取器安装硬盘来使用所述程序。此外,程序可记录在可通过信息网络和通信网络从计算机系统访问的外部存储区域(例如,另一台计算机)中,并且可根据需要通过直接从外部存储区域使用所述程序,或通过信息网络和通信网络将所述程序从外部存储区域安装到硬盘中来使用。

程序可被划分为预确定的方法并且记录在多个记录介质上。

(记录介质)

所公开的记录介质是其中已存储有所公开的程序的记录介质。

所公开的记录介质可通过计算机读取。

所公开的记录介质可以是瞬态记录介质或非瞬态记录介质。

记录介质没有特别地限制,并且可根据预期目的适当地选择。记录介质的一些实例包括集成硬盘、外部硬盘、cd-rom、dvd-rom、mo盘和usb记忆棒。

记录介质可以是记录有从所述程序划分的预确定方法的多个记录介质。

(用于检索环状分子的结构的装置)

所公开的用于检索环状分子的结构的装置包括至少创建单元,并且还可包括其他单元,例如计算单元。

创建单元被配置为将数目为n的化合物基团布置在作为格点集合的三维格点空间的格点上以在三维格点空间中创建环状分子的三维结构。

在环状分子的化合物基团的数目(n)为奇数的情况下,创建单元被配置为将连接基团插入到环状分子内以第n个顺序布置的化合物基团与第一个布置的化合物基团之间,将连接基团布置在格点上,并以以下方式调整布置:以第n个顺序布置的化合物基团与第一个布置的化合物基团不彼此正对,并且连接基团在以第n个顺序布置的化合物基团和第一个布置的化合物基团之间。

计算单元被配置为使用模拟退火计算最低能量以对所创建的环状分子的三维结构进行基态检索。具体地,例如,最低能量的计算可通过在步骤s106和步骤s107中描述的方法来进行。

图19举例说明了所公开的用于检索环状分子的结构的装置的一个结构实例。

例如,用于检索环状分子10的结构的装置是由通过系统总线18连接cpu11、存储器12、存储单元13、显示单元14、输入单元15、输出单元16和i/o接口单元17组成的。

中央处理器(cpu)11被配置为执行计算(例如,四个算术运算和关系运算),以及控制硬件和软件的操作。

存储器12是存储器,例如随机存取存储器(ram)和只读存储器(rom)。ram被配置为存储由rom和存储单元13读取的操作系统(operatingsystem,os)和应用程序,并且用作主存储器和cpu11的工作区域。

存储单元13是用于存储多种程序和数据的装置。例如,存储单元13是硬盘。在存储单元13中,存储了待由cpu11执行的程序、用于执行程序的数据和os。

程序在存储单元13中存储,在存储器12的ram(主存储器)上加载,并由cpu11执行。

显示单元14是显示装置。例如,显示单元是例如crt监视器和液晶面板的显示装置。

输入单元15是针对多种类型的数据的输入装置。输入单元的一些实例包括键盘和点击装置(例如,鼠标)。

输出单元16是针对多种类型的数据的输出装置。例如,输出单元是打印机。

i/o接口单元17是用于与多种外部装置连接的接口。例如,i/o接口单元能够输入和输出cd-rom、dvd-rom、mo盘和usb记忆棒的数据。

图20举例说明了所公开的用于检索环状分子的结构的装置的另一个结构实例。

图20的一个结构实例是云类型计算装置的一个结构实例,在所述实例中cpu11独立于存储单元13等。在所述结构实例中,存储单元13存储在其中的计算机30和cpu11存储在其中的计算机40通过网络接口单元19和20彼此连接。

网络接口单元19和20是被配置为使用互联网通信的硬件。

图21举例说明了所公开的用于检索环状分子的结构的装置的另一个结构实例。

图21的一个结构实例是云类型计算装置的一个结构实例,在所述实例中存储单元13独立于cpu11等。在所述结构实例中,cpu11存储在其中的计算机30和存储单元13存储在其中的计算机40通过网络接口单元19和20彼此连接。


技术特征:

1.用于检索环状分子的结构的方法,所述方法包括:

将数目为n的化合物基团中的每一个布置在每个格点上以在三维格点空间中创建所述环状分子的三维结构,其中所述格点是作为格点集合的所述三维格点空间的格点,

其中,所述方法是使用计算机检索所述环状分子的稳定结构的方法,其中所述数目为n的化合物基团连接以形成环,以及

其中在所述环状化合物的化合物基团的数目(n)为奇数的情况下,该布置包括:

将连接基团插入到所述环状分子内以第n个顺序布置的化合物基团与第一个布置的化合物基团之间,将所述连接基团布置在格点上,并以以下方式调整所述布置:以第n个顺序布置的化合物基团与第一个布置的化合物基团不彼此正对,并且所述连接基团在以第n个顺序布置的化合物基团与第一个布置的化合物基团之间。

2.根据权利要求1所述的方法,

其中调整所述布置是通过以下来进行的:将末端基团与所述连接基团键合以将所述末端基团布置为正对所述三维格点空间中以第n个顺序布置的化合物基团,并且所述连接基团在所述末端基团与所述化合物基团之间。

3.根据权利要求1所述的方法,其还包括:

使用模拟退火计算最低能量以对所创建的所述环状分子的三维结构进行基态检索。

4.根据权利要求1所述的方法,

其中所述布置包括判断所述环状分子的化合物基团的数目(n)是奇数还是偶数。

5.根据权利要求1所述的方法,

其中所述环状分子是环状蛋白质。

6.根据权利要求5所述的方法,

其中所述化合物基团是氨基酸残基。

7.用于检索环状分子的结构的装置,所述装置包括:

创建单元,其配置为将数目为n的化合物基团中的每一个布置在每个格点上以在三维格点空间中创建所述环状分子的三维结构,其中所述格点是作为格点集合的所述三维格点空间的格点,

其中所述装置是用于检索所述环状分子的稳定结构的装置,其中所述数目为n的化合物基团连接以形成环,以及

其中在所述环状化合物的化合物基团的数目(n)为奇数的情况下,所述创建单元配置为将连接基团插入到所述环状分子内以第n个顺序布置的化合物基团与第一个布置的化合物基团之间,将所述连接基团布置在格点上,并以以下方式调整所述布置:以第n个顺序布置的化合物基团与第一个布置的化合物基团不彼此正对,并且所述连接基团在以第n个顺序布置的化合物基团与第一个布置的化合物基团之间。

8.根据权利要求7所述的装置,

其中所述创建单元配置为通过以下来执行所述布置:将末端基团与所述连接基团键合以将所述末端基团布置为正对所述三维格点空间中以第n个顺序布置的化合物基团,并且所述连接基团在所述末端基团与所述化合物基团之间。

9.根据权利要求7所述的装置,其还包括:

计算单元,其配置为使用模拟退火计算最低能量以对所创建的所述环状分子的三维结构进行基态检索。

10.根据权利要求7所述的装置,

其中所述创建单元配置为判断所述环状分子的化合物基团的数目(n)是奇数还是偶数。

11.根据权利要求7所述的装置,

其中所述环状分子是环状蛋白质。

12.根据权利要求11所述的装置,

其中所述化合物基团是氨基酸残基。

13.记录介质,在其中存储有用于使计算机执行检索环状分子结构之方法的程序,所述方法包括:

将数目为n的化合物基团中的每一个布置在每个格点上以在三维格点空间中创建所述环状分子的三维结构,其中所述格点是作为格点集合的所述三维格点空间的格点,

其中所述程序是用于检索所述环状分子的稳定结构的程序,其中所述数目为n的化合物基团连接以形成环,以及

其中在所述环状化合物的化合物基团的数目(n)为奇数的情况下,所述布置包括:

将连接基团插入到所述环状分子内以第n个顺序布置的化合物基团与第一个布置的化合物基团之间,将所述连接基团布置在格点上,并以以下方式调整所述布置:以第n个顺序布置的化合物基团与第一个布置的化合物基团不彼此正对,并且所述连接基团在以第n个顺序布置的化合物基团与第一个布置的化合物基团之间。

14.根据权利要求13所述的记录介质,

其中调整所述布置是通过以下来进行的:将末端基团与所述连接基团键合以将所述末端基团布置为正对所述三维格点空间中以第n个顺序布置的化合物基团,并且所述连接基团在所述末端基团与所述化合物基团之间。

15.根据权利要求13所述的记录介质,

其中所述程序使所述计算机使用模拟退火计算最低能量以对所创建的所述环状分子的三维结构执行基态检索。

16.根据权利要求13所述的记录介质,

其中所述布置包括判断所述环状分子的化合物基团的数目(n)是奇数还是偶数。

17.根据权利要求13所述的记录介质,

其中所述环状分子是环状蛋白质。

18.根据权利要求17所述的记录介质,

其中所述化合物基团是氨基酸残基。

技术总结
包括以下的方法:将数目为n的化合物基团中的每一个布置在每个格点上以在三维格点空间中创建环状分子的三维结构,其中所述格点是作为格点集合的三维格点空间的格点,所述方法是使用计算机检索环状分子的稳定结构的方法,其中化合物基团连接以形成环,并且其中在数目(n)为奇数的情况下,该布置包括:将连接基团插入到环状分子内以第n个顺序布置的化合物基团与第一个布置的化合物基团之间,将连接基团布置在格点上,并以以下方式调整该布置:以第n个顺序布置的化合物基团与第一个布置的化合物基团不彼此正对,并且连接基团在二者之间。

技术研发人员:佐藤博之
受保护的技术使用者:富士通株式会社
技术研发日:2019.11.22
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-35061.html

最新回复(0)