您好,欢迎来到爱玩科技网。
搜索
您的当前位置:首页基于演化设计的遗传算法在分子对接中的应用

基于演化设计的遗传算法在分子对接中的应用

来源:爱玩科技网
Computer Engineering andApplications计算机工程与应用 基于演化设计的遗传算法在分子对接中的应用 康玲 ,王希诚 K ANG Ling ,WANG Xicheng 1.大连东软信息学院计算机系,辽宁大连116023 2.大连理工大学工业装备结构分析国家重点实验室,辽宁大连1 16024 1.Department of Computer Science and Technology,Dalin Neusofaf Institute of Information,Dalin,Liaaoning 116023,China 2.State Key Lab of Structural Analysis for Industrial Equipment,Dalian University of Technology,Dalian,Liaoning 116024,China KANG Ling,WANG Xicheng.Evolvement-based genetic algorithm for molecular docking.Computer Engineering and Applications。2011。47(26):18.20. Abstract:Species dynamics model iS introduced into the genetic algorithm to reflect the true state of evolution.n evolAve. ment-based genetic algorithm is developed.In the algorithm,an adaptive strategy is used to overcome the dificulfy of con.t ifming trhe crossover and mutation probabilities.Small population strategy and optimal strategy ensure the diversity of the populations and improve the eficiency of tfhe algorihm.tBased on the genetic algorithm,a new molecular docking program is developed.Docking results show that the algorithm can effectively solve the molecular docking problem. Key words:species dynamics model;genetic algorithm;moleculr docking a摘要:将自然界的物种动态模型引入到遗传算法当中,反映出物种的真实进化状态,开发了基于演化设计的遗传算法。算法采 用自适应策略克服了确定交叉和变异概率值的问题,利用小种群策略和最优保留策略保证了种群的多样性,改善了算法的寻优 能力,进而提高了计算效率。运用该遗传算法求解分子对接优化模型,给出基于演化设计的分子对接程序。对接实例表明,算法 能有效应用于分子对接问题中。 关键词:物种动态模型;遗传算法;分子对接 DOI:10.3778/j.issn.1002.8331.2011.26.006 文章编号:1002.8331(2011)26.0018.03 文献标识码:A 中图分类号:TP301.6 1引言 20世纪80年代以来,作为基于结构的药物设计的一类重 要方法,分子对接(moleculra docking)--直是计算机辅助药物 设计研究领域的热点n 。它将已知三维结构的小分子化合物 2基于演化设计的遗传算法 自然界中,“物竞天择,适者生存”。由于生存空间和自然 资源的,任何物种都不会无地增长下去,各物种通过 生存竞争与进化,得以存活或者灭亡。为了阐明自然界物种 的动态规律及调节机制,现代生态学家在提出生态学一般规 律的基础上,建立并发展了物种动态模型。 (配体)放入靶标分子(受体)的结合位点,计算小分子与生物 大分子的相互作用能,优化小分子化合物的位置、方向以及构 象,寻找其与靶标生物大分子作用的最佳结合构象 。 如何找到最佳的结合构象,从数学规划角度上就是最小 化相互作用系统的结合自由能。因此,分子对接的求解问题 本质上是一个优化问题。由于智能类算法对目标函数优化模 型的较少,可以对常规方法无法求解的复杂问题进行计 算,所以分子对接主要应用的优化方法多为智能类算法。 2.1物种动态模型 设物种的出生率为b,死亡率(包括自然死亡或者被捕 杀)为d,在有限生存空间里该物种所能达到的生物总数为 三, ( 表示时刻t该物种的生物群体的总数。 假设物种出生率和死亡率均为常数,则k=b—d为该物种 在本研究小组开发的基于信息熵的遗传算法[4-5]基础上, 将自然界的物种动态模型引入进化过程中,采用自适应策略, 的自然增长率。随着群体的增大,增长率下降。一旦群体中 生物总数达到 ,群体停止增长,即增长率为0。所以增长率 1一X/L)来描 发展了基于演化设计的自适应遗传算法,并且将它运用到分 应该是群体中生物群体总数的函数,可以用k(考察时段[f,t+At】群体总量的变化,应有: 子对接优化设计当中。经对接实例测试,本文算法较之前的 述。其中,算法,在不影响计算效率的情况下,计算精度有了较为显著的 提高。 基金项目:国家重点基础研究发 X(t+At)一x(o=kO—X/L)aVC(O (1) 由此得到该物种的生物群体满足的微分方程: JI(973)(the National Grand Fundamental Research 973 Program of China under Grnta No.2009CB918501)。 作者简介:康玲(1974一),女,博士,副教授,研究领域为计算机辅助药物分子设计;王希诚(1946一),男,教授,博士生导师。 E-maih kangling@neusof1.edu.cn 收稿日期:2011-03.28;修回日期:2011—06.13 康玲,王希诚:基于演化设计的遗传算法在分子对接中的应用 交叉概率的高低将决定解群体的更新和搜索 (2) 研究结果表明,(3) 苦}= (1一争) , (0)=Xo 引入常数 =k/L,上述模型可改写为: 百dX=kX一 速度的快慢,变异概率则是保持解群体多样性和防止过早收 敛的一种重要手段。因此,在进化过程中应该采用一种合理 的交叉概率和变异概率。 其中,右端第二项反映了群体在有限的生存空间和资源下对 自身继续增长的。 本文尝试将交叉概率和变异概率作为优化设计变量直接 参与整个优化过程,使二者的变化与目标函数直接相关。具 体做法是:假定原优化变量个数为 ,则实际交由遗传算法处 理的变量个数为n+2。在遗传进化过程中,对于参与交叉的 公式(3)为非线性方程,其平衡点不唯一。设 为正,则 当b— <0,趋于平衡点 =0;当6一 >0,趋于平衡点 =(6一 ,式中下标e代表平衡点。 2.2基于演化设计的遗传算法 借鉴上述模型的思想,考虑平衡态情况下物种进化状况。 令方程中的 代表个体的实际决策变量。具体的过程如下: 假设过 僦中,共有 个个体,N个变量,令 :b—d,则 鲁, ,2,…, 1,2,…,Ⅳ (4) 其中, 代表第i个个体的第 个实际决策变量。由此可见, 每个个体实际决策变量具有相同 值,不同的 值。在遗传 算法中,仍然令 的取值范围为(0,1],实际决策变量 的上 下界是已知的,通过 = ,(f:1,2,…, .『=1,2,…,Ⅳ)求出 每个x 相对应的 ,的上下限。在遗传算法的每个个体中,不 直接用 作为设计变量进行编码,而是用其相对应的 和 作为设计变量,进行浮点数编码,每个个体的设计变量由原来 的Ⅳ个变成Ⅳ+1个,然后直接对这些设计变量进行遗传操 作;将式(4)当做一种修正的算术交叉算子,通过执行遗传算 子,得出相应的实际决策变量值。而对于收敛准则中的搜索 空间,本文仍以实际决策变量 的上下界来界定,利用其空间 的收缩精度,来控制遗传算法的停止。 2.3算法的主要策略 2.3.1 d,lR'群策略 为提高算法效率,减少计算量,在算法中引入小种群策 略,使各小种群在遗传进化过程中,进行选择变异操作。 交叉操作则在种群间进行,从而实现种群间个体的优势互补, 保证种群的多样性。 在算法引入“部落竞争”机制,以多种群交叉增加交叉的 远源性,既减少了传统方法的群体规模,又优化了新生代;将 信息熵的概念引入进化过程,通过控制解空间的收缩提高了 寻求最 辞的效率。 2.3.2最优保留 最优J保留策略的定义形式如下: 设到第t代时,群体中 ∽为最佳个体,又设G(,+1)为新 一代群体,若G +1)中不存在 (f),则把x ( 作为GO+1)中 的第 +1个个体(其中n为群体大小)。 事实上,最优保留属于一种特殊的选择操作,它是将当前 解群体中适应度最高的个体完整地复制到下一代群体中。其 主要优点在于能保证遗传算法终止时得到的最后结果一定是 历代出现过的最高适应度的个体。 本文算法用当前的最优个体代替每个种群中的最差个 体,这样既充分保留了父代个体好的基因模式,又保证群体的 多样性,提高了遗传算法的寻优性能。 2.3.3自适应策略 交叉概率和变异概率是影响遗传算法收敛的重要因素。 个体对(j,.,),采用个体j的交叉概率进行交叉,而每一个个体 都根据自己的变异率进行变异。这样避免了用户调试程序时 反复试验交叉和变异概率参数的苦恼。根据传统经验,这里 给定交叉概率和变异概率的变化范围分别为[0.7,1】和【0,0_3]。 2.3.4算法描述 步骤l设置初始搜索空间,生成初始种群。 步骤2计算每个个体的适应度函数值。 步骤3执行修正的交叉操作及变异操作。 步骤4计算各个种群中每个设计变量的空间收缩因子, 确定各种群每个设计变量的搜索空间。 步骤5空间是否收缩到指定范围?若否,则修正设计变量 的上下限,确保事实上的设计变量在指定范围之内;若是,则 J眺至步骤7。 步骤6生成下一代个体;转向步骤2。 步骤7得到进化结果,算法结束。 3分子对接实例 利用上述改进的遗传算法来求解分子对接优化模型,在 SGI Origin 3800环境下,采用C语言发展了一种基于演化设 计的分子对接程序SDOCK。遗传算法参数设置如下:种群个 数 :6,种群的规模Ⅳ=30,控制参数lf,=10 ,tZ=10。,收敛 控制精度为0.000 001,交叉概率和变异概率的变化范围分别 为[0.7,1]和[0,0.3】。 为测试SDOCK的有效性,对3种晶体复合物结构进行复 原模拟,并同DOCK6.It 1(D0cK是由美国加州旧金山分校 Kuntzdx组开发的第一个分子对接软件,是目前应用最为广泛 的对接软件之一)及本研究组发展的分子对接程序GAsDockt 进行比较分析。结果证实算法在保证效率的情况下,改善了 对接的精度。 实例1 1ACO晶体复合物结构复原。 1ACO晶体复合物中的配体具有5个可旋转键。运行本 程序,遗传进化过程迭代了45代,耗时1.79 s,所得最优构象的 能量值为一63.35 kcal/mol,与晶体复合物结构中的配体构象 的均方根偏差为0.42 A。表1给出了3个程序对接结果在能量 得分、对接精度和对接时间方面的比较。 表1 1ACO晶体复合物结构在3个对接方法下的对接结果 注:Energy Score为能量得分;RMSD为均方差偏差。 例中,本文计算得到的配体构象与晶体复合物结构中的 构象最为接近。从对接时间上,由于GAsDock与本文程序采 用类似的优化算法,因此对接时间在一个数量级上,而 20 2011,47(26) ComputerEngineeringandApplications计算机工程与应用 DOCK6.1的对接时间是它们的近千倍。这充分反映了的优化 4结论 提出了一种基于演化设计的遗传算法,融合了物种动态 模型和信息熵概念,采用多种群和自适应策略,以空间收缩因 子作为算法的收敛准则,能有效识别最优解落入的区间,指导 优化搜索方向,加速优化收敛速度。分子对接优化方法将这 一算法的寻优效率是非常高的。 实例2 1MUP晶体复合物结构复原。 1MUP晶体复合物中的配体具有2个可旋转键,遗传进 化过程迭代了40代,耗时2.35 s,所得最优构象的能量值 为一22.32 kcal/mol,与晶体复合物结构中的配体构象的均方 根偏差为0.57 A。用DOCK6.1程序计算得到的最优构象能量 得分略低于本文的结果(一24.16 kcal/mo1),但DOCK6.1对接 新的优化方式运用到分子对接程序中,开发了新的分子对 接程序SDOCK。对接实例表明,本文提出的算法对于分子对 接问题是行之有效的。 时间很长,是本文对接时间的百倍以上。对于GAsDock,对接 精度与本文较为接近,但能量得分与本文的结果有一定的差 距,这也从一个侧面反映出本文改进的遗传算法的寻优能力 优于前一版本。具体的对接结果比较见表2。 表2 1MUP晶体复合物结构在3个对接方法下的对接结果 参考文献: [1】Sousa S F,Femandes P A,Ramos M J.Protein—ligand docking: current status and future challenges[J].Proteins,2006,65(1): 15.26. 【2】Kolb P,Ferreira R S,Irwin J J,et a1.Docking and chemoinfor— matic screens for new ligands and targets[J].Curr Opin Biotech, 2009,20:429—436. 注:Energy Score为能量得分;RMSD为均方差偏差。 [3]徐筱杰,候延军,乔学斌,等.计算机辅助药物分子设计[M].北京: 化学工业出版社,2004:325—332. 实例3 1TSD晶体复合物结构复原。 [4]李纯莲,王希诚,赵金城,等.一种基于信息熵的多种群遗传算法[J] l大连理工大学学报,2004,44(4):589—593. [5】Kang Ling,Li Honglin,Jing Hualaiang,et a1.An improved adap— tive genetic algorithm for protein—ligand docking[J].J Comput 1TSD晶体复合物中的配体具有8个可旋转键,配体分子 较大,优化过程相对来说也比较长;本文经过72代迭代,用时 16.41 s完成了寻优过程,最终得到的配体构象与晶体复合物 配体构象的均方根偏差为1.06 A。与DOCK6.1、GAsDock相 比较(见表3),本文软件无论是在精度还是效率方面都具有较 为明显的优势。 表3 1TSD晶体复合物结构在3个对接方法下的对接结果 Aided Mol Des,2009,23(1):1—12. [6]Ewing T J,Makino S,Skillman A G,et a1.DOCK4.O:search strategies for automated moleculr dockiang of flexible mole— cule databases[J].J Comput Aided Mol Des,2001,15(5): 411—428. [7]Li Honglin,Li Chunlian,Gui Chunshan,et a1.GAsDock:a new approach for rapid flexible docking based on an improved multi—population genetic algoritm[hJ].Bioorg Med Chem Lett, 注:Energy Score为能量得分;RMSD为均方差偏差。 2004,14(18):4671-4676. (上接17页) 【2]Liu Haiming,Hu Yueming.A heuristic optimization algorithm or mulfti・-head mounter[C]//Proceedings of 22nd IEEE Interna— tional Symposium on Intelligent Control Part of IEEE Muli—t [7]Ho W,Ji P.A genetic algoritm tho optimise the component placement process in PCB assembly[J].International Journal of Advanced Manufacturing Technologies,2005(1). [8李英海,8]周建中,杨俊杰,等.一种基于阈值选择策略的改进的混合 蛙跳算法[J].计算机工程与应用,2007,43(35):19—21. [9]朱光宇.模因内三角概率选择混合蛙跳算法[J].计算机集成制造系 统,2009,15(10):1979—1985. conference on Systems and Contro1.Singapore:IEEE Press, 2007:279—384. 【3]Lee S H,Lee B H,Park T H.A hierarchical method to improve he producttivity of a multi—head surface mounting machine[C]// Proceedings of the 1999 IEEE Intemational Conference on Robotics :Michigan,1999:2110—2115 [10]朱光宇,林蔚清基于改进混合蛙跳算法的贴片机贴 顿序优化[J】. 中国工程机械学报,2008,6(4):428.432. [11]曾又姣,金烨.基于遗传算法的贴片机贴装顺序优化[J].计算机集 成制造系统,2004,10(2):205—208. [4]Bard J F,Clayton R W,Feo T A.Machine setup and compo— nent placement in printed circuit board assembly[J].Int J Flex Manuf Syst,1994,6(1):5-31. [5】Chen Y M,Lin C A particle swarm optimization approach to [12]胡以静,胡跃明,吴忻生.高速高精度贴片机的贴装效率优化方法[J] .电子工艺技术,2006,27(4):191.196. [13]Lin Weiqing,Zhu Guangyu.A genetic optimization approach to optimize the multihead surface mount placement machine[C]// Proceedings of International Conference on Intelligent Robotics nd Applaications.Berlin:Springer Press,2008:1003—1012. optimize component placement in printed circuit board assembly[J]. Int J Adv Manuf Technol,2007,35:610—620. [6]Ho W,Ji P.A hybrid genetic algorihm ftor component sequencing nd faeeder arrangement[J].Intelligent Manufacturing。2004(15): 307.3】5. 【14】王凌智能优化算法及其应用【M].北京:清华大学出版社,2001. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- aiwanbo.com 版权所有 赣ICP备2024042808号-3

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务