计算蛋白质工程是一种利用计算机辅助方法来设计和改造蛋白质的过程。它结合了计算机科学、生物化学和分子生物学等领域的技术和方法。其目标是通过计算模拟和预测蛋白质的结构、功能和相互作用,从而创造出具备特定性能和功能的全新蛋白质。
大分子特异性的改变
蛋白质的功能几乎都依赖于它们与其他分子或配体的高特异性的结合能力。这种高特异性使得蛋白质在众多工业和治疗应用中发挥着重要的作用。
换言之,特异性可以被理解为蛋白质优先选择与某种分子结合的能力。这个特点使得蛋白质在各种领域具有广泛的应用前景。
首先,指核酸酶(ZFN)是有前途的基因组工程工具,它可以在分子水平上编辑DNA,为广泛的生物学应用提供了新的可能性。
指核酸酶是由两个关键部分组成的蛋白质结构。其中一个部分具备在完整的基因组中辨认特定DNA序列的能力,而另一个部分则是一种非特异性内切酶结构域,有助于在目标序列中引入双链断裂。
ZFNs在靶向基因组编辑领域展现了多样性,这要归功于其具备的DNA结合结构域。这个结构域由三个锌指(ZF)基序组成,通过短的间隔序列连接在一起。
这种方式更加流畅地描述了指核酸酶(ZFN)作为基因组工程工具的潜力,以及其结构和功能的关键要素。
在真核生物中,这些ZF蛋白构成了转录因子家族中最大的成员。每Z基序包含折叠成BBA结构的氨基酸。
通过广泛的结构研究,发现这种模块化结构非常保守,这些蛋白质对目标DNA的特异性仅取决于4个氨基酸,它们相对α螺旋的起始位置位于1、2、3和6个残基处。
很快,人们意识到可以通过人为改变这些位置来调整基序与其他序列的结合特异性。因此,了解能够识别所有可能DNA密码子的ZF基序成为科学界的首要目标,以便构建人工ZFPs来进行基因组操作以获得治疗上的优势。
然而,设计或从大型库中选择工程ZF蛋白的实验技术,是非常耗时、昂贵、繁琐,且在学术环境中难以实施的。
即使对于三指ZF蛋白,随机置换关键DNA接触位点上的所有20个氨基酸,都可能导致巨大数量的可能性,这在实验上无法处理。
因此,只能通过在可变位点上限制置换来构建部分库,其中包括一些关键的氨基酸残基,使得筛选或预测算法进行计算设计ZF蛋白,成为一种可能的解决方案。
在1997年,首次报道了通过计算方法构建非天然ZF基序的工作,即构建了一个包含1.9×10^27个氨基酸序列的虚拟组合库,这个库的大小据报道比实验方法获得的随机库大15倍。
通过明确考虑每个可能氨基酸在每个可能位置上的构象异构体,可能性的规模进一步增加到1.1×10^62。
使用DEE算法在最佳构象中寻找全局最优序列,并使用基于生理化学潜能函数和立体化学约束的算法对库进行筛选,使得核磁共振谱解析,提供出了排名靠前的序列的结构,发现其结构良好有序并与设计目标结构Zif-268一致。
这项研究证明了计算技术在搜索巨大组合库方面的潜力,这对于设计具有高特异性的新型蛋白质至关重要。
其次,计算蛋白质工程还可以利用计算方法来改善治疗性抗体与目标分子之间的结合亲和力。
治疗性抗体是一种重要的生物制剂,可用于治疗多种疾病,如癌症、免疫性疾病和传染病。然而,某些情况下,治疗性抗体可能与其目标分子的结合亲和力不够强,导致治疗效果不佳。
随着对锌指蛋白(ZF蛋白)结构信息的不断增加,如今已经开发了许多预测工具来辅助计算设计。
这些工具可以大致分为两类:一类是基于实验序列或结构数据开发的工具,另一类是模拟ZF蛋白与目标DNA之间的生物化学相互作用,并估计结合特异性。
具体而言,其中一个工具是Zinc Finger Tools,它是一个基于网络的实用程序。其利用49个不同的螺旋结构,能够识别特定的DNA三联体,包括16个GNN,15个ANN,15个CNN和3个TNN。
搜索工具会扫描这些DNA三联体在任一链上形成的所有潜在目标位点,无论是相邻还是间隔的。此外,它还会报告使用这些结构域预测的ZF蛋白的特异性,这些预测是通过对各个ZF进行多靶点ELISA特异性测定的结果得出的。
除了预测给定序列的ZF蛋白外,该工具还可以确定给定ZF蛋白可能的结合位点,使得Zif-Predict通过整合结合物的信息(即高亲和力ZF蛋白和相应靶点的已知示例)以及弱结合物和非结合物的数据,利用支持向量机来预测给定DNA序列的最优ZF蛋白。
Zif-Predict是一种基于序列的方法,利用人工神经网络根据输入的核苷酸序列来预测ZF蛋白。该工具的一个优点是它考虑到协同结合模式,即在一个氨基酸附近存在另一个氨基酸时的结合偏好。
除此之外,Zif-Predict还包括通过计算氨基酸残基和核苷酸之间的氢键能量来预测界面氢键能量(IHBE),使得该工具能够预测与用户输入的DNA具有最高亲和力的ZF蛋白。
其能量计算涵盖了在四个关键位置(-1、 2、 3、 6)上具有不同氨基酸的三联体和ZF蛋白的所有可能组合,提供了全面的相互作用样本集。
与前面提到的工具相比,ZifNN则是依赖于推导的50个三维ZF蛋白-DNA复合物数据集和氢键能量的估计,而不依赖于实验数据。为了扩大使用工程化ZF蛋白可以靶向的序列范围,设计策略侧重于开发DNA中相邻但非连续区域的ZF基序。
为此,设计了适当长度的连接器,可跳过非靶向核苷酸,同时使下一个基序能够正确与DNA三联体对齐。且已经开发了用于基于结构的ZF核酸酶(ZFNs)蛋白连接器设计的计算模型,可以在相邻ZF蛋白和目标基因组序列中识别的DNA三联体之间跳过多达10个碱基对。
这些努力共同推动了ZF蛋白计算设计的发展,使得使用工程化ZF蛋白能够靶向越来越多的DNA序列。
基于结构的治疗性抗体计算工程
抗体的高特异性和亲和力通常被用于治疗和工业目的,这些分子是制造诊断试剂盒和生物传感器的绝佳选择。
然而,抗体和抗原之间的相互作用非常复杂,涉及多个非共价键,因此在分子和原子级别上对这些相互作用进行量化非常困难。
不过,随着计算能力的提升和对生物系统理解的深入,人们已经能够通过开发力场参数,在计算机模拟中模拟这些系统。
最近的一份报告介绍了一种基于结构的计算技术,用于提升11K2抗体的生物治疗潜力。该研究的主要目标是增加11K2抗体与其目标抗原单核细胞趋化蛋白-1(MCP-1)之间的结合亲和力。
MCP-1在许多炎症性疾病(如动脉粥样硬化、过敏和类风湿性关节炎)中扮演着关键角色,通过优化轻链的变量域(VL)中的互补决定区(CDR),可以进一步增强抗体的结合亲和力。与重链的变量域(VH)相比,VL的CDR与MCP-1之间的相互作用表面要小得多。
首先,报告中现在计算机中,对组成11K2的62个CDR氨基酸进行了19种其他可能的氨基酸的突变,以生成一个包含1178个11K2突变体的虚拟库。
然后针对每个突变,使用MODELLER和Discovery Studio Suite生成了100个随机模型,并通过模拟退火和分子力学最小化的组合来进一步优化每个模型。
接下来,选择与野生型11K2相比具有更有利的相互作用能量的突变体进行了检查,以观察到所选的候选突变体,都是带电残基取代的突变体。随后,使用表面等离子共振光谱技术,计算野生型11K2和经过改造的单突变体与固定化MCP-1结合的动力学速率常数。
通过这种基于结构的计算工程化方法,人们得以发现新模型的增强亲和力主要归因于较慢的解离速率常数,而不是较快的结合速率常数。
这意味着抗体与目标抗原的结合稳定性是可以被提高的,这种计算蛋白工程的治疗抗体使抗体与其目标抗原的亲和力增加了约5倍,即,完美展示了计算蛋白工程在即将到来的时代中所具备的潜力。
CRISPR-Cas9 系统动力学
CRISPR(Clustered Regularly Interspaced Short Palindromic Repeats)是一种划时代的基因组编辑技术,近年来引起了广泛关注。该技术由两个关键组成部分组成:引导RNA和Cas9核酸酶(CRISPR相关蛋白9)。
引导RNA的5'端含有一个20核苷酸片段,该片段与基因组中感兴趣的目标区域互补,并紧随一个原间隔毗邻序列。引导RNA能够将Cas9核酸酶引导到与其互补的DNA位点上,从而在该特定区域引入双链断裂(DSB)。
因此,通过设计与目标互补的引导RNA,可以在符合N(20)-NGG模式的基因组DNA中的任何区域引发DSB。
使用CRISPR进行实验设计相对简单,并且具有巨大的潜力,然而,该技术在工业和治疗应用中广泛采用的一个重要限制是其离靶活性。
引导RNA-Cas9复合物有时会结合和切割基因组中与目标区域具有相似序列的非预期区域。因此,大部分CRISPR研究的重点是理解影响系统特异性并提高其准确性的因素。
为了解决离靶活性问题,CRISPR系统欲进行多种改进。其中一种策略是使用成对的酸性核酸酶,可将离靶活性降低50-1500倍,同时不影响靶向活性。
而另一种策略是采用fCas9,它是无活性的Cas9(缺乏内切酶活性的dCas9)与FokI内切酶的两个单体之一的融合体。
为了产生DSB,必须将这两个fCas9单体融合在一起。每个单体与引导RNA结合,引导RNA与感兴趣区域中相距15-25碱基对的靶点结合,从而形成DSB。
此外,研究表明使用较短的引导RNA(17个核苷酸)可以降低离靶活性。尽管已经做出了这些努力,但要完全消除离靶活性仍然具有挑战性,因此,在避免浪费时间和资源的前提下,检查与目标DNA位点相似的潜在位点变得至关重要。
现如今,已经开发了多种计算工具,可在线选择基因组中感兴趣区域内具有最小或无离靶活性的潜在靶点。
这些工具通常使用相似性搜索方法来查找每个靶点的离靶位点,并对其进行排序。然而,需要注意的是,目前没有单一工具能够准确预测目标位点的所有可能离靶突变。
另一种可以提高Cas9特异性的方法,是通过结构引导的蛋白工程技术对其进行改进。该方法涉及研究Cas9与引导RNA和DNA结合的晶体结构,并推测可以改善特异性的突变。
假设如果中性化该带正电残基的非靶标带电沟槽,可能会促进DNA的重新杂交,从而降低RNA-DNA结合的不匹配容忍度。
因此,已生成了在非靶标沟槽中进行个别替换的突变体,并对它们的特异性进行了评估,即,在这31个突变体中,有5个相对于野生型的离靶活性降低了10倍,表明其离靶活性显著低于野生型。
计算蛋白质工程的未来挑战
简化计算过程和减少计算时间是计算机蛋白质工程的关键挑战之一,目前常用的解决方法是固定其蛋白质骨架并减少自由度。
然而,这种方法限制了设计的可能性,无法适应需要微小改变残留组合的情况,也不能设计全新的骨架结构。为了克服这些限制,出现了灵活的骨架蛋白设计方法,如结构参数化、集合方法和同时优化。
每种方法都有自己的挑战,如结构参数化在建模骨架时提供了一定的灵活性,但会减少自由度。而集合方法使用多个骨架结构实现灵活性,但对骨架数量有限。同时优化方法虽允许调节骨架和侧链的灵活性,但实验与计算预测之间的相关性仍有待提高。
其次,负设计是一种用于确保蛋白工程中特异性的方法。与正设计侧重于设计具有所需功能的蛋白质不同,负设计旨在防止不希望的功能。
负设计通过评估多个结构,确保序列不会形成替代构象,从而选择只形成唯一结构的序列。然而,负设计需要对目标结构和不希望的复合物有先前的了解,以避免可能形成不希望结构的序列。
最后,蛋白质工程流程中另一个艰巨任务,则是对预测结构进行高通量采样。在计算设计之后,所有成功的设计都需要进行克隆、表达和纯化以进行表征,但逐个完成这些步骤是昂贵、耗时且繁重的。
有效设计新分子的强大工具
综上所述,计算蛋白工程方法为设计全新的分子,以达到定制的性能和功能,提供了一个充满前景的途径。
通过结合计算工具和实验技术,能够加速治疗剂、催化剂和生物材料的发现和开发过程。且随着计算算法不断进步,并对蛋白质结构和功能的理解不断深入,该领域的发展将进一步推动,为医学、生物技术和材料科学中的复杂挑战提供创新的解决方案。