想用计算机模拟生命演化，其实我们还做不到 - 葱头胖友圈

当前在计算科学、计算机硬件和生命科学方面无法预料的突破可能会使我们朝着目标迈进计算机模拟生物学的速度更快。本文来自微信公众号：集智俱乐部（ID：swarma_org），作者：Roland R. Netz、William A. Eaton，译者：赵雨亭，编辑：邓一雪，原文标题：《用计算机真正模拟生命还要多久》，题图来自：电影《机械姬》

埃尔温·薛定谔在他1944年的著作《生命是什么？》^[1]中问道：“如何使用物理兼化学方法来解释在一个活的有机体在自己的空间边界内发生的时空事件？”在随后的近80年中，科研人员已经探索了许多有关亚细胞现象的、更深层机理的成果。虽然如此，以第一原理对生活中的生命体进行计算机模拟仍然是一个遥不可及的目标。

在最近一篇发表于美国国家科学院院刊“PNAS”的文章中^[2]，Netz 与 Eaton 预测了这种模拟变为现实所需的时间。他们进一步将其估计扩展到更大的生物系统，并讨论是否以及何时有可能模拟诸如人脑之类的多细胞实体。

用计算机模拟生命过程

在一个生物学上有意义的时间间隔内（例如一个小时、一次细胞分裂时间），模拟细胞大小的分子装配似乎是一项艰巨的任务。的确，现代分子模拟领域的胜利之一就是观察到了蛋白质的可逆老化——这种老化发生在微秒级^[3]。相比之下，单个细胞每小时可以合成数千或数百万个蛋白质，其中许多蛋白质可能需要数秒或数分钟才能折叠，并且只有在细胞机械（cellular machinery）的帮助下才能完成。

在最新的科研尝试中^[4]，研究者模拟了细胞质中，相对较大的100 nm×100 nm×100 nm亚空间。但是，该研究中获得的数十纳秒的时间尺度却非常短，比所需的1小时短了10个数量级！但是，如果按照摩尔定律的预测，计算能力继续呈指数增长，那么弥合这种时间尺度上的差距似乎并非遥不可及。

图1. 摩尔定律认为集成电路可容纳的晶体管数量，每隔约18个月翻倍，代表着对计算能力指数增长的观测和预期。但随着芯片组逐渐接近单个原子尺度，摩尔定律可能会失效。<br>

的确，如果计算机速度每 1.5 年翻一番，则应该有可能在50年^[5]内达到所需的时间范围。某些为加速分子模拟而开发的方法可能会提供进一步的帮助。例如，可以尝试提高仿真温度以加快动力学速度。尽管这种简单的加速动力学的方法存在问题——比如我们无法通过将葡萄酒在不破坏质量的前提下升温来加速老化——但该思路仍然具有启发。

然而，存在一个关键问题：分子动力学（Molecular dynamics，MD）作为标准在原子级上对生物分子现象进行建模的方法并不是真正的第一手方法：要根据第一性原理方法（first-principles method）预测分子间与分子间相互作用，必须为电子和原子核求解量子薛定谔方程（Schrödinger equation）——这需要巨大算力。

简化模拟降低算力

从头开始使用分子动力学法求解的代价就是可观的计算成本。相比之下，标准的分子动力学方法利用了两种简化方法：

由于电子的移动速度比原子核快得多，因此它们可以使原子核感受到有效的相互作用；

可以使用经验“力场（force field）”来近似这种有效的相互作用，但它只是描述有效势能随核坐标的函数而变化的分析公式。

经过数十年的蓬勃发展，现在力场已非常精确且可靠。不幸的是，当前使用的大多数力场仍然存在基本局限性：科研人员无法对其进行化学处理。

化学反应涉及共价键和断裂和形成。没有化学反应，就不会有生命。细胞内的酶催化许多化学反应，包括与代谢过程或机械运动产生有关的化学反应。为了描述这种反应，必须进行量子处理。Netz 和 Eaton 指出：幸运的是，不需要量子力学来描述整个单元。相反，研究人员仅需要量子力学处理来描述形成的原子的有限子集——如酶的活性位点及其底物。

细胞模拟的量子部分值得进一步研究。化学反应的速率（即每单位时间发生反应的概率）通常可以由阿伦尼乌斯定律（Arrhenius law）来描述，

这个重要数字对量子计算所需的精度设置了限制。的确，根据阿伦尼乌斯定律，若是估算活化能时出现1 kcal / mol的误差，预测的反应速率将降低5倍。尽管有一些量子方法可以使能量计算的精度远小于kBT，但算力需求极大，导致该方程通常仅限于在少数几个原子组成的系统中使用。

然而目前，在诸如酶催化中遇到的那些更复杂的分子系统，科研人员依然在使用这种方法进行模拟。Netz 和 Eaton^[2] 提出了密度泛函理论（density functional theory，DFT）方法^[2]。DFT所需的计算工作量与系统规模的立方成正比。

但是DFT的当前精度通常仅为几千卡每摩尔^[6]，因此，通过基于DFT的模拟所预测的动态时间尺度将提升一个数量级。尤其需要注意的是，与其他电子结构方法不同，DFT并没有提供系统的方法，通过修改更改计算参数以提高其准确性。

估计时间尺度上的数量级误差本身并不是致命的：如果仿真中发生的所有过程都比实际速度快十倍，则简单的逐步升级将恢复正确的动力学。但是，想象一下某些过程发生的速度快了十倍，而其他过程发生的速度却慢了十倍：这将严重破坏不同过程的相对速率。因此，在仿真中不会保留适当细胞功能所需的相对速率的精妙平衡，导致其预测能力的下降。

这些考虑因素表明，除非DFT的准确性得到显着提高（最近基于机器学习的DFT方法在这方面似乎很有希望^[6]），否则并不实用。然而，可能需要花费大量成本的量子计算才能获得所需的预测能力。由于计算成本与所需精度之间存在反比关系，因此可以将这种关系视为 Netz 和 Eaton 提出的“生物不确定性关系（biological uncertainty relationships）”之一。

图3. 亚细胞结构观测及其物理机制推测已有较多研究，但纯计算机模拟仍然困难。图为以海马区神经元细胞的亚细胞结构<br>

我们已经了解了很多有关亚细胞现象的物理机制，但是使用第一原理对活动中的活细胞进行计算机模拟仍然是一个遥不可及的目标。基于最近 Netz 和 Eaton 在这篇文章中给出的预测，在这样的模拟变为现实之前，我们将需要等待多长时间。

尽管一个原子级的影片慢速播放至一个小时会令人兴奋，但由于另一个原因，它可能没有太大的预测能力：大多数细胞现象都在运行，然而现有手段只能通过多次重复模拟来积累足够的统计信息后才能理解。

在这方面，现代的“细胞学（celling）”方法解决长期动力学问题似乎特别有希望成为一种补救措施。这套原子论方法将系统的空间划分为多个细胞（不要与生物细胞混淆），并计算每个细胞内的短时弹道（short-time trajectories），以构建描述细胞之间过渡的动力学方案。它实现了一石二鸟（It kills two birds with one stone），因为它可以自动提供系统的统计描述，并且比蛮力运算更有效。

随机的、主方程式的生物细胞模拟方法可以看作是细胞的一种极限情况，而这种情况与原子解析轨迹的关系并不明显。Netz 和 Eaton 的估计表明，即使使用现代计算资源，对生物细胞（而非大脑！）的这种模拟也是可以达到的。

然而，除了随机主方程法的近似性质外，它还面临着双重挑战。首先，该方法需要事先了解所有相关的化学方程式细胞内的形成。这有一个重大的局限，因为研究者希望通过模拟发现此前未必能预料到的新化学过程。规避此限制的一种潜在方法是在动态地发现可能的动力学事件（化学转化）的情况下，采用自适应方法。

其次，该方法要求将每种可能的化学转化的速率系数作为输入。除非实验可用，否则此类信息必须来自原子模拟——幸运的是，执行操作的规模要比整个生物细胞的规模小得多。同样，在这里，研究人员需要考虑导致速率估计的计算的准确性。

上面已经讨论了一种误差来源，即分子能量估计的准确性，但是由于参数输入到方程中，所以困难并没有就此结束。该模拟仍然需要计算。这样做的一种直接方法是在反应物状态下启动感兴趣的分子系统，等到反应完成（即达到反应产物），然后重复模拟，直到估计出平均反应时间为止^[9]。

新的低成本模拟方法

一种更低成本的替代方法是过渡态理论，这是每本化学教科书中都讲的近似方法。不幸的是，现在我们知道过渡态理论对液相化学动力学的描述效果不尽人意。因此，人们将不得不诉诸更准确的、相应也更昂贵的方法。

自1970年代起，化学物理学界开发了许多方法来计算“精确的”反应速率，而无需进行长时间的动力学模拟^[7]，通常的想法是在反应物和产物状态之间进行模拟，并对系统进行监控。直到到达产品为止。这样，可以使用相对较短的轨迹^[7]来计算对过渡态理论的动态校正。

图4. 2016年诺贝尔化学奖奖励了分子机器的相关工作，对生物分子机器的研究将促进微观尺度计算机模拟的实现<br>

对单个细胞和多细胞系统进行模拟的另一个障碍是，这种模拟不是独立的，必须依赖于有关细胞分子组织的结构信息。特别是就分子机器的内部运行而言，该信息必须来自实验研究，目前尚不完整。

总结上述观点，尽管可能在未来几十年内实现整个细胞的计算机模拟，但人们不应该将所有的筹码都押注于它们作为学习生命物质的主要工具的效用。第一性原理模拟多细胞装配体（如大脑）的前景更加黯淡。

另一方面，所有这些考虑都是基于对现有仿真工具的推论，人们永远都不应低估科研人员的创造力。当前在计算科学、计算机硬件和生命科学方面无法预料的突破可能会使我们朝着目标迈进计算机模拟生物学的速度更快。

参考文献：

1. E. Schrödinger, What is Life? The Physical Aspect of the Living Cell (Cambridge University Press, 1944).

2. R. R. Netz, W. A. Eaton, Estimating computational limits on theoretical descriptions of biological cells. Proc. Natl. Acad. Sci. U.S.A., 10.1073/pnas.2022753118 (2021).

3. K. Lindorff-Larsen, S. Piana, R. O. Dror, D. E. Shaw, How fast-folding proteins fold. Science 334, 517–520 (2011).

4. I. Yu et al., Biomolecular interactions modulate macromolecular structure and dynamics in atomistic model of a bacterial cytoplasm. eLife 5, e19274 (2016).

5. G. Henkelman, H. Jo ́ nsson, T. Lelièvre, N. Mousseau, A. F. Voter, “Long-timescale simulations: Challenges, pitfalls, best practices, for development and applications” in Handbook of Materials Modeling, W. Andreoni, S. Yip, Eds. (Springer, 2020), pp. 1–10.

6. M. Bogojeski, L. Vogt-Maranto, M. E. Tuckerman, K. R. Müller, K. Burke, Quantum chemical accuracy from density functional approximations via machine learning. Nat. Commun. 11, 5223 (2020).

7. R. Elber, D. E. Makarov, H. Orland, Molecular Kinetics in Condense Phases: Theory, Simulation, and Analysis (John Wiley, 2020).

8. R. Elber, Perspective: Computer simulations of long time dynamics. J. Chem. Phys. 144, 060901 (2016).

9. G. Henkelman, H. Jo ́ nsson, Long time scale kinetic Monte Carlo simulations without lattice approximation and predefined event table. J. Chem. Phys. 115, 9657–9666 (2001).

论文题目：Estimating computational limits on theoretical descriptions of biological cells

论文地址：https://www.pnas.org/content/118/6/e2022753118

本文来自微信公众号：集智俱乐部（ID：swarma_org），作者：作者：Roland R. Netz、William A. Eaton，译者：赵雨亭，编辑：邓一雪