近日,一项新研究描述了一种快速获取精确日期的进化树--也被称为“时间树”的新计算方法。据悉 ,研究人员通过这种新方法分析了一个哺乳动物基因组数据集并回答了一个长期存在的问题,即现代胎生哺乳动物群起源于白垩纪-太古纪(K-Pg)大灭绝之前还是之后。



据悉,那次大灭绝消灭了70%以上的物种,包括所有的恐龙。


这些发现证实了现代胎盘哺乳动物群体的祖先是在6600万年前发生的K-Pg大灭绝之后,这解决了围绕现代哺乳动物起源的争议。胎盘哺乳动物是现存哺乳动物中最多样化的群体,包括灵长类、啮齿类、鲸类、食肉动物、翼手类(蝙蝠)及人类等群体。


该研究小组由Mario dos Reis博士(伦敦大学玛丽皇后学院)和Phil Donoghue教授(布里斯托尔大学)领导,成员包括来自玛丽皇后学院、布里斯托尔大学、伦敦大学、伦敦帝国学院和剑桥大学的科学家。


来自UCL(当时在玛丽皇后大学)的论文第一作者Sandra Álvarez-Carretero博士表示:“通过在分析中整合完整的基因组和必要的化石信息,我们能减少不确定性并获得一个精确的进化时间表。现代哺乳动物群体是跟恐龙共存还是起源于大灭绝之后?我们现在有了一个明确的答案。”


“哺乳动物进化的时间线也许是进化生物学中最有争议的话题之一。早期的研究为现代胎生动物群提供了在白垩纪深处、恐龙时代的起源估计。在过去的20年里,研究在K-Pg后和K-Pg前的多样化方案之间来回穿梭,”这篇论文的共同第一作者Donoghue教授补充道,“我们精确的时间表解决了这个问题。”


基因组分析的快速方法


随着世界范围内的测序项目现在产生了成百上千的基因组序列且即将计划对超过一百万的物种进行测序,进化生物学家很快就会有大量的信息在他们手中。然而目前分析现有的庞大基因组数据集并创建进化时间表的方法效率低下、计算成本高。


“推断进化的时间线是生物学的一个基本目标。然而最先进的方法依赖于使用计算机来模拟进化时间线并评估最合理的时间线。在我们的案例中,由于分析了巨大的数据集,涉及近5000种哺乳动物的遗传数据和72个完整的基因组,这很困难,”dos Reis博士说道。


在这项研究中,研究人员开发了一种新的、快速的贝叶斯方法来分析大量的基因组序列,同时还将数据中的不确定性考虑在内。“我们通过将分析分为子步骤来解决计算上的障碍:首先使用72个基因组模拟时间线,然后使用结果来指导对其余物种的模拟,”dos Reis博士指出,“使用基因组可以减少不确定性,因为它可以从模拟中拒绝不靠谱的时间线。”


“我们的数据处理管道为尽可能多的哺乳动物物种获取了尽可能多的基因组数据。这很有挑战性,因为基因数据库包含不准确的内容,我们必须制定一个策略来识别质量差的样本或必须删除的错误标签数据,”来自UCL的论文的共同第一作者Asif Tamuri博士补充称。据悉,他负责组装哺乳动物基因组数据集。


更高效和可持续


研究小组通过这一新方法能将这种复杂分析的计算时间从几十年减少到几个月。“如果我们没有使用我们所开发的贝叶斯方法而试图在超级计算机中分析这个大型哺乳动物数据集,我们将不得不等待数十年才能推断出哺乳动物的时间树,”Álvarez-Carretero表示,“试想一下,如果我们使用自己的个人电脑,这项分析可能需要多长时间。此外,我们设法将计算时间减少了100倍。这种新方法不仅可以分析基因组数据集,而且由于效率更高,大大减少了因计算而释放的二氧化碳排放量。”


据悉,该研究中开发的方法可用于解决其他需要分析大型数据集的有争议的进化时间线。通过将新颖的贝叶斯方法跟即将到来的达尔文生命之树(Darwin Tree of Life)和地球生物基因组(Earth BioGenome)项目的基因组结合起来,为生命树估计一个可靠的进化时间尺度的想法现在看来是可以实现的。