本文来自微信公众号:学术头条(ID:SciTouTiao),作者:库珀,题图来自:视觉中国


新冠病毒自 2019 年开始席卷全球,至今仍未完全结束。


如今,新冠疫情已经给人们的生产生活造成了极大的干扰和破坏,且新冠病毒只是一大批日益增多的动物传染病病毒中的一种,新冠不是第一种人畜共患病,也不会是最后一种,其他比较“知名”的人畜共患病还包括埃博拉、中东呼吸综合征、西尼罗河热以及裂谷热等等。


很多研究表明,人类活动的扩张、对野生生态的破坏,加剧了某些疾病从动物向人类自身的传播概率。近年来,大多数新出现的人类传染病(如 COVID-19)都是人畜共患的——由源自其他动物物种的病毒引起,如果能及早识别这类高风险病毒,则可以改善相关研究和监测重点,有望预防此类疾病未来再次暴发。


9 月 29 日,来自英国格拉斯哥大学的研究人员在 PLOS Biology 期刊上发表的一篇论文中介绍,他们使用病毒基因组的机器学习技术(一种人工智能模型),可以预测任何动物病毒感染到人类的可能性,这为预测评估人畜共患病潜力提供了一个新工具。


图|人畜共患病病毒监测工作中捕获的蝙蝠(来源:PLOS Biology)
图|人畜共患病病毒监测工作中捕获的蝙蝠(来源:PLOS Biology)
图|从病毒基因组中机器学习预测人类传染性(来源:PLOS Biology)
图|从病毒基因组中机器学习预测人类传染性(来源:PLOS Biology)


接下来,研究人员量化了根据基因组组成(即密码子使用偏差、氨基酸偏差和二核苷酸偏差)进行训练的 GBMs 性能,直接从病毒基因组(“病毒基因组特征”)或基于病毒基因组组成的相似性计算不同的人类基因转录本(“人类相似性特征”):干扰素诱导基因产物(ISG)、管家基因和所有其他基因。


此外,为了评估模型的敏感性和特异性,研究人员将来自袋装模型的人类感染预测概率的平均值转换为二元分类(即,人类感染与否),将预测概率 >0.293 的病毒预测为人类感染。这些二元预测正确地确定了 71.9% 的主要或完全感染人类的病毒,以及69.7%的人畜共患病毒为人类感染,尽管病毒家族之间的表现各不相同。


由于二元分类忽略了迭代之间的变异性和病毒相对于彼此的等级,研究人员又进一步将预测的人畜共患病概率转换为潜在的人畜共患病类别,根据该方案,预计大多数(92%)已知的人类感染病毒具有中等(21.5%)、高(47.1%)或非常高(23.4%)的人畜共患潜力,而只有 8% 具有低人畜共患病潜力。



图|在训练数据中确定的推定未识别的人畜共患病(来源:PLOS Biology)


基于论文中模型的分析,目前共有 18 种病毒被认为具有非常高的人畜共患潜力,其中至少有 3 种(Aura virus, Ndumu virus, Uganda S virus)具有人类感染的血清学证据。在整个数据集中,77.2% 的预测具有非常高的人畜共患病潜力的病毒已知会感染人类。


值得关注的是,论文中提出的模型可以通过重建分类学,比系统发育邻域估计器更准确地进行预测,或者比基于分类学的模型更详细地进行预测。


图|人类感染病毒的基因组决定因素(来源:PLOS Biology)
图|人类感染病毒的基因组决定因素(来源:PLOS Biology)


尽管论文提出的模型分析并非旨在最终确定人类感染基因组预测因子的生物学机制,但仍然能够探索特定基因组组成特征、以及特征组如何与人类传染性相关的新兴模式,研究人员进一步详细地探讨了单个特征对模型预测的影响。


最后,研究人员利用两个案例研究说明了该预测框架的实用性。


首先,研究人员使用基于基因组特征的组合模型对训练数据中不存在的 758 种病毒进行了排名,共有 70.8% 从人类采样的病毒被正确识别为具有非常高或高人畜共患病潜力,其余的人类相关病毒主要被归类为中等人畜共患病潜力,其中 3 个物种预测具有低人畜共患病潜力。


在从非人类动物或潜在载体样本测序的 645 种人类感染性未知的病毒中,45.0% 被预测具有非常高或高人畜共患病潜力,非常高的人畜共患病潜力类别以 Papillomaviridae(34.1%)和 Peribunyaviridae(19.5%)为主。


图|从病毒基因组预测的人类感染概率(来源:PLOS Biology)
图|从病毒基因组预测的人类感染概率(来源:PLOS Biology)


此外,研究人员使用 beta 回归模型来探索人畜共患病潜力的预测如何在宿主和病毒组之间变化。


分析发现,从人类样本中测序的 113 种病毒物种的得分始终高于在其他宿主中检测到的那些。尽管来自蝙蝠、啮齿动物和偶蹄动物等被认为是高危宿主的病毒构成了保留数据的很大一部分(来自蝙蝠的病毒甚至超过了来自人类的病毒),但它们并没有提高预测的人畜共患病概率,并且在较高的宿主分类水平上没有检测到差异,这凸显了当前用于病毒发现/报告的采样工作与人畜共患病风险分布之间的潜在差异。


图|从冠状病毒基因组预测的人类感染概率(来源:PLOS Biology)
图|从冠状病毒基因组预测的人类感染概率(来源:PLOS Biology)


第二个案例研究,则使用了冠状病毒来探索基于基因组特征的组合模型区分同一家族内不同病毒物种和单个病毒物种内不同基因组的能力。研究人员预测了所有目前公认的冠状病毒物种以及 62 个人类和动物源性沙贝科病毒基因组的人畜共患病潜力,这些基因组目前都被国际病毒分类委员会(ICTV)归类为严重急性呼吸系统综合症(SARS)相关冠状病毒。


他们还发现了另外 2 种与动物相关的冠状病毒——Alphacoronavirus 1和最近描述的Sorex araneus 冠状病毒 T14——至少与已知的、高级的、感染人类的冠状病毒一样,或者更有可能感染人类,这些应被视为进一步研究的高度优先事项。


在模型分析结果中,大多数基因组(85.5%)被归类为具有中等人畜共患病潜力,然而,严重急性呼吸系统综合症冠状病毒 2(SARS-CoV-2)、来自蝙蝠的密切相关的病毒 RaTG13,以及所有5种密切相关的穿山甲相关分离物的检测结果都预测具有很高的人畜共患病潜力。


有望防疫情于未然


在一个以基因组为基础的病毒快速发现的时代,研究和监测活动的合理优先级一直是尚未解决的挑战。


而这项论文的研究结果表明,病毒的人畜共患病潜力可以从其基因组序列中推断出来,可以回顾性或前瞻性地预测病毒能够感染人类的可能性,能为病毒研究和监测优先事项的决策提供信息,这在很大程度上提供了更先进的选择。


“这些发现为我们使用 AI 技术从病毒基因序列中提取大量信息提供了一个关键支撑。”论文的作者之一 Simon Babayan 说道,“基因组序列通常是我们掌握新发现病毒的第一个、通常也是唯一的信息,我们可以从中提取的信息越多,就能越早确定病毒的起源及其可能带来的人畜共患风险。随着更多病毒被表征,我们的机器学习模型在识别稀有病毒方面将变得更加有效,这些病毒应该受到密切监测并优先用于抢先疫苗开发。”


在只需要基因组序列时,研究人员的方法在人畜共患病风险评估的替代模型中具有定量和定性优势,不过,这种新的模型也有很多局限性,例如对病毒多样性的不完整知识可能导致在这种方法下完全错误的优先级。此外,使用来自每个病毒物种的单个示例基因组来最大限度地发现人类感染的普遍特征的可能性,虽能避免对新病毒过度乐观的性能指标,但这种方法的潜在缺点是忽略了尚未被 ICTV 正式认可的大量病毒的多样性。


从病毒风险评估的角度整体来看,当大多数其他风险因素数据仍然未知时,论文中提出的模型可以更早地利用纯粹基于基因组序列的模型,在病毒发现和基因组测序后立即识别许多潜在的人畜共患病,通过突出最有可能成为人畜共患病的病毒,可以做好进一步的生态和病毒学表征。


此外,研究人员还表示,应用新的模型之后,仍有相当多的病毒可能需要进行验证性测试,在进行重大的研究投资之前,这种需求仍会随着病毒的不断发现而增加。


2020 年 7 月,联合国环境规划署(UNEP)和国际畜牧研究所(ILRI)曾联合发布了一份名为《预防下一次大流行病:人畜共患疾病以及如何阻断传播链》的报告,在旧有经验的基础上,通过采取人类、动物和环境“一体化健康”方法,是遏制未来疾病的暴发的一种举措。


基于 AI 技术预测病毒传播的可能性固然值得肯定,但为了防止大规模疫情的频繁出现,我们也必须更加谨慎地保护我们的自然生态环境,从解决问题的根源做起。


本文来自微信公众号:学术头条(ID:SciTouTiao),作者:库珀