本文来自微信公众号:新智元(ID:AI_era),作者:桃子、袁榭、拉燕,原文标题:《斯坦福AI 5小时DNA测序破世界纪录!创人类新里程碑,成本仅3万》,头图来自:pixabay


DNA测序时间减半,还创下了最新吉尼斯世界纪录!


近日,斯坦福大学研究团队完成了利用人工智能计算加速工作流程的“DNA巨量测序”技术。


最新研究已于1月12发表在《新英格兰医学杂志》上。


论文地址:https://www.nejm.org/doi/full/10.1056/NEJMc2112090<br label=图片备注 class=text-img-note>
论文地址:https://www.nejm.org/doi/full/10.1056/NEJMc2112090


此研究中处理速度最快的病例样本仅用了5小时2分钟就完成测序,从样本送达实验室到诊断的时间是7小时18分钟。


此前的基因诊断速度世界记录是14小时。


一、最快DNA测序:用时5h


为什么说这是一项重大突破?


这么说吧,基因组测序是为了让医生能够看到病人完整的DNA组成。


从眼睛颜色到遗传性疾病的这些关键信息对于病人疾病的诊断非常重要。一旦医生知道了特定的基因突变,他们就可以制定精准的治疗计划。



因此,为了加速患者治疗进程,医生就得选择和时间赛跑。


如果测序基因组的速度越快,患者离开ICU的速度就越快。


与此同时,患者需要的测试次数减少,康复的速度变快,还有花在昂贵医疗上的费用也会缩减。


要知道,之前的DNA测序诊断时间最快的记录是雷迪儿童医院创下的14小时,已堪称神速。而斯坦福大学此次的纪录又较之快了近倍。


研究项目负责人尤安·阿什利教授称,“当下大多数医师提到给患者基因测序、拿到结果,数周内就算快了。”


这项研究由斯坦福大学医学院医学、遗传学和生物医学数据科学教授尤安·阿什利博士领导,与 英伟达、谷歌等机构合作。


图片来自:Stanford University
图片来自:Stanford University


在这项研究中,研究小组在斯坦福大学医院的重症监护病房中对未确诊的患者进行了加速基因组测序技术的测试。


从2020年12月至2021年5月,共招募了12名患者参加测试。其基因组测序流程如下:


超快速基因组测序流程<br label=图片备注 class=text-img-note>
超快速基因组测序流程


在12个提供基因样本的病患中,有5个是当天拿到结果,其他的都是病因非基因性质。斯坦福研究团队42%的确诊率高于病因难以发现的30%疑难病确证率。


最初,研究人员在5名患者中获得了初步的基因诊断,从血样送到实验室到最初诊断的最短时间是7小时18分钟。


同时,5名患者在基因诊断治疗后得到了迅速的恢复。


上端深色块区域代表5名最先诊断出结果的患者,患者11用时最短<br label=图片备注 class=text-img-note>
上端深色块区域代表5名最先诊断出结果的患者,患者11用时最短


测试对象中包括一名3个月大的癫痫新生儿,病因在例行的医院仪器检测中无法发现。研究团队在接到样本的8小时25分钟之内发现了致病的基因异常,而同时送交普通基因测序机构的结果是在两周后才能得出。


还有一名13岁的心衰竭患者,其症状曾被误诊为新冠肺炎。研究团队也在数小时内标定了导致其心肌异常的基因变异,让他在21天内换上了健康的移植心脏。


论文作者之一、博士后约翰·果津斯基在个人推特上说,“这将完全改变危重病人确诊遗传病的现有方式,为医护业带来前所未有的新标准。”


二、成本低至3万


在确定患者1的诊断之后,科学家便更新了生物信息学框架,将原始信号数据实时传输到云存储中,并将数据分布到多台云计算机上,以实现接近实时的样本呼叫和对齐。


这一步将测序后运行时间减少了93% 。


在有的病例样本处理过程中,研究团队的平均基因测序速度达到了每分钟1.8G数据的速度,也就是1分钟45秒内测完一个人体基因组,这是前所未有的速度。


12名患者诊断过程每个阶段花费的时间<br label=图片备注 class=text-img-note>
12名患者诊断过程每个阶段花费的时间


提速需要更新硬件。斯坦福大学的测序小组使用了牛津纳米孔技术公司制造的一种新机器,该机器带48个测序单元,也称为流动槽。


斯坦福研究团队的新方法是在使用新分析机时,用所有流动槽同时处理同一个病患的样本。


这种极限运行方法获得了大成效。老实说成效差点太大。每小时173-236G的数据量、94%的比对认定率、最高超过60倍的显子组覆盖度(对显性常染色体数据的读取次数),增强到让处理数据的电脑不堪负荷。



斯坦福大学研究生 Sneha Goenka 为此找到了一个快速的解决方案。这个方案放弃传统的全用本地测序芯片处理数据的办法,直接将编译好的数据存入基于英伟达 Tensor Core GPU与谷歌云的存储系统。


利用云计算系统,算力可以被放大,并在数据中进行实时筛选。


然后研究者使用英伟达的Clara Parabricks架构,独立运行为此定制的特殊决策树算法,以扫描输入的样本基因代码中,是否有病原体特征、可能导致疾病的遗传异常特征,并为之标出权重。


英伟达的Clara Parabricks架构是以GPU加速运行的谷歌PEPPER-Margin-DeepVariant管线版本。PEPPER-Margin-DeepVariant管线由谷歌与加州大学桑塔克鲁兹分校联合开发,利用递归神经网络算法分析基因测序数据。


决策树算法过程<br label=图片备注 class=text-img-note>
决策树算法过程


最后研究者将病患样本的基因异常对照致病基因的公开数据库,得出诊断。


因为软硬件的增强,研究团队还选用了以前更花钱且更艰难的长读测序法。


传统的基因测序将样本基因分切成小段,然后再测定每段里的DNA碱基对。如此方式可以在旧技术限制下降低成本与工时,但容易误测或漏测在长段DNA序列中才能完整呈现的变异。


长读测序不需要过分切割DNA,同时测定1万到10万个碱基对之间的DNA长序列,能在提高测序准确度的同时,提供更多基因变异的细节数据。



在之前的旧技术限制下,长读测序的成本远高于传统测序。


现在速度提升了,精度增加了,那么这次测试究竟花了多少钱呢?


科学家估计了使用方法的成本,包括DNA提取、文库制备、测序和计算,发现这些成本在4971美元—7318美元之间(约3万—4.6万人民币),远低于之前的预期。


随着基因组测序技术不断进步,测序成本以“超摩尔速度”直线下降。



斯坦福研究者称,此技术将能在试点的斯坦福医院与斯坦福大学露西尔·帕卡德儿童医院达到加护病房周转率提高到10小时以下的成果。若达到预期将试图更广泛铺开应用。


三、4代基因测序技术


基因组测序技术的发展,最早可以追溯到1977年,此后经过了40多年的发展。


基因组测序技术发展史<br label=图片备注 class=text-img-note>
基因组测序技术发展史


提到DNA测序,就不得不提到影响力巨大的“人类基因组计划”。


关注我们往期文章的读者应该有印象,仅在职一年的美国科学顾问兰德,他的最大成就可能就是绘制了人类基因组图谱,推动了人类基因组计划的发展。


其实,从上世纪90年代初起,学界就开始涉足“人类基因组计划”。



人类基因组计划可谓是世界范围内规模最大的科学巨型工程之一了。


其宗旨就是测定组成人类染色体中所包含的六十亿对组成的核苷酸序列,从而绘制人类基因组图谱,并且辨识其载有的基因及其序列,达到破译人类遗传信息的最终目的。


1990年,人类基因组计划由美国能源部和国家卫生研究院投资,预期在15年内完成。


而后,为了协调各国人类基因组研究,1988年在维克多·马克库斯克等科学家的倡导下,国际人类基因组组织宣告成立。


DNA测序技术的发展经历了4次比较重大的飞跃。


第一代:链终止法


1975年,弗雷德里克·桑格(Frederick Sanger)等人提出了链终止法,标志学者第一代测序技术诞生。


他们测定了第一个基因组序列,全长5375个碱基的噬菌体X174。自此,人类获得了窥探生命遗传密码的能力。


第一代测序技术的优势在于测序读长可达1000bp,准确性高达99.999%,但因测序成本高、时间久和通量低等缺点,严重影响了其真正大规模的应用。


第二代:高通量测序


第二代高通量测序是对上一代桑格测序的革命性变革,一次可以对几十万到几百万条DNA分子进行序列测定,在有一些文献中将高通量测称为“下一代的测序技术”。


第二代测序技术除了大大降低测序成本以外,还大幅提高了测序速度,并且保持了高准确性。


第一代测序技术完成一个人类基因组的测序需要3年时间,而使用二代测序技术则仅仅需要1周时间。 


DNA之父詹姆斯·沃森(James Watson)在不到两年、花费仅200万美元的情况下,获得了世界上首份个人基因组图谱。


在之后,科学家看到在此方向上发展基因测序技术大有可为,于是继续进行创新,发明了第三代单分子测序技术。


第三代:单分子实时DNA测序


以PacBio公司的SMRT技术和Oxford Nanopore Technologies公司的“纳米孔单分子技术”为代表的新一代测序技术被称为第三代测序技术。


PacBio公司仪器<br label=图片备注 class=text-img-note>
PacBio公司仪器


单分子测序技术,不需要经过PCR扩增,实现了对每一条DNA分子的单独测序。第三代测序技术也叫从头测序技术,即单分子实时DNA测序。


第四代:核苷酸测序


第四代测序技术的基本标志是不经过cDNA(以RNA为模版合成的互补DNA),无PCR扩增,而直接测定单分子RNA序列,以及确定单分子RNA上的修饰核苷酸位点。


第一代测序技术的出现让人类获得了探索生命遗传本质的能力,让生命科学的研究进入了基因组研究时代。


到至今为止的40多年的时间,基因测序技术从第一代到第四代的已经得到了非常大的发展。


未来,解码DNA时间的序列的尝试还会继续……


参考资料:

https://www.zdnet.com/article/stanford-uni-nvidia-use-ai-computing-to-cut-dna-sequencing-down-to-five-hours/


本文来自微信公众号:新智元(ID:AI_era),作者:桃子、袁榭、拉燕