想象一下,在基因测试中得到一个阳性结果。医生告诉你,你有一个“致病基因变体”或一个已知会增加患乳腺癌或糖尿病等疾病的机会的DNA序列。但这些几率到底是多少呢--10%?50%?100%?目前,这并不是一个容易回答的问题。



为了满足这一需求,西奈山伊坎医学院的研究人员分析了存储在两个大规模生物库中的数千人的DNA序列和电子健康记录数据。总的来说,他们发现一个致病的基因变体可能真正导致疾病的几率相对较低--约7%。尽管如此,他们还发现了一些变体,如跟乳腺癌有关的变体,它们跟广泛的疾病风险有关。发表在《JAMA》上的这一结果可能会改变跟这些变异体相关的风险的报告方式,并且有一天会帮助指导医生解释基因测试结果的方式。


遗传学和基因组科学副教授、西奈山The Charles Bronfman个性化医学研究所成员Ron Do博士表示:“这项研究的一个主要目标是产生有用的高级统计数据,定量评估已知的致病基因变体可能对个人的疾病风险产生的影响。”


在过去20年里,科学家们已经发现了数十万个可能导致各种疾病的变异体。然而由于这些发现的性质,一直很难估计--或提供统计数字--每个基因变体发生这种情况的真正风险。截止到目前,大多数估计都是基于涉及少数受试者的研究,这些受试者要么是有疾病史的家庭的一部分,要么是在特定疾病诊所招募的人。但像这样不使用随机选择的大型人群的研究可能会产生对变异体所带来的风险的高估。在这项研究中,研究人员通过对72,434人的大规模DNA测序数据进行37,780个已知变异体的搜索,然后扫描每个人的健康记录以获得相应的疾病诊断,从而解决了这个问题。


据悉,这项广泛的搜索涉及西奈山的BioMe®Biobank项目的29,039名参与者和作为英国生物库(UK Biobank)一部分的43,395名参与者。


这项研究的领导者Iain S. Forrest表示:“这项研究的想法来自于一次头脑风暴会议。Do博士和我讨论了需要有一个更好的系统来对疾病风险进行分类。目前,变异体是通过广泛的标签进行分类,如‘致病性’或‘良性’。正如我在临床上了解到的,这些标签有很多灰色地带。这时我们意识到,将DNA序列数据跟电子健康记录联系起来的生物库是解决这一需求的一个无可比拟的机会。”


初步结果显示,他们的数据集中的157种疾病可以跟5360个变异体联系起来,这些变异体被ClinVar定义为“致病”或被生物信息学算法预测为“功能丧失”。平均来说,“渗透率”即一个变体与疾病诊断有关的机会很低,具体为6.9%。同样,平均风险差异也很低,它描述了拥有该变体的个体比没有该变体的个体的疾病风险增加。


“起初,我对这些结果感到相当惊讶。我们发现的风险比我预期的要低,”Do博士说道,“这些结果提出了关于我们应该如何对这些变异体的风险进行分类的问题。”


尽管有这些结果,跟一些基因变体相关的风险仍然很高。如乳腺癌基因BRCA1和BRCA2的致病变体的平均渗透率为38%,个别变体的渗透率在0到100%之间。


进一步的结果显示了使用生物库数据的其他优势。在一个例子中,研究人员能够计算出跟年龄有关的疾病,如某些形式的2型糖尿病和乳腺癌和前列腺癌的个别变体的风险。平均而言,这些变体的渗透率在70岁以上的人中约为10%,而在20岁以上的人中约为8%。


研究小组还发现,一些变异体的存在可能取决于个人的种族,另外还确定了100多个专门在非欧洲血统个体中发现的变异体。


最后,研究人员列出了该研究本身可能低估或高估了报告的风险的几种潜在方式。


“虽然还需要做更多的研究,但我们觉得这项研究是一个很好的第一步,它将最终为医生和病人提供他们需要的准确和细微的信息从而做出更精确的诊断,”Do博士说道。