作为生命的“天书”,基因组记录了人类起源、演化和产生疾病的遗传密码。而这组庞大密码的破译则一直是科学家们攻克的方向。然而,不同人种的基因亦有其特殊性,目前广泛使用的人类参考基因组主要基于欧洲白人的样本构建,难以反映中国等非欧裔人群的基因组多样性。
因此,为了解析中国人群的基因特征和功能,中国科学家联合发起了中国人群泛基因组联盟(CPC),并初步构建了首个中国人群专属的泛基因组参考图谱。该项成果于6月14日在线发表在国际顶尖学术期刊《自然》上,这也是我国学者领导的人群基因组研究首次登上《自然》主刊。
在详细介绍这项成果之前,首先需要被搞明白的是:什么是泛基因组?它有什么用?为什么要构建中国人群专属的泛基因组参考图谱?
泛基因组是指一个物种或一个族群中所有个体的基因组序列的集合,能够更全面地捕获基因组结构变异和多样性,也能更准确地指导遗传学和医学研究。传统的线性参考基因组只能表示一个平均水平的序列信息,而忽略了个体间或族群间存在的大量差异。而泛基因组参考图谱则可以包含所有可能出现的变异序列,并且可以根据不同样本或族群进行定制化查询。
与此同时,中国是一个多民族国家,拥有丰富而独特的遗传资源。然而,中国人群在全球范围内缺乏高质量的基因组数据,导致中国人群的基因组特征和功能难以被准确揭示。这不仅影响了中国人群的遗传学研究,也限制了中国人群的精准医疗发展。
也因此,CPC泛基因组图谱作为首个中国人群专属的泛基因组参考图谱,在中国人群特有的复杂变异解析方面具有显著优势。
该泛基因组图谱总共包含约3.01 Gb个碱基对的序列信息,在现有人类参考基因组的基础上新增了约1.9亿个碱基对的新序列,包含约580万个点突变或小变异以及3.4万个结构变异,涉及至少1367个蛋白编码基因复制事件等。其中,约500万个碱基对新序列存在于95%以上的单倍型中,被视为中国人群基因组核心序列,可能与中国人群特有的较为稳定的生物学功能或表型特征相关。
在CPC泛基因组图谱中,新发现了1079个基因拷贝数变异,以及包含药物代谢基因CYP2D6等在内的在中国人群中富集而在其他世界人群中出现频率较低的若干基因拷贝数变异;新鉴定出富集在中心粒、端粒等染色体复杂区域的3.4万个结构变异,其中半数以上仅在单个或两个样本中出现,若不针对中国丰富的族群多样性开展专门研究,将没有机会发现这些遗传变异。
研究人员进一步揭示,这些CPC新发现的遗传变异可能与亚洲人群特有的疾病易感性及表型多样性有关。一个典型的例子是α-珠蛋白基因簇,研究人员在该基因区域鉴定出两个中国人群特异性的大规模结构变异,包括一段20kb的缺失序列和一段10kb的重复序列,这将为进一步研究中国人群贫血症的遗传机理和致病机制提供新的线索。
同时,CPC新发现的遗传变异影响了具有潜在功能和经受过适应性进化的基因,这些基因可能与亚洲人群特有的疾病易感性及表型多样性有关,这也证实了将人群专属高质量泛基因组用于基因组学和医学研究的潜力和必要性。此外,研究人员在CPC参考图谱中发现了相当大比例的古人来源基因序列——平均每个族群和每个样本中分别有约15Mb和约9.5Mb的古人来源新序列——这可能是前期开展大量研究却未在现代人基因组中发现的古人基因渗入序列,或将为东亚现代人基因组中的古人基因渗入研究乃至整个古DNA领域提供新的信息资料和线索。