北京时间6月14日23时,复旦大学、西安交通大学、中国医学科学院等26家单位联合完成的中国人群泛基因组联盟(CPC)一期研究进展,以《基于36个族群的中国人泛基因组参考图谱》为题发表于《自然》杂志。这是我国学者领导的人群基因组研究首次登上《自然》。
这项研究初步构建了我国人群的泛基因组参考图谱,揭示了中国人的基因组中隐藏着此前从未揭示过的基因序列。在重构人类演化历程、找回复杂疾病研究“丢失的遗传率”等研究和应用中,该图谱具有巨大的潜在价值。目前,团队正加速这一图谱的实用性研究,将之推向临床疾病检测尤其是精准医学领域。
构建中国人群泛基因组参考图谱
泛基因组参考图谱,简言之,就是借助数学中图论的思想和计算技术,将人类多个族群的代表性样本、具有多样性的基因序列以多维图谱形式组装起来,形成一个能充分反映种群基因组结构变异多样性的导航图,从而指导进一步的遗传学和医学研究。
上世纪末的人类基因组计划和曼哈顿计划、阿波罗登月计划,并列为人类科学研究的三大重大项目,并于2001年首次发布了人类基因组草图。但是,目前通用的人类参考基因组主要基于欧洲白人为主体样本构建,尤其是因为当时样本质量的原因,其中70%的数据来自同一个人。这一结果难以代表非欧裔族群,尤其难以代表我国族群的基因组多样性。即便是最新发表的人类泛基因组国际联盟(HPRC)收集了全球范围的47例样本,也仅包含3例中国汉族样本。
作为人口大国,我国巨大的人口基数和丰富的人群多样性是发展人类基因组学和精准医学的重要优势:西南部高原地区分布着众多藏缅、南亚语系族群,东西方人群在西北部丝绸之路沿线交融,苗瑶语族人群在云贵地区世代繁衍,蒙古、突厥人群曾游牧于北部风沙地,通古斯语族抵抗严寒一路向北,台-卡岱(侗台)族群的先辈亦曾穿梭于南方丛林河谷。
同时,悠久的人群历史、丰富的地理气候环境,塑造了中华民族独特的遗传多样性。构建能代表中华民族遗传多样性的中国人群泛基因组图谱,将极大提高捕获罕见或低频遗传变异的灵敏度和准确性,支撑服务中国人遗传多样性研究、复杂疾病分子机制研究和精准医学研究与应用。
新鉴定东亚人特有的百万计的基因变异
为了构建高质量、高精度的中国人群泛基因组参考图谱,复旦大学徐书华教授、西安交通大学叶凯教授联合国内26家单位发起了中国人群泛基因组联盟(CPC),旨在建立我国专属参考基因组和泛基因组资源和分析体系,形成我国自主可控的人类基因组资源与核心技术,支撑精准医学发展,服务“健康中国”战略。
在第一期研究计划中,CPC对代表中国36个族群的58个样本采用最新的基因组测序技术进行了深度测序,结合最新的单倍型基因组组装方法,获取了116个高质量单倍型基因组,并以图基因组的方式构建了高质量中国人群参考泛基因组。
CPC对我国族群特异的复杂基因组结构变异解析示例
该泛基因组图谱共包含约3.01Gb个碱基对的序列信息,发现了在人类通用参考基因组上缺失的约1.9亿个碱基对的参考序列;新鉴定了东亚人特有的百万计的点突变或小变异,以及3.4万个结构变异,涉及大量潜在功能原件,包括至少1367个蛋白质编码基因。其中,约500万个碱基对新序列存在于95%以上的单倍型中,被视为中国人群基因组核心序列,并被认为可能与中国人群特有的生物学功能或表型特征相关。
为中国人群精准医疗提供重要支撑
研究团队还新发现了1079个基因拷贝数变异,包括大量在中国人群中富集而在其他世界人群中较为罕见的若干基因拷贝数变异;同时,新鉴定出富集在中心粒、端粒等染色体复杂区域的3.4万个结构变异,其中半数以上仅在单个或两个样本中出现。这意味着若不针对中国丰富的族群多样性开展专门研究,将没有机会发现这些遗传变异。
研究人员进一步揭示,这些新发现的遗传变异可能与亚洲人群特有的某些疾病的易感性及表型多样性有关。一个典型的例子是α-珠蛋白基因簇,研究人员在该基因区域鉴定出两个中国人群特异性的大规模结构变异,包括一段20kb的缺失序列和一段10kb的重复序列,这为进一步研究中国人群贫血症的遗传机理和致病机制提供新的线索。
图形化泛基因组示例及CPC特有复杂变异分布
这一图谱构建有助于寻找复杂表型/疾病的遗传学基础。比如此次发现RASA4基因变异就与多种肿瘤有密切关系;PRSS基因与消化道疾病有关,尤其是与胰腺炎、胰腺癌密切相关。“再比如,参与25%的临床药物代谢和清除的基因CYP2D6,在中国人群和欧美群的变异就有很大差异。”课题组成员徐书华介绍,“很多临床使用的药物是基于欧美人的体质开发的,这一基因的变异就会对中国人使用欧美研发的药物安全带来潜在风险。同样,此次研究发现,C4基因区域与精神分裂症密切相关,而对比西方人群的基因图谱,可以发现东西方的精神分裂症遗传机制有可能存在显著差异。”
构建中国人群泛基因组图谱还有助于发现“丢失的遗传率”。所谓“丢失的遗传率”是指部分疾病具有高遗传性,但是传统方法却难以发现其遗传基因。比如,精神分裂症的遗传率是81%、孤独症的遗传率是80%,而身高的遗传率在55%-90%之间,但是目前能够发现的遗传因素却只能解释20%左右的遗传率,甚至大多在5%以下。徐书*释称:“根据对中国人群的泛基因图谱的比较,将可以发现其遗传基因,并且未来用于疾病的精准防治领域。”
研究人员还在CPC参考图谱中发现了相当大比例的古人来源基因序列。“简言之,这些新发现的源自古人的基因序列可能与一些关键的表型和功能有关,可能曾经促进了我国以及东亚人群的适应性进化。”徐书华说,这或将为东亚现代人基因组中的古人基因渗入研究乃至整个古DNA领域提供新的信息资料和线索。
从1%到100%,中国生命科学研究的历史性跨越
从在人类基因组计划中,中国只承担“1%”的图谱绘制任务,到今天,中国人群泛基因组图谱“100%”由中国科学家完成,这项研究成果展现了中国生命科学尤其是基因组学科研水平在这40年间的历史性跨越,为完整构建中华民族参考泛基因组打下坚实基础,也为人类参考泛基因组图谱绘制了“中国画卷”。
作为论文共同作者之一,复旦大学校长、中科院院士金力表示,这一研究的发现反映了我们的基因组中可能仍有大片有价值的矿藏尚未得到充分开采。同时,基因组结构变异大概是生物进化中从微观到宏观演变的关键遗传基础,也是最有可能连接渐变到跃变这个“鸿沟”的进化密码。“我相信,通过对基因组结构变异的高精度解析,不但能大幅提升‘基因型-表型’关联分析的功效,还可能最终帮助我们理解生命演化中重要性状和功能产生的遗传基础和分子机制。”
中国人群参考泛基因组不仅有助于中华民族共同体的遗传学研究,加深人们对个体或群体基因组的“异”与“同”更具象、更深度的认知,还将改变过去依赖主体基于欧洲白人的参考基因组而导致东亚特有罕见变异检出精确度难以提升的困境,从而提高我国生物医学数据分析的质量和效率,服务于人民生命健康。
复旦大学徐书华教授、西安交通大学叶凯教授、中国医学科学院褚嘉祐教授和复旦大学陆艳副教授为论文的共同通讯作者。复旦大学博士后高扬,西安交通大学杨晓飞副教授,中国科学院上海营养与健康研究所博士生陈豪、谭昕江,中国医学科学院杨昭庆研究员以及复旦大学邓恋青年研究员为论文的并列第一作者。该论文共同作者包括复旦大学王宝楠、孔爽、李松洋、崔雨杭、雷畅、赵晓涵、史颖冰、杨子艺,中科院王亦民博士、潘雨闻博士、马森博士,中国医科院孙浩博士,中科院昆明动物所吴东东研究员,江苏师范大学伍少远教授,复旦大学赵兴明教授,西安交大附属医院施秉银教授,复旦大学金力教授,南京医科大学胡志斌教授等。
作者:姜澎
编辑:姜澎
图片来源:受访者