人类一共有多少种基因,人类一共有多少种疾病

首页 > 影视动漫 > 作者:YD1662023-07-30 08:34:25

人类基因组究竟有多少基因兼谈Salzberg最新bioRxiv研究

“人,宇宙之精灵,万物之灵长”。科学家,这一人类中的所谓精英群体自然担负起了为人类的自负找寻基因证据的重任。早在上世纪六十年代,生物学家就开始了对人到底有多少基因的探索的坎坷之旅。

1964年,来自德国海德堡大学的Friedrich Vogel独闯龙潭,孤身一人进行了历史上对于人类基因组数目的第一次计算。为何是1964年?又到底需要多少基因才能创造位居万物灵长的人类?

Vogel计算的第一个基石源于此前对于人类染色体重量的测量。Mirsky and Ris (1)通过实验得出人类单倍体的染色体大小为2.72 × 10−12 g。综合其他实验结果,为简明,Vogel选择了3 x 10-12g作为人类单倍体基因组的重量。已知一对核苷酸的质量为1.026 x 10-21g(GC对和AT对相差甚微),据此Vogel估算人类基因组的大小为30亿个碱基对——这一估算与今天的测序结果惊人接近。

Vogel的第二个基础来自上世纪60年代初对血红蛋白(hemoglobin)的alpha和beta亚基的氨基酸序列的破解,结果表明它们分别有141和146个氨基酸。Vogel认为,根据斯韦德贝里法则(Svedberg's law),许多蛋白是多亚基(multi-subunit)结构,每个亚基的分子量大约是17500KDa。而如果20种氨基酸的平均分子量为128KDa,则可以计算出每个蛋白的长度大约为150个氨基酸——这也是Vogel计算的第一个基本假设。当时,克里克等人刚刚提出了密码子(codon)的规则(2),人们知道一个氨基酸由DNA上的三个碱基编码。综上,Vogel计算出编码一个人的蛋白大致需要450碱基。这一数目在今天看来,尽管是低估了,但也过得去。Vogel引用的斯韦德贝里法则的冠名者斯韦德贝里,是大名鼎鼎的胶体理论学家、1926年诺贝尔化学奖得主,大概该结果也代表了当时人类的最高认知水平吧。

如果到此为止,Vogel的这篇文章可以说是没有什么破绽的,但大概也不会入Nature挑剔的编辑和审稿人的法眼。为计算人类基因的总数,Vogel进一步作了下面两假设:一是编码每个基因的序列都是连续的,二是人类基因组从头至尾全都是编码蛋白的序列(也就是不存在所谓的非编码区)。于是,Vogel得出了人类基因组含有6.7x106个基因的结论。

人类一共有多少种基因,人类一共有多少种疾病(1)

这一在今天看起来有些滑稽的结果在当年确是合理且引人入胜的。要知道,Vogel做出得一结果的时候距离Sharp和Roberts发现内含子尚有13年之久,且人类对于基因组中非编码区更是一无所知。总之,这些因素,都严重影响了Vogel的计算,导致其极其严重高地估了基因数目。

人类基因组的注释着极为重要的意义,对包括外显子测序(更多内容请看外显子测序课程),GWAS,医学研究,进化及群体遗传分析等在内的领域都有重要价值。对人类基因组基因数目的估算也在接下来的几十年间令各国学者趋之若鹜。

1990年,来自美国国家健康中心(NIH)和美国能源部(DOE)的在人类基因组项目报告中进行了另一次计算,作者认为每个基因的长度大概是3万个碱基对,且认为非编码区的长度可以忽略。最终,作者们得到的结论是10万个基因。

人类一共有多少种基因,人类一共有多少种疾病(2)

后面,又有多篇paper对人类基因组的数目进行计算,结果大概是5万-10万个基因之间(3-5)。2000年6月,来自TIGR(The Institute for Genomic Research)的几位科学家通过对于EST序列的分析和新算法的设计,将这一数字提高到了12万(6)。殊不知,这也是人类对于自己基因数目的最后一次超过10万的估计。仅半年后,这篇文章的作者们就扇了自己的脸——但没删自己的论文——他们通过correction的形式修改了自己的结论,将预测结果缩小到56,960 ~ 81,273。

2001年,人类基因组测序——生物界的阿波罗登月计划——在激烈的竞争和全世界人民的关注下完成。之所以有竞争,是因为有两家团队独立地展开了对人类基因组的测序。一支是包括我国学者在内来自六个国家的国际合作项目,他们发表在Nature上的文章预测人类基因组含有3万~4万个基因(7)。另一边厢,特立独行的科学狂人克雷格·文特尔(J. Craig Ventor)由于所提出的鸟枪法(shotgun)思路不被国际合作组织采纳,干脆另立门户于1998年成立赛雷拉公司(Celera Genomics)枪挑六国联军,并迎头赶上(文章同时刊发在Science上),最后得到的人类基因组大小为26,588“高可信度”(笔者注)加~12000弱支持度(week supporting evidence)基因。这两个结果,无论哪一个,都让人类对自己基因数目有了重新认识:它远比人类早前的想象要小。

人类一共有多少种基因,人类一共有多少种疾病(3)

2004年,国际合作团队对人类基因组序列进行了一次重要更新,将自己之前的预测由3-4万缩小到2-2.5万(8)。人们惊讶地发现,自己的基因竟然少过当时刚刚完成测序的模式植物、拟南芥(Arabidopsis thaliana)——一种连运动功能都不具备的野草,也同分类学上被人类归为低等动物、大小仅1-2毫米的秀丽隐杆线虫(Caenorhabditis elegans)相差不多。生物学家曾经认为生物的复杂性和基因数目成正比,但在如山的铁证面前,自诩为万物灵长的人类要改变下自己的思维了。

后来的研究将人的基因数继续缩小。2009年,人类对于自己的认识达到了最为“谦卑”的状态(9)——Mammalian Gene Collection团队称人类基因组只有18877个基因(10)。不过好在到2017年底,NCBI的refseq数据库中的最新版本的人类基因组注释还是让人基因组的基因数目突破了20000大关(20,054个蛋白编码基因)。而在另一家常用的数据库Gencode里,注释了19817个基因(11)。

5月29日,享有Bowtie之父美誉的著名生物信息学家Steven Salzberg在bioRxiv生物学预印本服务器上发布了自己团队的最新成果:通过对9,795个RNA-seq实验结果的整合、分析,对人类基因组进行了重新的注释。这项成果实际上也是GTEx项目Genotype-Tissue Expression Project)的一个组成部分。

人类一共有多少种基因,人类一共有多少种疾病(4)

首页 123下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.