Btw:Salzberg,这位来自约翰霍普金斯大学的科学家是开放科学(open science)的忠实拥趸,近期就有大量manuscript投放到bioRxiv上,这一点在生信人早前的文章里也有报道(水熊虫基因组乌龙事件的意义)。
作者采用的分析方法如下图所示,其中用到的好几个软件都打着“Made in Salzberg Lab”的标签。
作者首先对收集得到的近10000个RNA-seq样本进行转录组组装,得到了30,467,424个转录本(transcript)。作者用一些列条件定义了protein coding gene,包括TPM阈值,ORF长度、在其他生物种有无BLAST hit等。通过和目前人类基因组注释的比较,作者发现了1,178个新的蛋白基因。加上和Refseq有overlap的转录本,作者们最终得到21,232个编码蛋白质的基因。作者们接下来对refseq里面注释的15,779个长非编码RNA(lncRNA)进行了“质量检验”。作者进行了ORF预测,截取含有较长ORF的lncRNA基因,对它们在其他物种中进行BLAST搜索,如果达到一定标准(E-value of 10-15,75% length)则认为是潜在的protein coding gene。又经过其他一些检测之后,作者最终得到了21306个编码蛋白质的基因。
对没有比对到编码蛋白基因的转录本,作者把它们归为非编码RNA。作者找到了3,819个lncRNA 基因位点(gene locus)。其中,超过三分之一是反义(antisense)转录本,很多来自内含子。把这些lncRNA和之前发现的lncRNA加起来,作者最终得到18,484个lncRNA。再加上其他各种非编码RNA,最终非编码RNA的总数是21856。
作者还分析了可变剪切的情况。每个蛋白基因平均含12.5个isoform,而lncRNA只有2.6个。
借助来自不同组织器官的丰富的RNA-seq样本,作者用DESeq2对基因的表达情况进行了分析。Breast成为protein-coding gene男女差异最大的器官。
而testis则拥有最多上调表达的编码蛋白的基因。
最后,需要说明的是,基因的定义是有争议的话题。人们起初认为能表达的就是基因,但后来的转录组学揭示了广泛的非编码区转录现象,而其中的很多转录本可能只是转录噪声(transcription noise)。这篇preprint里,作者们以转录证据为起点并试图去除这些噪声转录本,再结合进化证据,也就是说基因要在不同物种中有一定保守性,且在不通个体中都可以看到转录(作者称为reproductivity)。基于以上三点,作者在已有的基因组注释的基础上对人类基因组进行了新的注释。虽然关于人类到底有多少(编码蛋白)基因的争论可以说暂告段落,但科学家们还在对更多与此相关的问题进行着火热的研究。一方面,RNA科学家雄心勃勃地拓展着lncRNA的版图;而另一方面,对于已知基因功能的解读还有漫漫长路。
引文:
1.Mirsky AE, Ris H. The desoxyribonucleic acid content of animal cells and its evolutionary significance. J Gen Physiol. 1951;34(4):451-62.
2.Crick FH, Barnett L, Brenner S, Watts-Tobin RJ. General nature of the genetic code for proteins. Nature. 1961;192:1227-32.
3.Schuler GD, Boguski MS, Stewart EA, Stein LD, Gyapay G, Rice K, et al. A gene map of the human genome. Science. 1996;274(5287):540-6.
4.Antequera F, Bird A. Predicting the Total Number Of Human Genes. Nature Genet. 1994;8(2):114-.
5.Fields C, Adams MD, White O, Venter JC. How Many Genes In the Human Genome. Nature Genet. 1994;7(3):345-6.
6.Liang F, Holt I, Pertea G, Karamycheva S, Salzberg SL, Quackenbush J. Gene Index analysis of the human genome estimates approximately 120,000 genes. Nature Genet. 2000;25(2):239-40.
7.Lander ES, Linton LM, Birren B, Nusbaum C, Zody MC, Baldwin J, et al. Initial sequencing and analysis of the human genome. Nature. 2001;409(6822):860-921.
8.Consortium EP. The ENCODE (ENCyclopedia Of DNA Elements) Project. Science. 2004;306(5696):636-40.
9.Pertea M, Salzberg SL. Between a chicken and a grape: estimating the number of human genes. Genome Biol. 2010;11(5).
10.Team MGCP, Temple G, Gerhard DS, Rasooly R, Feingold EA, Good PJ, et al. The completion of the Mammalian Gene Collection (MGC). Genome Res. 2009;19(12):2324-33.
11.Pertea M, Shumate A, Pertea G, Varabyou A, Chang Y-C, Madugundu AK, et al. Thousands of large-scale RNA sequencing experiments yield a comprehensive new human gene list and reveal extensive transcriptional noise. bioRxiv. 2018.
更多套路,生信分析需求,请加*13895744602
欢迎关注生信人
TCGA | 小工具 | 数据库 |组装| 注释 | 基因家族 | Pvalue
基因预测 |bestorf | sci | NAR | 在线工具 | 生存分析 | 热图
生信不死 | 初学者 | circRNA | 一箭画心| 十二生肖 | circos
舞台|基因组 | 黄金测序 | 套路 | 杂谈组装 | 进化 | 测序简史