出品:科普中国
制作:夏至
监制:中国科学院计算机网络信息中心
自2019年12月开始,关于新型冠状病毒感染的肺炎疫情就牢牢占据了我们的视线,在一线奋战的医护人员、科研人员,受到疫情影响的同胞们,都触动着我们的神经。
知己知彼,百战不殆。为了对付新型冠状病毒,特别是寻找药物救治被感染的患者,当疫情出现后,我们急需了解它究竟是如何感染人的,特别是它究竟在攻击哪些细胞,才能有的放矢,寻找相关药物。
图片来源:Veer图库
可是,病毒一般只有10-300纳米,人体细胞也只有30-100微米,我们怎样看到在这么微观的世界里,病毒到底感染了人体哪些细胞?
科学的发展,离不开技术的推动生活在19世纪的科学家们,如果想要弄明白一个动物器官的功能,需要切掉这个器官。
到了20世纪,为了研究某个类型的细胞的群体功能, 科学家们可能要折腾上好几年去培育转基因动物。
21世纪的科学家并不满足于模式化的实验对象,而是将视野转向了更大量的数据和更精细的范围,大到生物的全基因组,小到单个细胞的功能。
这种巨大的变化,要得益于多项技术的发展,其中重要的一项就是单细胞基因活性分析技术。
单细胞基因活性分析,在新冠病毒感染研究中大展身手从2013年"单细胞mRNA测序"被评为《自然 • 方法》的年度技术以来,单细胞基因活性分析不断发展,让科学家们得以清楚地看到每个细胞作为一个个体和作为组织的一员所发挥的作用,极大程度地减少了繁杂的假设-求证的步骤,是如今生命科学发展的有力助推器。
近期,这一技术也为揭示新型冠状病毒感染人体的倾向性立下功劳。
早在一月中下旬,我国科学家就发现,和SARS冠状病毒一样,血管紧张素转化酶2(ACE2)也是新冠病毒感染人体细胞的窗口 。
消息一出,立刻有人想到,"寻找新冠病毒入侵人体的的突破口"这个难题有了解决办法!
首先,我们知道了血管紧张素转化酶2(ACE2)在新冠病毒感染中起到的关键作用,其次,我们还知道肺是一个非常复杂的器官,有许多种类型的细胞组成。现在,如果我们对肺部各种细胞中ACE2的表达量("表达"即为细胞制造某种蛋白质)做一个详细分析,就有可能找到容易被新冠病毒感染的细胞类型。
就这样,观察微观世界发生的微观事件的难题,被转化成了数据分析题。
不过,数据分析题的难度也不低,而且值得注意的是,这些科研人员们并没有做任何新实验,只是从已有的数据库当中,就找到了所需的样本。
那么在肺炎疫情爆发之前取得的样本,为什么可以作为我们研究新冠病毒感染的参考?这些数据是如何被取得和分析的?
要回答这些问题,都需要对单细胞基因活性分析有更深入的了解。
基因活性如何预测细胞的易感程度?这项研究的目的其实很简单:看看肺里那么多种类的细胞,哪些表达大量的ACE2,它们就一定是新冠病毒的主要攻击目标。
中学生物课上我们学过,一个细胞想要制造某种蛋白质,首先要将记载这种蛋白质编码信息的基因(DNA)转录成信使RNA(mRNA),然后核糖体会根据mRNA上的信息翻译成蛋白质。因此如果一个细胞中有某种蛋白的表达,我们可以推测其中一定有相应的mRNA;而且就不同细胞中的同种蛋白来说,多数情况下mRNA越多,意味着蛋白表达量也越高。
因此,寻找高表达ACE2的肺细胞,就可以简化为寻找ACE2 mRNA含量高的肺细胞。所以在这项研究中,"基因活性分析"实际上就是分析细胞为了制造蛋白而转录出来的mRNA,即为单细胞mRNA测序。
细胞中基因表达的过程(来自wikipedia)
如何取得所需要的数据?这项新冠病毒研究的数据,来源于2019年6月发表的另外一项关于肺细胞的研究中包含的8个健康人的样本。当时,研究者通过单细胞mRNA测序技术读取这些样本的数据之后,上传到公共数据库当中,与世界各地的科研人员共享。
当时具体的操作是这样的:从健康的肺中取一小块组织,通过处理使其分散成单个的细胞。单个细胞被裂解之后,其中的mRNA被第二代测序技术读出序列,我们将这些mRAN序列与人类的基因组一比较,就可以推测出每个细胞里哪些基因在转录mRNA、表达了怎样的蛋白,某个蛋白在哪些细胞之中表达量高。
最新的技术更是可以将每个细胞都打上不同的标签,这样可以同时测序多个细胞并得到每个细胞的单独数据,实验成本和效率得到极大改善。
单细胞RNA测序的流程(来自wikipedia,有改动)
得益于第二代测序技术,每个细胞中的所有基因表达数据都被读取并保存,甚至包括那些并不是实验设计者本意的数据,使得实验结束之后还能够源源不断地提供信息。有了这项技术和共享模式的数据库,科研人员就可以随时随地从前人的数据当中寻找自己想要的信息,而不必重复做实验,省时省力,高效经济。
在这项新冠病毒的研究中,科研人员发现,发现肺里面80%以上的ACE2分布在II型肺泡上皮细胞(AT2)表面,而且,男性样本比女性样本的ACE2表达量要高,与早期感染患者中男性多于女性的现象不谋而合。具体分析过程已经有专业解读(参考文献5),请有兴趣的读者自行挑战。当然单纯的数据分析只是一种推测,并不能百分之百保证就是实际情况,还需要实验和临床数据的验证。
基因活性分析的另一种方法除了单细胞mRNA测序,还有另外一种技术也称得上是基因活性分析,即为single-cell assay for transposase-accessible chromatin-seq (scATAC-seq, 单细胞ATAC测序)。transposase意为转座酶,可以将有特定序列的DNA插入到另外的双链DNA位点当中。这里有特定序列的DNA就是芭芭拉 • 麦克林托克 (Barbara McClintock) 在玉米中发现的那个转座子,也称跳跃基因。
我们知道,真核生物的基因组DNA非常长,在不复制、不表达的时候都会缠绕在核小体上紧密压缩起来,防止环境带来的损伤。当某个基因需要表达的时候,相应位置的DNA双链就会从核小体上解脱下来,形成一个松散的状态,方便细胞中跟转录有关的酶结合上去,从而开始基因的转录。所以我们可以说,在非分裂期的细胞中,凡是结构松散的基因都是正在表达的活跃基因。
ATAC测序就利用了这一点,将携带测序接头片段(sequencing adaptor,为特殊的小片段DNA)的转座酶送到细胞核里,转座酶会结合到结构松散的DNA上,将测序接头片段连入基因组DNA。通过扩增、测序这些DNA,我们就可以知道,有测序接头片段的位点就是当初基因组DNA松散的部分,也就是活跃的基因。单细胞ATAC测序就是在每个单独的细胞中进行上述过程,相关技术与单细胞mRNA测序也有相通之处。
△芭芭拉 • 麦克林托克(左)以及美国国家自然历史博物馆展出的她的显微镜和研究对象——玉米(右)(来自wikipedia)
在测序技术发展到单细胞水平之前,我们只能从很多个细胞中批量提取DNA或RNA然后进行测序,这样一来就只能取得所有细胞数据的平均值,而细胞之间一些微小的差异,或者数量较少的特殊细胞类型就被掩盖掉。
但是,这种细胞间的基因活性差异实际上是非常重要的,试想我们人体几十万亿的细胞全部都是由一颗受精卵发育而来,如果没有基因活性的变化,如何能够组成复杂的结构、实现多样的功能?
事实上,发育生物学也正是单细胞基因活性分析技术大展拳脚的领域,在动物胚胎从受精卵发育成个体的过程中,通过追踪每个细胞的基因活性变化,科学家们能够揭示单个基因在发育过程中的起到的作用,而这些知识将对再生医学做出卓越贡献。
除此之外,对于像肺一样由较多类型的细胞(即细胞异质性较高)组成的器官、组织和肿瘤,单细胞基因活性分析也可以对其进行详尽的研究,然后准确地找出某些数量极少但是极重要的细胞类型。
ATAC测序的应用(来自wikipedia,有改动)
写在最后自2002年末SARS病毒出现,到这次的2019-nCoV,时间已经过去了17年。这17年里,科学与技术在不断进步,我们也对生命有了更多的认识,但是,我们中的一部分人,对待生命和自然的观念却始终没有进步。希望我们在努力推动科学发展的同时,也能够铭记这些深刻而沉痛的教训,敬畏生命,尊重生命,与自然和谐共处。
参考文献:
1. http://engine.scichina.com/publisher/scp/journal/SCLS/doi/10.1007/s11427-020-1637-5?slug=fulltext
2. https://www.biorxiv.org/content/10.1101/2020.01.22.914952v2
3. https://www.biorxiv.org/content/10.1101/2020.01.26.919985v1
4. https://pubmed.ncbi.nlm.nih.gov/30554520-single-cell-transcriptomic-analysis-of-human-lung-provides-insights-into-the-pathobiology-of-pulmonary-fibrosis/
5. https://mp.weixin.qq.com/s/cUtmyK40Ju-17hkADGeTTw