这四个硷基,两两成对,A-T是一对,C-G是一对,这硷基对不同的排列组合就决定了生物的物质遗传特性,比如高矮胖瘦,以及非物质遗传特性,比如性格、智力等。
生物的每一条染色体上,都有一条长长的、缠绕在组蛋白上的DNA分子。这个DNA分子呈螺旋双链结构,别看它蜷缩在大约6微米的细胞核中好像很小,如果将其拉直的等方面,能有2米那么长。
如果我们用ATCG四个字母来表示DNA双链结构,它像不像早期在计算机编程中用的打孔纸带呢?打孔带上打孔的地方代表1,而没有打孔的地方代表0。
我们人类的计算机采用的是二进制编码,是因为二进制编码中仅有0和1两个数码,很容易进行数据运算和处理;0和1两个数码,可代表逻辑代数的“真”和“假”,采用二进制,可很方便地以逻辑代数为工具进行电路设计,使计算机具有逻辑性。
所以说无论程序员使用什么编程语言,C 也好,Java也罢,最终都要转换成0、1组成的机器语言。我们现在用到的各种技术,比如3D打印、人工智能、增强现实、虚拟现实等等技术,甚至包括你正在看的这个视频,说到底都是由一连串01组成的计算机指令实现的。
按照柯林斯博士的说法,将计算机编程思想带入到DNA世界,我们可以说DNA采用的是“四进制编码”,就是ATCG这四个码,这种“四进制编码”包含的信息量,要远远超出“二进制编码”。
举个例子来说,如果同样是20个编码,如果采用“二进制”,可实现的不同组合数是2的20次方,就是一百零四万八千五百七十六(1,048,576)。而采用“四进制”的话,可以获得的组合数为4的20次方,也就是一万零九百九十五亿、一千一百六十二万、七千七百七十六(1,099,511,627,776),这个数字好长呀。那么这两者之间,相差了100万倍。
那么人类DNA包含的信息量有多少呢?这里来给大家算一下。
之前给大家介绍了啊,人体细胞中有23对染色体,一共有60亿个DNA编码。人类基因组计划得出的一个重要结论是:男人和女人的常染色体高度一致,没有区别。那么我们可以说,人类DNA遗传信息至少由30亿个四进制码构成。
换句话说,人类的一个小小的细胞中,能包含的信息量是4的30亿次方。如此小的空间,存储如此大的信息,这简直就是我们人类、目前的计算机存储系统的终极梦想。而这30亿个DNA编码中的某一个,或者某几个编码的组合,就能操控人体实现各种复杂的功能。