图灵机的纸带和控制
为了简单起见,图灵使用的符号也是二进制的0和1。图灵机的构想,奠定了电子计算机的理论基础,也证明了二进制正好也是最适合计算机系统的。
二进制码流
并且,二进制也是最简单有效的机器语言,可以用电路的通断,高电平和低电平等状态非常方便地表示0和1,因此二进制成为了行业的标准。
2019年7月15日,英国央行英格兰银行宣布,图灵将成为英国50英镑新钞人物,以表彰其对今天人们生活方式产生的巨大影响。这一殊荣堪比英国女王。
图灵荣登50英镑纸币
三、比特的力量在多位科学巨人的努力下,这些由0101组成的二进制符号串也就理所当然地成为了信息传输,处理以及存储的最小计量单位,其中每一位就是一个比特(bit),简写为小写的b。
实际使用中比特这个单位还是太小了,因此,以2的10次方 (也就是1024)为步长,又定义了以下的一些单位:
Kbit—千比特,也就是1024bit
Mbit—兆比特,也就是1024Kbit
Gbit—吉比特,也就是1024Mbit
……
后面还有更大的单位,每一级乘以1024就可以了。但我们的生活中最常用的就是上述的这些,而且常人也已经无法直观地感受到这些单位能大到什么让人吃惊的程度。
我们经常挂在嘴边的一些话,比如5G的小区峰值速率可达20Gbps,这里面的Gbps就是Gbit每秒,含义也相当直观:每秒可以传输20Gbit的信息数据!
在信息储存和处理时,业界一般都是以8位为一组进行存储或者处理,这就叫做8位组,或者字节。字节的英文名为Byte,一般简写作大写的B。
和比特类似,实际使用中字节这个单位也太小,因此,也以2的10次方 (也就是1024)为步长,又定义了以下的一些单位:
KB—千字节,也就是1024B
MB—兆字节,也就是1024KB
GB—吉字节,也就是1024MB
TB—太字节,也就是1024GB
PB—皮字节,也就是1024TB
EB—艾字节,也就是1024PB
ZB—泽字节,也就是1024EB
YB—尧字节,也就是1024ZB
下面我们来看看,一些我们常见的事物,到底含有多少信息,占用多少数据量。
1、文字
众所周知,英文字母有26个,理论上5比特就可以全部表示。且慢,我们刚才说的是小写字母,那大写字母,阿拉伯数字,标点符号怎么办?正好,一个字节有8个比特,含有256种组合,也就可以表示所有的英文大小写,数字,标点和控制字符了!
这就是著名的ASCII码表,如下图所示:
ASCII码表
中文的情况要比上面的英文复杂一些。因为中文并不是基于字母的拼音文字,而是由大量各不相同的字组成。
康熙字典共收录汉字47035个,实际汉字总体数量达到了惊人的近10万个!这种情况下,用8个比特来编码汉字显然是远远不够的。
实际使用中,常用汉字在UTF-8编码下,一个汉字占用3个字节(Byte),也就是用24比特来表示。不常用汉字甚至占到了4个字节。