CPU 的运行永无休止,它不断从存储器获取并执行指令。这个周期的核心是PC 寄存器,PC (program counter)是“程序计数器”的简称。PC 是一种特殊的寄存器,用于保存下一条待执行指令的存储地址。CPU 的工作流程如下:
(1) 从PC 指定的存储地址获取指令;
(2) PC 自增;
(3) 执行指令;
(4) 返回步骤1。
PC 在CPU 上电时复位为默认值,它是计算机中第一条待执行指令的地址。这条指令通常是一种不可变的内置程序,用于加载计算机的基本功能。
在许多个人计算机中,这种程序称为BIOS(基本输入输出系统)。
CPU 上电后将继续执行这种“获取- 执行”周期直至关机。然而,如果CPU 只能遵循有序、顺序的操作列表,那么它与一个花哨的计算器并无二致。CPU 的神奇之处在于可以指示它向PC 中写入新值,从而实现执行过程的分支,或“跳转”到存储器的其他位置。这种分支可以是有条件的。以下面这条CPU 指令为例:“如果寄存器1 等于0,将PC设置为地址200”。该指令相当于:
if x = 0
compute_this()
else
compute_that()
仅此而已。无论是打开网站、玩计算机游戏抑或编辑电子表格,所涉及的计算并无区别,都是一系列只能对存储器中的数据求和、比较或移动的简单操作。
大量简单的操作组合在一起,就能表达复杂的过程。以经典的《太空侵略者》游戏为例,其代码包括大约3000 条机器指令。
CPU 时钟 早在20 世纪80 年代,《太空侵略者》就已风靡一时。这个游戏在配备2 MHz CPU 的街机上运行。“2 MHz”表示CPU 的时钟,即CPU 每秒可以执行的基本操作数。时钟频率为200 万赫兹(2 MHz)的CPU 每秒大约可以执行200 万次基本操作。完成一条机器指令需要5到10 次基本操作,因此老式街机每秒能运行数十万条机器指令。
随着现代科技的进步,普通的台式计算机与智能手机通常配备2 GHzCPU,每秒可以执行数亿条机器指令。时至今日,多核CPU 已投入大规模应用,如四核2 GHz CPU 每秒能执行近10 亿条机器指令。展望未来,CPU 配备的核心数量或许会越来越多。
CPU 体系结构 读者是否思考过,PlayStation 的游戏CD 为何无法在台式计算机中运行? iPhone 应用为何无法在Mac 中运行?原因很简单,因为它们的CPU 体系结构不同。
x86 体系结构如今已成为行业标准,因此相同的代码可以在大部分个人计算机中执行。但考虑到节电的要求,手机采用的CPU 体系结构有所不同。不同的CPU 体系结构意味着不同的CPU 指令集,也意味着将指令编码为数字的方式各不相同。台式计算机CPU 的指令并非手机CPU的有效指令,反之亦然。
32 位与64 位体系结构 第一种CPU 是Intel 4004,它采用4 位体系架构。换言之,这种CPU 在一条机器指令中可以对最多4 位二进制数执行求和、比较与移动操作。Intel 4004 的数据总线与地址总线均只有4 条。
不久之后,8 位CPU 开始广为流行,这种CPU 用于运行DOS 的早期个人计算机。20 世纪八九十年代,著名的便携式游戏机Game Boy 就采用8 位处理器。这种CPU 可以在一条指令中对8 位二进制数进行操作。
技术的快速发展使16 位以及之后的32 位体系结构成为主导。CPU 寄存器随之增大,以容纳32 位数字。更大的寄存器自然催生出更大的数据总线与地址总线:具有32 条信号线的地址总线可以对232 字节(4 GB)的内存进行寻址。
人们对计算能力的渴求从未停止。计算机程序越来越复杂,消耗的内存越来越多,4 GB 内存已无法满足需要。使用适合32 位寄存器的数字地址对超过4 GB 内存进行寻址颇为棘手,这成为64 位体系结构兴起的动因,这种体系结构如今占据主导地位。64 位CPU 可以在一条指令中对极大的数字进行操作,而64 位寄存器将地址存储在海量的存储空间中:264 字节相当于超过170 亿吉字节(GB)。
大端序与小端序 一些计算机设计师认为,应按从左至右的顺序在RAM 与CPU 中存储数字,这种模式称为小端序。另一些计算机设计师则倾向于按从右至左的顺序在存储器中写入数据,这种模式称为大端序。因此,根据“字节序”的不同,二进制序列1-0-0-0-0-0-1-1 表示的数字也有所不同。
◎ 大端序:27 21 20 = 131
◎ 小端序:20 26 27 = 193
目前的大部分CPU 采用小端序模式,但同样存在许多采用大端序模式的计算机。如果大端序CPU 需要解释由小端序CPU 产生的数据,则必须采取措施以免出现字节序不匹配。程序员直接对二进制数进行操作,在解析来自网络交换机的数据时尤其需要注意这个问题。虽然目前多数计算机采用小端序模式,但由于大部分早期的网络路由器使用大端序CPU,所以因特网流量仍然以大端序为基础进行标准化。以小端序模式读取大端序数据时将出现乱码,反之亦然。
模拟器 某些情况下,需要在计算机上运行某些为不同CPU 设计的代码,以便在没有iPhone 的情况下测试iPhone 应用,或玩脍炙人口的老式超级任天堂游戏。这是通过称为模拟器的软件来实现的。
模拟器用于模仿目标机器,它假定与其拥有相同的CPU、RAM 以及其他硬件。模拟器程序对指令进行解码,并在模拟机器中执行。可以想见,如果两台机器的体系结构不同,那么在一台机器内部模拟另一台机器绝非易事。好在现代计算机的速度远远超过之前的机器,因此模拟并非无法实现。我们可以利用Game Boy 模拟器在计算机中创建一个虚拟的Game Boy,然后就能像使用实际的Game Boy 那样玩游戏。
编译器通过对计算机进行编程,可以完成核磁共振成像、声音识别、行星探索以及其他许多复杂的任务。值得注意的是,计算机执行的所有操作最终都要通过简单的CPU 指令完成,即归结为对数字的求和与比较。而Web 浏览器等复杂的计算机程序需要数百万乃至数十亿条这样的机器指令。
但我们很少会直接使用CPU 指令来编写程序,也无法采用这种方式开发一个逼真的三维计算机游戏。为了以一种更“自然”且更紧凑的方式表达命令,人们创造了编程语言。我们使用这些语言编写代码,然后通过一种称为编译器的程序将命令转换为CPU 可以执行的机器指令。
我们用一个简单的数学类比来解释编译器的用途。假设我们向某人提问,要求他计算5 的阶乘。
5! = ?
但如果回答者不了解什么是阶乘,则这样提问并无意义。我们必须采用更简单的操作来重新表述问题。
5×4×3×2×1 = ?
不过,如果回答者只会做加法怎么办?我们必须进一步简化问题的表述。
5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 5 = ?
可以看到,表达计算的形式越简单,所需的操作数量越多。计算机代码同样如此。编译器将编程语言中的复杂指令转换为等效的CPU 指令。结合功能强大的外部库,就能通过相对较少的几行代码表示包含数十亿条CPU 指令的复杂程序,而这些代码易于理解和修改。
计算机之父艾伦• 图灵发现,简单的机器有能力计算任何可计算的事物。如果机器具有通用的计算能力,那么它必须能遵循包含指令的程序,以便:
◎ 对存储器中的数据进行读写;
◎ 执行条件分支:如果存储地址具有给定的值,则跳转到程序的另一个点。
我们称具有这种通用计算能力的机器是图灵完备的。无论计算的复杂性或难度如何,都可以采用简单的读取/ 写入/ 分支指令来表达。只要分配足够的时间与存储空间,这些指令就能计算任何事物。
人们最近发现,一种称为MOV(数据传送)的CPU 指令是图灵完备的。这意味着仅能执行MOV 指令的CPU 与完整的CPU 在功能上并无不同:换言之,通过MOV 指令可以严格地表达任何类型的代码。
这个重要概念在于,无论简单与否,如果程序能采用编程语言进行编码,就可以重写后在任何图灵完备的机器中运行。编译器是一种神奇的程序,能自动将代码从复杂的语言转换为简单的语言。
操作系统
从本质上讲,编译后的计算机程序是CPU 指令的序列。如前所述,为台式计算机编译的代码无法在智能手机中运行,因为二者采用不同的CPU体系结构。不过,由于程序必须与计算机的操作系统通信才能运行,编译后的程序也可能无法在共享相同CPU 架构的两台计算机中使用。
为实现与外界的通信,程序必须进行输入与输出操作,如打开文件、在屏幕上显示消息、打开网络连接等。但不同的计算机采用不同的硬件,因此程序不可能直接支持所有不同类型的屏幕、声卡或网卡。
这就是程序依赖于操作系统执行的原因所在。借助操作系统的帮助,程序可以毫不费力地使用不同的硬件。程序创建特殊的系统调用,请求操作系统执行所需的输入/ 输出操作。编译器负责将输入/ 输出命令转换为合适的系统调用。
然而,不同的操作系统往往使用互不兼容的系统调用。例如,与macOS或Linux 相比,Windows 在屏幕上打印信息所用的系统调用有所不同。
因此,在使用x86 处理器的Windows 中编译的程序,无法在使用x86处理器的Mac 中运行。除针对特定的CPU 体系结构外,编译后的代码还会针对特定的操作系统。
编译优化
优秀的编译器致力于优化它们生成的机器码。如果编译器认为可以通过修改部分代码来提高执行效率,则会处理。在生成二进制输出之前,编译器可能尝试应用数百条优化规则。
因此,应使代码易于阅读以利于进行微优化。编译器最终将完成所有细微的优化。例如,一些人对以下代码颇有微词。
function factorial(n)
if n > 1
return factorial(n - 1) * n
else
return 1
他们认为应该进行以下修改:
function factorial(n)
result ← 1
while n > 1
result ← result * n
n ← n - 1
return result
诚然,在不使用递归的情况下执行factorial 函数将消耗较少的计算资源,但仍然没有理由因此而改变代码。现代编译器将自动重写简单的递归函数,举例如下。
i ← x y 1
j ← x y
为避免进行两次x y 计算,编译器将上述代码重写为:
t1 ← x y
i ← t1 1
j ← t1
应专注于编写清晰且自解释的代码。如果性能出现问题,可以利用分析工具寻找代码中的瓶颈,并尝试改用更好的方法计算存在问题的代码。此外,避免在不必要的微操作上浪费太多时间。
但在某些情况下,我们希望跳过编译,接下来将对此进行讨论。
脚本语言
某些语言在执行时并未被直接编译为机器码,这些语言称为脚本语言,包括JavaScript、Python 以及Ruby。在脚本语言中,代码由解释器而非CPU 执行,解释器必须安装在运行代码的机器中。
解释器实时转译并执行代码,因此其运行速度通常比编译后的代码慢得多。但另一方面,程序员随时都能立即运行代码而无须等待编译过程。
对于规模极大的项目,编译可能耗时数小时之久。
Google 工程师必须不断编译大量代码,导致程序员“损失”了很多时间(图7-9)。由于需要保证编译后的二进制文件有更好的性能,Google 无法切换到脚本语言。公司为此开发了Go 语言,它的编译速度极快,同时仍然保持很高的性能。
反汇编与逆向工程
给定一个已编译的计算机程序,无法在编译之前恢复其源代码。但我们可以对二进制程序解码,将用于编码CPU 指令的数字转换为人类可读的指令序列。这个过程称为反汇编。
接下来,可以查看这些CPU 指令,并尝试分析它们的用途,这就是所谓的逆向工程。某些反汇编程序对这一过程大有裨益,它们能自动检测并注释系统调用与常用函数。借由反汇编工具,黑客对二进制代码的各个环节了如指掌。我相信,许多顶尖的IT 公司都设有秘密的逆向工程实验室,以便研究竞争对手的软件。
地下黑客经常分析Windows、Photoshop、《侠盗猎车手》等授权程序中的二进制代码,以确定哪部分代码负责验证软件许可证。黑客将二进制代码修改,在其中加入一条指令,直接跳转到验证许可证后执行的代码部分。运行修改后的二进制代码时,它在检查许可证前获取注入的JUMP 命令,从而可以在没有付费的情况下运行非法的盗版副本。
在秘密的政府情报机构中,同样设有供安全研究人员与工程师研究iOS、Windows、IE 浏览器等流行消费者软件的实验室。他们寻找这些程序中可能存在的安全漏洞,以防御网络攻击或对高价值目标的入侵。在这类攻击中,最知名的当属“震网”病毒,它是美国与以色列情报机构研制的一种网络武器。通过感染控制地下聚变反应堆的计算机,“震网”延缓了伊朗核计划。
开源软件
如前所述,我们可以根据二进制可执行文件分析有关程序的原始指令,但无法恢复用于生成二进制文件的原始源代码。
在没有原始源代码的情况下,即使可以稍许修改二进制文件以便以较小的方式破解,实际上也无法对程序进行任何重大更改(如添加新功能)。一些人推崇协作构建代码的方式,因此将自己的源代码开放供他人修改。“开源”的主要概念就在于此:所有人都能自由使用与修改的软件。基于Linux 的操作系统(如Ubuntu、Fedora 与Debian)是开源的,而Windows 与macOS 是闭源的。
开源操作系统的一个有趣之处在于,任何人都可以检查源代码以寻找安全漏洞。现已证实,政府机构通过日常消费者软件中未修补的安全漏洞,对数百万平民进行利用和监视。
但对开源软件而言,代码受到的关注度更高,因此恶意的第三方与政府机构很难植入监控后门程序。使用macOS 或Windows 时,用户必须相信Apple 或Microsoft 对自己的安全不会构成危害,并尽最大努力防止任何严重的安全漏洞。而开源系统置于公众的监督之下,因此安全漏洞被忽视的可能性大为降低。
存储器层次结构我们知道,计算机的操作可以归结为使CPU 执行简单的指令,这些指令只能对存储在CPU 寄存器中的数据操作。但寄存器的存储空间通常被限制在1000 字节以内,这意味着CPU 寄存器与RAM 之间必须不断进行数据传输。
如果存储器访问速度过慢,CPU 将被迫处于空闲状态,以等待RAM 完成数据传输。CPU 读写存储器中数据所需的时间与计算机性能直接相关。提高存储器速度有助于加快计算机运行,也可以提高CPU 访问数据的速度。CPU 能以近乎实时的速度(一个周期以内)访问存储在寄存器中的数据,但访问RAM 则慢得多。
对于时钟频率为1 GHz 的CPU,一个周期的持续时间约为十亿分之一秒,这是光线从本书进入读者眼中所需的时间。
处理器与存储器之间的鸿沟
近年来的技术发展使得CPU 速度成倍增长。虽然存储器速度同样有所提高,但却慢得多。CPU 与RAM 之间的这种性能差距称为“处理器与存储器之间的鸿沟”。我们可以执行大量CPU 指令,因此它们很“廉价”;而从RAM 获取数据所需的时间较长,因此它们很“昂贵”。随着两者之间的差距逐渐增大,提高存储器访问效率的重要性越发明显。