tpu生产工艺和技术手册,TPU的生产工艺

首页 > 大全 > 作者:YD1662023-09-03 04:32:21

随着人工智能成为IT领域最新、最前沿、最尖端的阵地,AI芯片的竞争已成为IT领域最激励的竞争,象5G竞争一样,这个当前IT领域最尖端的技术高地,已成为中美竞争的主战场,美国虽然有先发优势,但中国企业后来居上,取得了非常大的进展,但随着中美贸易、技术战全面开打,高端芯片技术封锁,这两年我国AI芯片进展受到了一些影响,追赶势头受到很大影响,我相信随着我国高端芯片技术突,AI芯片这个竞争高地会很快夺回来,特综合近期的学习与研究,分析一下全球AI芯片竞争格局,研究了各家AI芯片所长,希望能给需要的技术同行提供一些有用信息。

tpu生产工艺和技术手册,TPU的生产工艺(1)

AI芯片

一、什么是AI芯片

不是行业内的人员估计对AI芯片这个名称还是比较陌生的,什么是AI芯片就不得不说到CPU和GPU,这两个大家都比较熟悉。CPU是计算机的中央处理器,是冯诺依曼计算机结构中数据和逻辑处理的核心,按控制逻辑处理数据。随着图像处理需要增加,后来发展出GPU,即图像处理器,用于专门对矩阵形状的图像进行处理与并行计算,由于GPU的浮点计算能力特别强,后于广泛用于区块链货币挖矿,让GPU生产厂英伟达异军突起。

2012年之后,人工智能快速崛起,大家人工智能需要对张量(Tensor)进行大规模数据计算,这时又进一步加快了GPU服务器的需求,导致一块性能稍微好一点的GPU卡就要几万,并且GPU服务器功耗特别高,还此发展出了计算机的水冷和液冷技术。

2015年谷歌为了加快进行人工智能训练,研发了TPU即张量处理单元,这是世界上第一个人工智能专用处理芯片,张量计算性能号称是CPU的30倍,GPU的10倍,并且在AlphoGo的训练上,一时声名大噪。

后来,英特尔、IBM、英伟达、华为、阿里都推出了自己的张量处理芯片,但都不想用谷歌使用的TPU这个专用名称,都叫人工智能芯片(AI芯片)。当然,人工智能芯片除了刚开始对人工智能模型进行训练,后来还增加了推理计算,从而衍生为数据中心用的AI芯片和前端边缘使用的AI芯片两种。

神经网络在数据和参数之间需要执行大量的乘法和加法。我们通常会将这些乘法与加法组合为矩阵运算,这在我们大学的线性代数中会提到。所以关键点是我们该如何快速执行大型矩阵运算,同时还需要更小的能耗。

1、CPU张量计算工作方式

CPU 最大的优势是灵活性。通过冯诺依曼架构,可以为数百万的不同应用加载任何软件,我们可以使用 CPU 处理文字、企业信息管理、控制火箭引擎、执行银行交易或者使用神经网络分类图像。但是,由于 CPU 非常灵活,硬件无法一直了解下一个计算是什么,直到它读取了软件的下一个指令。CPU 必须在内部将每次计算的结果保存到内存中(也被称为寄存器或 L1 缓存)。内存访问成为 CPU 架构的不足,被称为冯诺依曼瓶颈。虽然神经网络的大规模运算中的每一步都是完全可预测的,每一个 CPU 的算术逻辑单元(ALU,控制乘法器和加法器的组件)都只能一个接一个地执行它们,每一次都需要访问内存,限制了总体吞吐量,并需要大量的能耗。

tpu生产工艺和技术手册,TPU的生产工艺(2)

CPU计算张量方法

2、GPU张量计算工作方式

为了获得比 CPU 更高的吞吐量,GPU 使用一种简单的策略:在单个处理器中使用成千上万个 算述逻辑单元(ALU)。现代 GPU 通常在单个处理器中拥有 2500-5000 个 ALU,意味着你可以同时执行数千次乘法和加法运算。

这种 GPU 架构在大量并行化的应用中工作得很好,在神经网络中的训练与推理中,其实计算最大的就是矩阵的乘法。实际上,GPU 在深度学习的典型训练工作负载中能实现比CPU高几个数量级的吞吐量。这正是为什么 GPU 是深度学习中最受欢迎的处理器架构。

但是,GPU 仍然是一种通用的处理器,必须支持几百万种不同的应用和软件。这又把我们带回到了基础的问题,冯诺依曼瓶颈。在每次几千个 ALU 的计算中,GPU 都需要访问寄存器或共享内存来读取和保存中间计算结果。因为 GPU 在其 ALU 上执行更多的并行计算,它也会成比例地耗费更多的能量来访问内存,同时也因为复杂的线路而增加 GPU 的物理空间占用。

tpu生产工艺和技术手册,TPU的生产工艺(3)

GPU计算张量方法

3、TPU张量计算方法

区别于GPU,谷歌TPU是一种ASIC芯片方案。ASIC全称为Application-Specific Integrated Circuit(应用型专用集成电路),是一种专为某种特定应用需求而定制的芯片。但一般来说,ASIC芯片的开发不仅需要花费数年的时间,且研发成本也极高。

当谷歌设计 TPU 的时候,我们构建了一种领域特定的架构。这意味着,我们没有设计一种通用的处理器,而是专用于神经网络工作负载的矩阵处理器。TPU 不能运行文本处理软件、控制火箭引擎或执行银行业务,但它们可以为神经网络处理大量的乘法和加法运算,同时 TPU 的速度非常快、能耗非常小且物理空间占用也更小。

其主要是对冯诺依曼瓶颈的大幅度简化。因为该处理器的主要任务是矩阵处理,TPU 的硬件设计者知道该运算过程的每个步骤。因此他们放置了成千上万的乘法器和加法器并将它们直接连接起来,以构建那些运算符的物理矩阵。这被称作脉动阵列(Systolic Array)架构。在 Cloud TPU v2 的例子中,有两个 128X128 的脉动阵列,在单个处理器中集成了 32768 个 ALU 的 16 位浮点值。

tpu生产工艺和技术手册,TPU的生产工艺(4)

首页 1234下一页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.