tpu生产工艺和技术手册,TPU的生产工艺

首页 > 大全 > 作者:YD1662023-09-03 04:32:21

含光800

后续,在含光的技术手册上也找到含光800的一些参数,Int 8计算能力是825TOPS,简单推算,Float16的计算能力应该在410TFLOPS左右,与4块芯片的TPU V3相当,的确比华为昇腾要快,但功耗为276W,远比谷歌的TPU V3低,也比华为的昇腾低一些。

含光800性能的突破得益于软硬件的协同创新:硬件层面采用自研芯片架构,通过推理加速等技术有效解决芯片性能瓶颈问题;软件层面集成了达摩院先进算法,针对CNN及视觉类算法深度优化计算、存储密度,可实现大网络模型在一颗NPU上完成计算。

7、寒武纪思元290

2021年1月,我国另一个芯片公司寒武纪推出思元290人工智能芯片,思元290智能芯片是寒武纪的首颗训练芯片,采用台积电7nm先进制程工艺,集成460亿个晶体管,支持MLUv02扩展架构,全面支持AI训练、推理或混合型人工智能计算加速任务。

tpu生产工艺和技术手册,TPU的生产工艺(13)

思元290

从公开的参数来看,在 350W 的最大散热功耗下提供 AI 算力高达 512 TOPS(INT8),与昇腾的640,含光的825比较,还是有一些差距,但也算不错了,这样中国在高端数据中心AI芯片上也有3席之地,可以与美国相抗衡了。

三、综合对比分析

上面对几款主要的数据中心AI芯片进行了介绍,由于各家公布的数据不全,都突出自己的特点,比较难以一致比较,为了对比,对数据进行了一定的加工和综合推算,不一定很准确、分析厂商也不一定全,但为了研究与对比,也勉为其难,综合推理计算后列表如下:

型号

公司

发行

年份

单芯片参数

单卡

工艺
(纳米)

Int 8
TOPS/s

FP 16
TOPS/s

功耗TDP

TPU V1

Google

2015

28

92

23

861W

TPU V2

Google

2017

28

45

1000W以上

TPU V3

Google

2018

20

90

1000W以上

Nervana NPP-I

Intel

2019

16

240

120

250W

昇腾910

华为

2019

7

640

320

310W

含光800

阿里

2019

12

825

276W

NVIDIA A100(80G)

英伟达

2020

7

1248

624

400W

TPU V4

Google

2021

12

180

1000以上

IBM AI

IBM

2021

7

20.8

50W

思元290

寒武纪

2021

7

512

350W

从上面表格来看,数据中心单芯片计算能力应该是英伟达的A100 80G显存版本,FP16计算性能624TFLOPS,但在A100的数据中看到光显存增加一倍,它的计算能力就会提升一倍,有点玄乎,但是公开正式数据应该没问题。

从单卡性能来看,应该是谷歌的TPU 4性能最好,差不多能达到1000TFLOPS,但功耗惊人。

从推理来看,数据公布了的应该是阿里的含光800,其它我查到的数据不多,没有更深入的研究分析。

对于大规模的人工智能计算、模型训练来说,光是计算速度快没有用,还需要从算法优化,大规模AI服务器形成整体进行计算,这方面来说还应该是谷歌的TPU Pods厚厉害,TPU V4 Pods一个标准单元就碾压了当今全球最快的超算,毕竟谷歌是当今人工智能领域的领导者与开创者。

同时,人工智能芯片发展是动态的,各家发展都非常快,今年领先并不意味总明年能继续领先,由于华为面临美国全面打压与技术封锁,这两年无法继续在AI芯片发力,只能在开发平台上努力,芯片上与谷歌、英特达会有更大的差距,需要我国芯片制造突破美国技术封锁后,才可能有更大作为。

此外,AI芯片除高端的数据中心一侧,还有更广阔应用的边缘侧,将在另外的文章进行详细分析与介绍,欢迎大家关注了解。

#人工智能# #AI芯片#

上一页1234末页

栏目热文

文档排行

本站推荐

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.