含光800
后续,在含光的技术手册上也找到含光800的一些参数,Int 8计算能力是825TOPS,简单推算,Float16的计算能力应该在410TFLOPS左右,与4块芯片的TPU V3相当,的确比华为昇腾要快,但功耗为276W,远比谷歌的TPU V3低,也比华为的昇腾低一些。
含光800性能的突破得益于软硬件的协同创新:硬件层面采用自研芯片架构,通过推理加速等技术有效解决芯片性能瓶颈问题;软件层面集成了达摩院先进算法,针对CNN及视觉类算法深度优化计算、存储密度,可实现大网络模型在一颗NPU上完成计算。
7、寒武纪思元290
2021年1月,我国另一个芯片公司寒武纪推出思元290人工智能芯片,思元290智能芯片是寒武纪的首颗训练芯片,采用台积电7nm先进制程工艺,集成460亿个晶体管,支持MLUv02扩展架构,全面支持AI训练、推理或混合型人工智能计算加速任务。
思元290
从公开的参数来看,在 350W 的最大散热功耗下提供 AI 算力高达 512 TOPS(INT8),与昇腾的640,含光的825比较,还是有一些差距,但也算不错了,这样中国在高端数据中心AI芯片上也有3席之地,可以与美国相抗衡了。
三、综合对比分析上面对几款主要的数据中心AI芯片进行了介绍,由于各家公布的数据不全,都突出自己的特点,比较难以一致比较,为了对比,对数据进行了一定的加工和综合推算,不一定很准确、分析厂商也不一定全,但为了研究与对比,也勉为其难,综合推理计算后列表如下:
型号 | 公司 | 发行 年份 | 单芯片参数 | 单卡 | ||
工艺 | Int 8 | FP 16 | 功耗TDP | |||
TPU V1 | 2015 | 28 | 92 | 23 | 861W | |
TPU V2 | 2017 | 28 | 45 | 1000W以上 | ||
TPU V3 | 2018 | 20 | 90 | 1000W以上 | ||
Nervana NPP-I | Intel | 2019 | 16 | 240 | 120 | 250W |
昇腾910 | 华为 | 2019 | 7 | 640 | 320 | 310W |
含光800 | 阿里 | 2019 | 12 | 825 | 276W | |
NVIDIA A100(80G) | 英伟达 | 2020 | 7 | 1248 | 624 | 400W |
TPU V4 | 2021 | 12 | 180 | 1000以上 | ||
IBM AI | IBM | 2021 | 7 | 20.8 | 50W | |
思元290 | 寒武纪 | 2021 | 7 | 512 | 350W |
从上面表格来看,数据中心单芯片计算能力应该是英伟达的A100 80G显存版本,FP16计算性能624TFLOPS,但在A100的数据中看到光显存增加一倍,它的计算能力就会提升一倍,有点玄乎,但是公开正式数据应该没问题。
从单卡性能来看,应该是谷歌的TPU 4性能最好,差不多能达到1000TFLOPS,但功耗惊人。
从推理来看,数据公布了的应该是阿里的含光800,其它我查到的数据不多,没有更深入的研究分析。
对于大规模的人工智能计算、模型训练来说,光是计算速度快没有用,还需要从算法优化,大规模AI服务器形成整体进行计算,这方面来说还应该是谷歌的TPU Pods厚厉害,TPU V4 Pods一个标准单元就碾压了当今全球最快的超算,毕竟谷歌是当今人工智能领域的领导者与开创者。
同时,人工智能芯片发展是动态的,各家发展都非常快,今年领先并不意味总明年能继续领先,由于华为面临美国全面打压与技术封锁,这两年无法继续在AI芯片发力,只能在开发平台上努力,芯片上与谷歌、英特达会有更大的差距,需要我国芯片制造突破美国技术封锁后,才可能有更大作为。
此外,AI芯片除高端的数据中心一侧,还有更广阔应用的边缘侧,将在另外的文章进行详细分析与介绍,欢迎大家关注了解。
#人工智能# #AI芯片#