利用橡树岭国家实验室的 Frontier 超级计算机该团队在一篇新论文中描述了他们的方法,但也讨论了他们在此过程中面临的一些挑战。
Frontier 超级计算机是世界领先的超级计算机,也是截至 2024 年 1 月唯一运行的百亿亿次计算机。该超级计算机采用 AMD 第三代 EPYC Trento CPU 和 Instinct MI250X GPU 加速器从头开始设计。它安装在美国田纳西州橡树岭国家实验室 (ORNL),由能源部 (DOE) 运营。目前,它使用 8,699,904 个内核实现了 1.194 exaflops/秒。HPE Cray EX 架构将 HPC 和 AI 优化的第三代 AMD EPYC CPU 与 AMD Instinct 250X 加速器和 Slingshot-11 互连相结合。Frontier在Top500.org超级计算机排行榜上保持第一名,彰显了其优越性。
Frontier 取得的新记录是法学硕士培训和实施有效策略以最有效地利用机载硬件的结果。该团队在广泛测试了 220 亿、1750 亿和 1 万亿个参数后取得了显着的结果。然而,该团队报告仅使用 3,072 个 GPU 来训练一个具有 1 万亿个参数的 LLM,并使用 1,024 个 GPU 来训练另一个具有 1,750 亿个参数的 LLM。尽管MI250X是相对老式的硬件,但它还是展示了它的功能。
更有趣的是,Frontier的整个超级计算机配备了37,000个MI250X GPU,所以你可以想象使用整个GPU池运行LLM的性能。AMD 还在具有强大 ROCm 6.0 生态系统的全新超级计算机中实施 MI300 GPU 加速器,以进一步加速 AI 性能。
对于 220 亿、1750 亿和 1 万亿个参数,我们的 GPU 吞吐量分别达到了 38.38%、36.14% 和 31.96%。训练1750亿参数模型和1万亿参数模型分别在1024和3072 MI250X GPU上实现了100%的弱缩放效率。我们还为这两个模型实现了 89% 和 87% 的强大扩展效率。
该论文指出,训练如此大型的 LLM 的一个关键挑战是所需的内存量,该内存量至少为 14 TB。这需要使用多个 MI250X GPU,每个 GPU 具有 64GB VRAM,这引入了一个新问题:并行性。将更多 GPU 放入 LLM 需要越来越好的沟通,才能真正有效地使用更多资源。否则,大部分或全部额外的 GPU 马力将被浪费。
他们迭代了 Megatron-DeepSpeed 和 FSDP 等框架,并修改了训练程序,以便在 Frontier 上运行得更优化。这意味着随着工作负载规模的增长,需要尽可能高效地使用更多 GPU。
另一方面,1750亿参数LLM的强扩展效率略低,为89%,1万亿参数LLM为87%。强扩展是指在不改变工作负载大小的情况下增加处理器数量,根据阿姆达尔定律,随着核心数量的增加,效用往往会下降。
不过,研究团队指出,要在 Frontier 上实现这种效率还存在一些挑战,并表示,“需要更多的研究来探索 AMD GPU 上的高效训练性能,而 ROCm 平台却很少。” 正如论文所指出的,大多数这种规模的机器学习都是在 NVIDIA 的 CUDA 硬件和软件生态系统内完成的,AMD 和英特尔的解决方案还远远不够发达,两家公司都需要赶上 NVIDIA 的软件解决方案。当然,这些努力将促进这些生态系统的发展。
Frontier 目前使用的硬件对于业界来说并不陌生。随着生成式人工智能领域的不断进步,很明显,未来市场将需要更多的计算能力,这就是为什么为该领域设计的硬件进步对于下一代进步至关重要。