使用机器学习模型一般步骤,机器学习训练好的模型怎么用

首页 > 经验 > 作者：YD1662022-10-30 05:52:38

所以，如果工厂容量扩展的速度高于我们提供给它原材料的速度，它就很难达到一个顶峰效率。

使用机器学习模型一般步骤,机器学习训练好的模型怎么用(5)

即使我们工厂容量（FLOP）翻倍，但带宽跟不上，我们的性能也不能翻倍。

关于 FLOPS 还有一点要说，越来越多的机器学习加速器都有专门针对矩阵乘法的硬件配置，例如英伟达的「Tensor Cores」。

使用机器学习模型一般步骤,机器学习训练好的模型怎么用(6)

所以，你要是不做矩阵乘法的话，你只能达到 19.5 万亿次运算，而不是 312 万亿次。注意，并不是只有 GPU 这么特殊，事实上 TPU 是比 GPU 更加专门化的计算模块。

除了矩阵乘法以外，GPU 处理其他运算时都比较慢，这一现象乍看上去似乎有问题：比如像是层归一化或者激活函数的其它算子怎么办呢？事实上，这些算子在 FLOPS 上仅仅像是矩阵乘法的舍入误差一样。例如，看看下表对于 BERT 中的不同算子类型占用的 FLOP 数，其中的「Tensor Contraction」就是指矩阵乘法。

使用机器学习模型一般步骤,机器学习训练好的模型怎么用(7)

可以看到，非矩阵乘法运算仅仅占所有运算的 0.2%，所以即使它们的速度仅为矩阵乘法的 1/15 也没什么问题。

事实上，归一化运算和逐点（pointwise）运算使用的 FLOPS 仅为矩阵乘法的 1/250 和 1/700。那为什么非矩阵乘法运算会远比它们应该使用的运行时间更多呢？

回到前文「工厂」的类比，罪魁祸首经常还是如何将原始材料运到以及运出工厂，换句话说，也就是「内存带宽」。

带宽

带宽消耗本质上是把数据从一个地方运送到另一个地方的花费，这可能是指把数据从 CPU 移动到 GPU，从一个节点移动到另一个节点，甚至从 CUDA 的全局内存移动到 CUDA 的共享内存。最后一个是本文讨论的重点，我们一般称其为「带宽消耗」或者「内存带宽消耗」。前两者一般叫「数据运输消耗」或者「网络消耗」，不在本文叙述范围之内。

还是回到「工厂」的类比。虽然我们在工厂中从事实际的工作，但它并不适合大规模的存储。我们要保证它的存储是足够高效的，并且能够很快去使用（SRAM），而不是以量取胜。

那么我们在哪里存储实际的结果和「原材料」呢？一般我们要有一个仓库，那儿的地足够便宜，并且有大量的空间（DRAM）。之后我们就可以在它和工厂之间运送东西了（内存带宽）。

使用机器学习模型一般步骤,机器学习训练好的模型怎么用(8)

上一页 123 4 下一页

栏目热文

机器学习建模基础知识（机器学习软件建模）
阅读全文>>2022-10-30 05:32:38
机器学习建模方法（适合新手的建模软件）
阅读全文>>2022-10-30 05:49:27
三种机器学习模型（最新机器学习模型）
阅读全文>>2022-10-30 05:16:01
机器学习模型训练步骤（机器学习训练步骤）
阅读全文>>2022-10-30 05:25:41
机器学习建模的工具包（机器学习可视化建模）
阅读全文>>2022-10-30 05:27:59
机器学习的模型如何落地（一份机器学习模型再训练终极指南）
阅读全文>>2022-10-30 05:55:56
机器学习模型步骤（机器学习模型的搭建）
阅读全文>>2022-10-30 05:29:32
机器学习建模流程（机器学习模型训练全流程）
阅读全文>>2022-10-30 05:35:32
机器学习算法建模过程视频（机器学习预测算法）
阅读全文>>2022-10-30 05:21:56
机器学习模型怎么软件化（机器学习训练好的模型怎么上线）
阅读全文>>2022-10-30 05:56:48

文档排行

本站推荐

汽车英里表和公里表怎么换算（怎么看车能跑多少公里）
阅读全文>>2022-11-07 11:51:21
沙发发质还能从源头上改变吗（怎么彻底改善沙发发质）
阅读全文>>2022-10-31 23:48:04
绕杆运球要领（绕杆运球手腕怎么用力）
阅读全文>>2023-06-25 05:09:47
鸟叫口技奥秘（口技学鸟叫的方法）
阅读全文>>2022-11-18 09:24:23
铁道游击队全集顺序播放（播放铁道游击队第三部全集）
阅读全文>>2023-05-11 10:59:19
猎人四阶段毕业装备（猎人t2.5毕业装备）
阅读全文>>2023-05-24 05:48:17

Copyright © 2018 - 2021 www.yd166.com., All Rights Reserved.