使用机器学习模型一般步骤（机器学习训练好的模型怎么用） - 原点资讯

选自horace博客

作者：Horace He

机器之心编译

编辑：Juniper

深度学习是门玄学？也不完全是。

每个人都想让模型训练得更快，但是你真的找对方法了吗？在康奈尔大学本科生、曾在 PyTorch 团队实习的 Horace He 看来，这个问题应该分几步解决：首先，你要知道为什么你的训练会慢，也就是说瓶颈在哪儿，其次才是寻找对应的解决办法。在没有了解基本原理（第一性原理）之前就胡乱尝试是一种浪费时间的行为。

在这篇文章中，Horace He 从三个角度分析可能存在的瓶颈：计算、内存带宽和额外开销，并提供了一些方式去判断当前处于哪一个瓶颈，有助于我们更加有针对性地加速系统。这篇文章得到了陈天奇等多位资深研究者、开发者的赞赏。

使用机器学习模型一般步骤,机器学习训练好的模型怎么用(1)

以下是原文内容：

怎样才能提高深度学习模型的性能？一般人都会选择网上博客中总结的一些随机技巧，比如「使用系统内置的运算算子，把梯度设置为 0，使用 PyTorch1.10.0 版本而不是 1.10.1 版本……」

在这一领域，当代（特别是深度学习）系统给人的感觉不像是科学，反而更像炼丹，因此不难理解用户为什么倾向于采用这种随机的方法。即便如此，这一领域也有些第一性原理可以遵循，我们可以据此排除大量方法，从而使得问题更加容易解决。

比如，如果你的训练损失远低于测试损失，那么你可能遇到了「过拟合」问题，而尝试着增加模型容量就是在浪费时间。再比如，如果你的训练损失和你的验证损失是一致的，那对模型正则化就显得不明智了。

类似地，你也可以把高效深度学习的问题划分为以下三个不同的组成部分：

计算：GPU 计算实际浮点运算（FLOPS）所花费的时间；
内存：在 GPU 内传输张量所花费的时间；
额外开销：花在其它部分的时间。

在训练机器学习模型的时候，知道你遇到的是哪类问题非常关键，使模型高效的问题也是如此。例如，当模型花费大量时间进行内存到 GPU 的转移的时候（也就是内存带宽紧张的时候），增加 GPU 的 FLOPS 就不管用。另一方面，如果你正在运行大量的矩阵乘法运算（也就是计算紧张的时候），将你的程序重写成 C 去减轻额外开销就不会管用。

所以，如果你想让 GPU 丝滑运行，以上三个方面的讨论和研究就是必不可少的。

使用机器学习模型一般步骤,机器学习训练好的模型怎么用(2)