机器算法验证 - 基线模型应该有多简单？ - 吾爱随笔录

基线模型应该有多简单？

机器算法验证机器学习模型选择超参数基线

2022-03-27 00:59:04

我正在制作基线模型，想知道我应该花多少时间在上面。例如，我发现了很多关于基线模型目的的文章；

基线只需要 10% 的时间来开发，但会让我们获得 90% 的方法来获得相当好的结果。

但是我该如何正确选择一个呢？

我是在多种算法/模型中进行选择吗？
我想调整我的简单模型还是保留它的默认值？

4个回答

主要是如何做到这一点是经验的问题。这还将告诉您什么样的模型是此类基线的良好候选者。例如，在时间序列预测中，最简单的模型是时间序列的历史平均值和最后的观测值，但它们实际上很难被击败。请注意，两种模型都需要精确调零！

另一种方法是选择至少可以输出一些“合理”数字的最简单模型。对于时间序列预测，最简单的模型将是始终输出零的模型，但这并不“合理”。因此，下一个最简单的将是上述两个之一，任何一个都是一个好的开始。

最后，您还可以从对整个开发工作进行时间限制开始，然后分配前 5-10%（或任何合理的数字——我会使用接近 5% 甚至 2% 的东西，而不是 10%）建立这个简单的基准。这允许进行一些调整，但可以防止您过度设计旨在仅作为简单基准的东西。

如果该技术的最佳实践应用需要它，您应该调整模型。基线需要得到有效实施才能有意义。

超参数调整可以产生非常显着的差异，有时是最先进的方法和非竞争方法之间的差异，参见例如

Anthony Bagnall、Gavin C Cawley “关于在分类算法的经验评估中使用默认参数设置” arxiv

只需选择一个您认为不会被有经验的从业者（或审阅者 3 ;o）视为稻草人的算法，然后熟练地应用它。请记住，如果您提出的方法明显更好，那么您的基线系统越好，结果就越引人注目。

警告讲师，加文考利是我的另一个自我。

有多种类型的基线模型：

您可以与自己进行比较的第一次尝试，看看您是否在做任何有意义的事情。例如，一个超级简单的逻辑回归线性模型，或者甚至只是像预测上个月的平均销售额一样简单的东西，作为第二天的销售额。如果你没有超过或什至比这样的基线做得更差，那就有问题了（要么你把事情搞砸了，要么可能没有有用的信息来做出预测）。这主要是一种健全性检查，以保护自己免于浪费大量精力而没有实现任何有用的东西。
与 1 非常相似，但使用了许多人认为是基本默认选择的选项（例如，LightGBM 使用表格数据的交叉验证调整参数，现代卷积神经网络经过适当的图像增强训练以进行图像分类等），无需额外花哨的附加组件（例如，没有来自不同模型类的模型的模型堆叠）。有经验的人可以在短短 1 天或最多一周内完成类似的工作（假设这是一个相对标准的用例，具体取决于确切的细节以及数据/数据加载仍需要优化的程度ETC。）。
您希望击败（或至少接近）的比较基线，以证明新方法是有用的。这通常是当前的最佳选择（例如，当前在行业示例中使用的系统）/最先进的技术（用于学术出版目的）。

我同意（+1）Stephan Kolassa 和 Dikran Marsupial 的回答，但让我加两分钱。

您还需要考虑的是您的目标模型是什么。例如，对于分类任务，逻辑回归可能是一个很好的基准，但如果您的实际模型是逻辑回归，您显然会选择比这更简单的东西。通常的选择是一个已知可以解决此类问题的简单模型，例如 Stephan Kolassa 提到的时间序列的幼稚预测，或 NLP 任务的 LSTM 模型。如果您正在构建一个新颖的最先进模型，您将与其他最先进的模型进行基准测试。另一方面，将一个简单的基准作为健全性检查（预测均值、中位数、最常见值、最后一个值等）总是有用的，因为您的简单基准本身总是存在不好的风险。

其它你可能感兴趣的问题

上一篇滞后于分组时间序列下一篇95% t 分布 CI 没有获得 95% 的覆盖率