基线模型应该有多简单?

机器算法验证 机器学习 模型选择 超参数 基线
2022-03-27 00:59:04

我正在制作基线模型,想知道我应该花多少时间在上面。例如,我发现了很多关于基线模型目的的文章;

基线只需要 10% 的时间来开发,但会让我们获得 90% 的方法来获得相当好的结果。

但是我该如何正确选择一个呢?

  1. 我是在多种算法/模型中进行选择吗?
  2. 我想调整我的简单模型还是保留它的默认值?
4个回答

主要是如何做到这一点是经验的问题。这还将告诉您什么的模型是此类基线的良好候选者。例如,在时间序列预测中,最简单的模型是时间序列的历史平均值和最后的观测值,但它们实际上很难被击败。请注意,两种模型都需要精确调零!

另一种方法是选择至少可以输出一些“合理”数字的最简单模型。对于时间序列预测,最简单的模型将是始终输出零的模型,但这并不“合理”。因此,下一个最简单的将是上述两个之一,任何一个都是一个好的开始。

最后,您还可以从对整个开发工作进行时间限制开始,然后分配前 5-10%(或任何合理的数字——我会使用接近 5% 甚至 2% 的东西,而不是 10%)建立这个简单的基准。这允许进行一些调整,但可以防止您过度设计旨在仅作为简单基准的东西。

如果该技术的最佳实践应用需要它,您应该调整模型。基线需要得到有效实施才能有意义。

超参数调整可以产生非常显着的差异,有时是最先进的方法和非竞争方法之间的差异,参见例如

Anthony Bagnall、Gavin C Cawley “关于在分类算法的经验评估中使用默认参数设置” arxiv

只需选择一个您认为不会被有经验的从业者(或审阅者 3 ;o)视为稻草人的算法,然后熟练地应用它。请记住,如果您提出的方法明显更好,那么您的基线系统越好,结果就越引人注目。

警告讲师,加文考利是我的另一个自我。

有多种类型的基线模型:

  1. 您可以与自己进行比较的第一次尝试,看看您是否在做任何有意义的事情。例如,一个超级简单的逻辑回归线性模型,或者甚至只是像预测上个月的平均销售额一样简单的东西,作为第二天的销售额。如果你没有超过或什至比这样的基线做得更差,那就有问题了(要么你把事情搞砸了,要么可能没有有用的信息来做出预测)。这主要是一种健全性检查,以保护自己免于浪费大量精力而没有实现任何有用的东西。
  2. 与 1 非常相似,但使用了许多人认为是基本默认选择的选项(例如,LightGBM 使用表格数据的交叉验证调整参数,现代卷积神经网络经过适当的图像增强训练以进行图像分类等),无需额外花哨的附加组件(例如,没有来自不同模型类的模型的模型堆叠)。有经验的人可以在短短 1 天或最多一周内完成类似的工作(假设这是一个相对标准的用例,具体取决于确切的细节以及数据/数据加载仍需要优化的程度ETC。)。
  3. 您希望击败(或至少接近)的比较基线,以证明新方法是有用的。这通常是当前的最佳选择(例如,当前在行业示例中使用的系统)/最先进的技术(用于学术出版目的)。

我同意(+1)Stephan Kolassa 和 Dikran Marsupial 的回答,但让我加两分钱。

您还需要考虑的是您的目标模型是什么。例如,对于分类任务,逻辑回归可能是一个很好的基准,但如果您的实际模型是逻辑回归,您显然会选择比这更简单的东西。通常的选择是一个已知可以解决此类问题的简单模型,例如 Stephan Kolassa 提到的时间序列的幼稚预测,或 NLP 任务的 LSTM 模型。如果您正在构建一个新颖的最先进模型,您将与其他最先进的模型进行基准测试。另一方面,将一个简单的基准作为健全性检查(预测均值、中位数、最常见值、最后一个值等)总是有用的,因为您的简单基准本身总是存在不好的风险。