测量分类模型的性能以在不同快照上进行训练

数据挖掘 分类 机器学习模型 模型选择 表现 验证
2022-02-24 00:14:50

我正在尝试对一些按时间顺序排列的数据进行二进制分类。假设我们有从 2017 年第一周到 2020 年最后一周的每周数据。现在我们发现 26 周的训练数据可能足以在下周立即进行预测。所以如果我想对 2020 年第 32 周做预测,我的训练窗口是从 2020 年第 6 周到 2020 年第 31 周。

现在,我将在 2020 年的最后 16 周内为每个人训练一个模型。每次前 26 周构成训练数据。我有三个疑问:

  1. 在这种情况下如何报告整体模型的准确性?我在 16 个快照中获取平均模型性能,但不同快照的性能确实不同(其中一些具有 AUC 76,一些具有 58)。
  2. 我在不同的快照中保持相同的超参数集。所以从技术上讲,我可以说我使用的是相同的模型吗?
  3. 假设我的生产环境没有每周一次的模型再培训设施。现在如何处理这种情况?如何选择模型来预测即将到来的快照?
1个回答
  1. 平均性能是性能的一个很好的总结,但你也应该提到随时间的变化。例如,您可以计算快照之间的标准偏差。
  2. 我认为说它是相同的模型会令人困惑,通常相同的模型意味着单一的训练。相反,您应该解释使用完全相同的方法(包括相同的超参数)来训练每个快照模型。
  3. 这里的危险信号:如果生产环境不能使用相同的 ML 设计,那么这种设计毫无意义。要么生产环境可以改变,要么你需要一个完全不同的策略。