如何使用 Orange 3 正确预测日期

数据挖掘 预言 橙色3
2022-02-01 14:36:07

首先 - 我对这一切都很陌生。

我正在尝试创建一个模型来预测基于前几年的 ios 12 的发布。我有一个格式如下的excel: ios version | release name | date

每个版本包含大约 5 个测试版 + 普通版本。我已经像这样设置了导入: 文件导入

其次,我设置了这样的流程: 流程图

第一步选择具有 [date] 参数的所有行 - 那些进入kNNLinear Regression,其他所有内容(1 行带有 ios 12 发布日期)进入预测,然后进入表格。

酷,现在根据建模我得到不同的结果(如预期的那样)。它是 2015-09-17 (kNN) 或 2018-09-10 (LR)。我使用了测试和分数,它给了我:

测试和评分结果

如果我没看错 - 线性回归更准确(R2 列),这意味着 iOS 12 将于 2018 年 9 月 10 日发布(废话!不是 2015 年)。

但如果我查看到目前为止的发布日期,这可能是错误的,因为没有其他版本这么快发生:

iOS 发布日期

所以我也做了一个练习,我调整了日期,所以它们都在 2018 年(这样一年就不那么重要了,考虑到这些特征,我会更关心每年的关系) - 这里是预测的结果:

结果

以及偏移量的测试和评分: 在此处输入图像描述

现在...我欢迎所有评论。 我是否使用了错误的模型?kNN & LR 以外的东西?我应该使用偏移量吗?我是否完全错误地使用了该工具?

1个回答

所以你有两个自变量。iOS 版本和发布名称,实际上是一个类型。两者都是分类的,只有一个具有任何预测能力,因为您尝试预测的 iOS 版本不会出现在您的训练集中。因此,有效地,您仅基于发布类型进行预测,并且只有“发布”类别实际上是有意义的,因为这是您试图预测的内容。

我几乎想不出一个模型可以在如此有限的信息下运行良好。无论如何,回归模型总会给你一些答案,即使你的输入不正确。

我想更好的功能是:

  • 一个月的一天
  • 自上次发布以来的天数
  • 自上次发布以来的几个月
  • 自上次发布以来的年数
  • 自测试版以来的天数
  • 自测试版以来的几个月
  • 自测试版以来的几年

这种思维方式。然后只需查看数据,您就会清楚地看到 iOS 的产品发布总是在每年的 9 月中旬发生。不需要模型来弄清楚:) 任何方法都足够了,尤其是 kNN 或最小二乘法。