我是使用实际数据还是数据差异来训练机器学习模型?

数据挖掘 机器学习 机器学习模型
2022-03-04 03:36:05

我想预测明天的温度:-)。

但我不确定最好的方法。我是简单地删除过去 x 天的数据,还是尝试删除过去 x 天的数据?

最近三天可能看起来像:21.3C、22C、21.9C

差异是以前的,0.7C,-0.1C

你需要超过 3 天,我只是设置一个数据示例。我想我还需要在其他变量中插入季节来完成实验。但我只是在这里问温度。

有没有人检查过这个?虽然温度可以是 -20 到 40 摄氏度,但小数点 (1, 0.x) 构成了很多数字!但不同的是,范围可能是 -5C 到 +5C,也有小数 (1, 0.x),但它击败了其他范围,使范围更小,因此 ML 更容易预测?

如果差异是最好的,我是否也应该做百分比差异,因为我会考虑到不同的气候有不同的波动?

1个回答

我会使用绝对温度。知道它是 37.2C,我更有可能说温度会从上下文中降低。如果仅使用差异,则此上下文将丢失。

但就像大多数数据科学问题一样,证据就在布丁中。两者都试一下,看看哪种最适合你。您甚至可以尝试同时使用绝对值和差异作为两个特征列。