如何为 R 中最近的观察分配更多权重?
我认为这是一个常见的问题或愿望,但我很难弄清楚如何实现这一点。我试图搜索很多,但我找不到一个很好的实际例子。
在我的示例中,随着时间的推移,我将拥有一个大型数据集。我想说的是对最近的数据行应用某种指数加权。所以我会有某种指数函数,说 2015 年的观察对于训练模型比 2012 年的观察更重要。
我的数据集变量包含分类值和数值的混合,我的目标是一个数值——如果这很重要的话。
我想使用诸如 GBM/随机森林之类的模型进行测试/尝试,最好是在 CARET 包中。
更新问题
我很欣赏下面给出的关于如何通过两点之间的日期距离以指数方式衰减权重的回应。
然而,当谈到用插入符号训练这个模型时,权重究竟是如何考虑的?每个训练行中的权重值是未来某个点与该点历史上发生时间之间的距离。
权重是否仅在预测期间起作用?因为如果它们在训练过程中发挥作用,那会不会导致各种问题,因为各种交叉折叠会具有不同的权重,试图预测在它之前的某个时间点可能实际存在的东西?