我正在用随机森林训练一个分类模型来区分 6 个类别。我的交易数据有大约 60k+ 观察和 35 个变量。这是它大致看起来的示例。
_________________________________________________
|user_id|acquisition_date|x_var_1|x_var_2| y_vay |
|-------|----------------|-------|-------|--------|
|111 | 2013-04-01 | 12 | US | group1 |
|222 | 2013-04-12 | 6 | PNG | group1 |
|333 | 2013-05-05 | 30 | DE | group2 |
|444 | 2013-05-10 | 78 | US | group3 |
|555 | 2013-06-15 | 15 | BR | group1 |
|666 | 2013-06-15 | 237 | FR | group6 |
创建模型后,我想对过去几周的观察结果进行评分。由于系统发生了变化,最近的观察将更接近我想要预测的当前观察的环境。因此,我想创建一个权重变量,以便随机森林更加重视最近的观察。
有谁知道 R 中的 randomForest 包是否能够处理每次观察的权重?
另外,您能否建议创建权重变量的好方法?例如,由于我的数据来自 2013 年,我想我可以将日期中的月份数作为权重。有人看到这种方法有问题吗?
提前谢谢了!