我有一个 data.table 基础,其中包含许多变量,可用于预测未来 6 周每日销售额的销售额。事实上,所有的数据库都是按日期排列的,你可以在这里看到。注意,这里我只是向你展示了一些变量。
> Data_train[order(Date)]
Store DayOfWeek Date Sales Customers Open Promo StateHoliday SchoolHoliday
1: 1 2 2013-01-01 0 0 0 0 a 1
2: 2 2 2013-01-01 0 0 0 0 a 1
3: 3 2 2013-01-01 0 0 0 0 a 1
4: 4 2 2013-01-01 0 0 0 0 a 1
5: 5 2 2013-01-01 0 0 0 0 a 1
---
1017205: 1111 5 2015-07-31 5723 422 1 1 0 1
1017206: 1112 5 2015-07-31 9626 767 1 1 0 1
1017207: 1113 5 2015-07-31 7289 720 1 1 0 1
1017208: 1114 5 2015-07-31 27508 3745 1 1 0 1
1017209: 1115 5 2015-07-31 8680 538 1 1 0 1 .
我的问题是关于根据目标目标排列数据的问题。我的问题实际上是关于Date变量。事实上,我建议这条路:
- 我按每个日期汇总所有销售额(因为我有很多类型的商店)。
- 我根据 Date 的升序排列我的数据库。
- 我不需要日期变量中的重复行,所以我删除了它们。
只是为了向您展示考虑变量的新基础。
> Data_train[,SumSaleseachDay:=sum(Sales),by=c('Date')][order(Date)][!duplicated(Date)][,-c('Sales','Customers'),with=FALSE]
Store DayOfWeek Date Open Promo StateHoliday SchoolHoliday SumSaleseachDay
1: 1 2 2013-01-01 0 0 a 1 97235
2: 1 3 2013-01-02 1 0 0 1 6949829
3: 1 4 2013-01-03 1 0 0 1 6347820
4: 1 5 2013-01-04 1 0 0 1 6638954
5: 1 6 2013-01-05 1 0 0 1 5951593
---
938: 1 1 2015-07-27 1 1 0 1 10707292
939: 1 2 2015-07-28 1 1 0 1 9115073
940: 1 3 2015-07-29 1 1 0 1 8499962
941: 1 4 2015-07-30 1 1 0 1 8798854
942: 1 5 2015-07-31 1 1 0 1 10109742
附加信息:
我有一个1017209行数据库。2013-01-01对于每家商店,我都有其在和之间的历史销售额2015-07-31。而且我还包含17 个变量来构建模型。
上述步骤只会导致按天进行预测。
如果我想预测每个 Store和按天,我应该怎么做?
先感谢您!