人为增加训练数据

数据挖掘 神经网络 r 预测建模 回归 随机森林
2021-09-17 17:24:59

我正在尝试根据商品的属性来预测销售数量。销售额按周汇总,并且预测也是按周进行的。与正销售相比,我有大量销售数量为零的记录(对于 20 个正销售 250那里有零销售记录)。我想通过向销售数量添加小值并结合总记录来增加我的训练数据。目前我正在使用 RANDOM FOREST 和 NEURAL NETWORK 。我没有得到任何好的结果如果有什么不重要的请纠正我

2个回答

我已经尝试过 SMOTE 用于分类响应变量场景,但从未尝试过连续响应变量,但我认为这不重要。您可以根据预测变量运行过采样或欠采样。如果您使用的是 R,则可以使用 DMwR 库并使用 SMOTE 函数。在 Python 中,你必须使用 imblearn.over_sampling.SMOTE

避免使用神经网络处理每周的销售数据。根本没有足够的数据点使其工作。

该技术适用于图像或视频数据(它可以识别数字或猫视频),但您需要大约 200,000 个数据点来训练您的网络。

想象一下每周获取 200,000 个数据点的成本和复杂性(即 3,000 到 4,000 年的收集时间)。