我有以下数据集(.csv 格式),其中包含:
100 列:(以年为单位,例如 2017 年、2018 年、...、2028 年),,(例如 APAC、NEMEA 等),其他 97 列(例如,客户数量、生产的商品数量等)。
1,000,000 行
在哪里, 只有 2017 年是实际数据,而 2018, ..., 2028 年是,从某种意义上说,这些年的数据是公司期望在未来这些年承诺和接收的数据。
现在,我想预测每个的总销售额2018 年。
我尝试使用逐步回归,但逐步产生的线性模型对于大多数预测变量具有 NA 值,并且还有 t 检验产生的概率。
我咨询了一些在数据科学和分析领域工作的朋友,他们都告诉我,2018 年无法预测。
考虑到数据的状态,是否可以这样做?对此的一些见解将不胜感激!