我正在做一个项目,我对统计完全陌生。我有过去两年的每周销售数据,以及其他变量,如温度、假期 (TRUE/FALSE),其中假期是名义变量。我必须对接下来的 52 周进行预测。我有以下问题:
- 我可以使用销售依赖的时间序列回归模型,而温度和
假期将是自变量吗? - 如何确定哪个自变量对销售额的影响更大?
- 我们可以使用名义变量进行预测吗?虚拟编码会起作用吗?
- 我们可以在 R/SPSS 中做到这一点吗?
我将不胜感激任何帮助。提前致谢。
我正在做一个项目,我对统计完全陌生。我有过去两年的每周销售数据,以及其他变量,如温度、假期 (TRUE/FALSE),其中假期是名义变量。我必须对接下来的 52 周进行预测。我有以下问题:
我将不胜感激任何帮助。提前致谢。
关于问题(1)、(3)和(4);是的,建模多元时间序列有很多选择,这绝对是你可以用 R 完成的。你说你对统计没有太多经验,所以我不确定你对 R 有多熟悉(如果有的话),但一种可能的方法是使用 R 包“dynlm”:
## You'll need these packages
install.packages("dynlm",dependencies=TRUE)
library(dynlm)
if(is.element("zoo",installed.packages()[,1])){
library(zoo)
} else {
install.packages("zoo",dependencies=TRUE)
library(zoo)
}
## Generating some nonsense data for demonstration
## 104 dates, 1 week apart
d1 <- as.Date("01/01/2012",format='%m/%d/%Y')
dSeq <- seq.Date(from=d1,
by='week',
length.out=104)
## Dependent variable
Y <- rnorm(104,50,10) + rnorm(104,10,1)*cos((1:104)/6)
## Independent variable for temperature
Temp <- rnorm(104,10,1) + cos((1:104)/12)
## Dummy variable for holidays (just picked a few off the calendar)
Holiday <- rep(0,104)
Holiday[c(3,3+52, 8,8+52, 22,22+52, 47,47+52, 52,52+52)] <- 1
Holiday <- ifelse(Holiday==0,"N","Y")
## Make a data.frame to hold variables
aDF <- data.frame(
Date=dSeq,
Y=Y,
Temp=Temp,
Holiday=Holiday)
## Make a time series version of this with the "zoo" function
## for using dynamic linear model.
zDF <- aDF
zDF[,2] <- zoo(aDF[,2],aDF[,1])
zDF[,3] <- zoo(aDF[,3],aDF[,1])
zDF[,4] <- zoo(aDF[,4],aDF[,1])
## A possible DLM... type ?dynlm for details of the function
dlm1 <- dynlm(Y ~ L(Y,1) + L(Y,13) + Temp + Holiday, data=zDF)
## Model summary
summary(dlm1)
## Estimated coefficients:
coefficients(dlm1)
就像我说的,这只是在 R 中分析多元时间序列的众多可能性之一;但老实说,如果您“完全不熟悉统计学”并且没有与具有 DLM 或类似模型经验的人一起从事这个特定项目,我强烈建议您阅读Rob Hyndman 和 George Athanasopoulos 的《预测:原则和实践》。这是一本由两位知识渊博的计量经济学家撰写的免费在线书籍,其中大量内容面向在统计/预测方法方面很少或没有正式背景的人。这是一个链接:https ://www.otexts.org/fpp 。在相关说明中,如果您要定期使用 R 中的时间序列数据,我建议安装 Hyndman 的 R 包预测,这非常有用。此外,关于确定哪些自变量对销售影响更大的第二个问题不是可以简洁回答的问题。典型的建模过程涉及与诊断检查和拟合优度评估相关的许多步骤,完成此类任务的工具可能因您使用的统计模型类型而有很大差异。不幸的是,如果您是统计学的新手,您几乎肯定需要投入大量时间来了解建模的一些重要技术方面,因为有很多例如,比两个变量的相关性要考虑的更多。这是我推荐阅读 Hyndman 和 Athanasopoulos 的在线书籍的另一个原因,因为它涉及预测过程中涉及的各种基本方面。