也许这个问题取决于给定的数据,但有没有比其他方法“更好”的引导方法?我只是使用一个变量数据集(由过去 15 周内足球比分(2 支球队)之间的差异组成)..
首先注意这些数据的正确偏差,我觉得这将考虑到我会推荐哪种引导程序“更好”或最准确地表示数据。
首先是标准引导间隔
N <- 10^4
n <- length(Differences)
Differences.mean <- numeric(N)
for(i in 1:N)
{
x <- sample(Differences, n, replace = TRUE)
Differences.mean[i]<- mean(x)
}
lower = mean(Differences.mean)-1.96*sd(Differences.mean) #Lower CI
upper = mean(Differences.mean)+1.96*sd(Differences.mean) #Upper CI
= (8.875, 10.916)
mean(Differences.mean)-m #The bias is fairly small also
= -.0019
这是一个引导百分位区间
quantile(Differences.mean,c(.025,.975)
= (8.893, 10.938)
最后是 Bootstrap T 区间
Tstar = numeric(N)
for(i in 1:N)
{
y =sample(Differences, size = n, replace = TRUE)
Tstar[i] = (mean(y)-m) / (sd(y)/sqrt(n))
}
q1 = quantile(Tstar,.025) #empirical quantiles for bootstrap t (lower)
q2 = quantile(Tstar,.975) #empirical quantiles for bootstrap t (upper)
mean(Differences)-(q2*sd(Differences/sqrt(n)))
mean(Differences)-(q1*sd(Differences/sqrt(n)))
= (8.925, 10.997)
此外,即使 t 置信区间似乎也相当准确
t.test(Differences, conf.level = .95, alternative = "two.sided")
= (8.867, 10.928)
我的结论是选择 bootstrap t 区间,因为它反映了数据的正确偏斜,它比其他任何一个都向右延伸得更远。我的样本量是 224。我认为样本量在我的结论中起着重要作用,但我最初的问题是“有没有比其他方法更好的引导方法?”.. 也许它确实取决于数据和样本量。希望这不是太宽泛。