如何解释引导程序?

机器算法验证 回归 spss 引导程序
2022-03-19 10:26:16

在统计数据方面,我是一个真正的新手,所以请不要评判我和我的问题;)

我正在使用 SPSS 进行线性回归分析,由于我的数据既不呈正态分布也不显示同方差性,因此我决定使用自举。

现在,当谈到输出的解释时,我真的很困惑。SPSS 为我提供了“正常”模型摘要和系数以及引导摘要和引导系数。我现在只解释引导部分吗?或者例如 F 值是否仍然相关,这意味着如果 F 不重要,即使它很重要,我也无法解释引导区间?

3个回答

bootstrap 背后的直观想法是:如果您的原始数据集是从全部人口中随机抽取的,那么如果您从样本中抽取子样本(有替换),那么这也代表从全部人口中抽取。然后,您可以在所有这些自举数据集上估计您的模型。这为您提供了大量的估计值,因此您可以例如查看估计值的标准偏差 - 事实证明,这通常可以很好地猜测估计值的标准误差。实际上,如果您从真实人口中获取许多数据集,则可以将估计的标准误差完全视为这样。

例如,假设您的数据集中有一个异常值:然后在您的许多自举数据集中不包括观察结果,因此对于这些数据集,您会看到估计的系数发生了很大变化。

同样,您可以查看每个引导数据集的 F 统计量。例如,您可以查看模型被拒绝的次数。但我对 SPSS 不够熟悉,不知道它报告的 F 统计量:它是平均 F 统计量吗?

正如@Superpronker 提到的,这实际上取决于SPSS 对引导程序所做的工作。包括您的代码和输出将有很大帮助。引导程序也是一个拥有大量文献的主题。您只需查看我在 Wiley 出版的 2007 年版 Bootstrap Methods 中的参考书目就可以看到这一点。所以我认为你真的还需要至少一个关于引导程序的基本教程。有时去维基百科有助于解决这类问题。

在回归中,有多种方法可以处理异方差和非正态性等问题。如果您所指的 F 检验是从 OLS 解决方案到线性回归,其中正态性和同方差性被忽略并且非显着性意味着 F 检验不能告诉您任何回归系数都不同于 0,它可能是你应该忽略它并应用不同的方法。

引导程序可以是解决问题的一种方法。在回归中有两种常见的引导方法。一种称为自举残差,另一种称为自举向量您应该想知道使用的是哪一个 SPSS。有一些文献说自举向量在需要较少假设的意义上更稳健。向量是观察值的集合(Y,X1,X2,,Xk)在哪里Y是因变量,而Xjk模型中的预测变量。根据您的问题描述,我们不知道是否k1或者>1. 对于每个j有关联Xj回归参数bj这是估计的。

举残差法采用n残差,其中n是您的样本量,它会从这组残差中进行替换。在计算机程序中,这是通过蒙特卡洛方法完成的。

模型是Y=b1X1+b2X2++bkXk+e 在哪里e是一个错误术语。您最初通过获取 n 个残差yib^1x1ib^2x2ib^kxki成为i残差。这里b^j表示回归参数的估计bj. 我们使用符号yixji代表i因变量的观察值和i的观察值jth 预测变量。

由于这变得复杂,我建议您查看关于引导残差的参考Efron 和 Tibshirani 的 1993 Chapman 和 Hall 文本是一种可能性。最终结果是每个回归参数的引导分布,并且可以使用几个可能的引导置信区间之一。 Efron 的百分位数法是最有可能的。如果置信区间不包含 0,则回归参数被认为是显着的。

作为快速总结,帮助中对 SPSS Statistics 中的一般引导程序进行了如此描述。

Simple方法是用原始数据集替换的情况下重新采样分层方法是在由分层变量的交叉分类定义的分层内对原始数据集进行替换的案例重采样

一些程序有其他选项。

在线提供的算法手册涵盖了折刀、案例、分层、残差和野重采样的详细信息。

至于用户的原始问题,问题是“我的数据既不呈正态分布也不显示同方差性”,这可能反映了对回归中正态性假设含义的误解。这是关于误差项,而不是方程中的变量。

还有一个问题要问迈克尔:你的引导书籍在亚马逊上的 Kindle 价格从 107 美元到 237 美元不等!为什么?我很想读其中一本,但代价是惊人的。不幸的是,我没有一个好的图书馆作为购买的替代品。