在进行结构方程建模时,是否在面对异常值和非正态性时保持数据不变?

机器算法验证 因子分析 异常值 正态假设 结构方程建模
2022-03-30 20:35:42

我最近收到了一位研究生的这封电子邮件,我经常收到类似的问题,我想我会把它贴在这里:

我正在使用因子分析、多元回归和 SEM,目前正在检查统计假设。我发现了许多单变量和多变量异常值。如果我将它们全部删除,这将意味着我的样本量中有很大一部分()。我也有非正态性、非线性、异方差(多元回归)和大标准化残差协方差(SEM)的问题。N350

我尝试减少异常值的影响(为它们分配一个比下一个最极端的非异常值大/小一个单位的值)和转换(大多数变量仍然偏斜,一些异常值仍然存在)。当我将原始结果与更改后的数据进行比较时,几乎没有效果。鉴于此,我想知道将数据保持原样是否可以接受?我倾向于,特别是因为这些数据来自非临床人群,并且我使用了临床措施。

2个回答

很大程度上取决于异常值在模型中的确切位置——在指标中?潜变量及其测量误差?在外生变量中,在因果链的顶端?在前一种情况下,您不能做太多事情,因为您确实拥有高杠杆影响的案例而不是异常值。要控制指标/响应变量中的异常值,您需要像Moustaki 和 Victoria-Feser (2006)那样在方程级别工作。使用稳健的协方差矩阵对其进行射击可能是正确的做法,也可能不是正确的做法。我在这里指的是巴黎圣母院的 Ke-Hai Yuan 和 Zhiyong Zhang 最近的工作,他们试图恢复应用于结构方程建模的稳健估计方法——例如,参见他们的 R 包rsem(这似乎依赖于将 EQS 作为估计引擎,考虑到 R 中的多种选择,这很奇怪)。在过去五年左右的时间里,他们一直在疯狂地发表这方面的文章;我已经为各种期刊审阅了至少三篇论文,坦率地说,我不知道该推荐哪一篇,因为它们都相互重复。我还没有看到这在应用工作中被大量使用,尽管它可能应该是;也许你会成为潮流引领者!

一个很好的诊断工具是由 LSE 的 Atkinson 和 Riani 开发的前向搜索方法(用于回归多变量数据)。这已被 SEM herehere采用。我个人认为这真的很整洁,但它是否能赶上整个 SEM 社区,我不知道。

Frontiers in Quant Psy 在 2012 年初发表了一篇关于这方面的评论论文。尽管我是这部作品的公认审稿人,但我非常不愿意真正推荐它(它几乎没有超过我的可发表作品的门槛,我干脆放弃解释我的裁判信中的稳健统计理论),但我只是不知道有什么更好的。

一般参考

  • Hair 等人对多变量数据清理和假设检验的问题进行了相当广泛的非数学讨论,您可能会发现这些问题很容易获得。

第一步:了解您的数据

  • 为什么分布是这样的?
  • 是什么导致异常值?

您可能需要考虑偏斜和异常值是否是现象的自然部分,或者反映数据输入错误、错误测量或模型不打算概括的参与者。

另一点,转换数据通常会消除或减少异常值的问题。

如何处理非正常数据

这里有一些关于使用非正态数据执行结构方程建模的策略的讨论:

一般来说,它应该让您对您的结果更有信心,因为您的结果对您所做的转换形式和异常值调整不敏感。

大的标准化残差协方差

  • 这可能表明您提出的模型对数据的拟合不佳。重要的是要考虑这一点的影响。这些残差建议您对模型进行哪些更改?