具有二元因变量的 SEM

机器算法验证 r 结构方程建模 二进制数据
2022-03-17 15:31:08

与回归非常相似,在 SEM 中处理二元因变量需要特殊考虑。特别是,其中一些在 Dave Garson 的结构方程建模中得到了说明,包括:

  1. 多元相关。LISREL/PRELIS 使用多列、四列和多列相关来创建输入相关矩阵,并结合 ADF 估计(见下文),用于不能假定具有二元正态分布的变量。

    • 样本量问题。ADF [无渐近分布] 估计又需要非常大的样本量。Yuan 和 Bentler (1994) 仅在样本量至少为 2,000 且最好为 5,000 时才发现令人满意的估计值。违反此要求可能会引入比将序数数据视为区间和使用 ML 估计更大的问题。这也是选择贝叶斯估计方法而不是 Amos 采用的序数数据的原因,因为贝叶斯估计可以处理比 ML 或 ADF 更小的样本。

我目前正在尝试使用 R 中的sem包来测试我的模型,并且模型的作者建议在R-help上使用多变量相关性。问题是:

  1. 我不知道这些相关性使用的是什么估计方法(即 ADF 或 ML)。
  2. 我的样本量很小(N = 173)。
  3. 我不熟悉如何解释多重关联(如果我适合使用它们)。我的模型中的所有其他变量本质上都是连续的。

任何帮助和/或链接将不胜感激。我也在考虑使用其他软件,如 OpenMX,但我仍在阅读它如何处理二进制数据。帮助我可能想要使用的其他软件也将不胜感激。

2个回答

你读过最初的Olsson (1979)论文吗?我相信它仍然提供了对多变量相关性的最佳描述(尽管我可能只浏览了现有文献的 10%,但我不得不承认;在某些时候,它只是过于重复有限数量的想法) . 多变量相关性是对基础正态分布相关性的 ML 估计,因此您可以像解释 Pearson 矩相关性与连续数据一样解释它们。鉴于多变量相关性的 ML 起源,我从不理解使用 ADF 或其他最小二乘方法来获得模型参数估计的建议,尽管我确实理解对角加权最小二乘(不知道 John Fox 是否在sem虽然),虽然渐近效率较低,但不需要太多辅助信息来进行估计。

没有神奇的样本大小数字,比如,你达到 2000 并且—— BOOM!- 一切开始工作。在我的模拟中(我已经以这种方式和那种方式为我的论文做了一些 petaflops),我已经看到了两种情况,当渐近结果在下工作失败在最特殊的情况下,对于相同的方法和基础数据的分布,一些渐近方面,例如置信区间覆盖率说,对于来说是可以的,而其他方面,例如分布,之前不会工作N=200N=5000N=300χ2N=1000. 因此,我对任何样本量建议高度怀疑,并且宁愿建议运行模拟来解决您的特定样本量、模型复杂性和错误幅度。第一篇抨击 ADF 的论文(Hu、Bentler 和 Kano (1992))使用了疯狂程度的过度识别,比如模型中有 30 个变量,这意味着 400 个自由度和 50 个样本大小。ADF 不会甚至开始在这些情况下工作,因为它无法反转第四矩的矩阵,这将是秩不足的。并且对于样本量低于 1000 的测试统计量获得 400 个自由度也是一个很高的期望。

所以我理解你所表现出的健康的怀疑态度,但在你的情况下你根本无能为力。只需运行polycor以获取相关估计值,将它们提供给sem,就可以了——您几乎无法做任何事情来产生更好的分析。

如果您是 Stata 用户,我会立即推荐gllammpackage,但我不确定 R 中是否存在它的直接类似物。

@StasK 正确地指出多变量相关性可以类似于皮尔逊相关性进行解释,但是,听起来好像您正在尝试建立一个潜在变量模型而不是简单地解释相关矩阵,所以我建议不要担心直接解释。可以说,多元相关适用于二元指标。

二进制指标的问题实际上源于您正在谈论(严重)非正态分布变量的事实。这是正常理论估计器(例如 ML 和 GLS)难以克服的问题 - ML 和 GLS 通常估计膨胀χ2模型拟合指数以及低估参数方差,都会导致 I 型错误膨胀。别介意您的样本量也很小。

鉴于这些问题,带有均值和方差校正的加权最小二乘法 (WLSMV) 已被证明是与二元指标一起使用的最合适的估计量。不幸的是,这个估算器仅在Mplus 软件中可用。除了 Mplus,fa.polyR 包中的函数psych实现了 WLS 估计器,它仍然会遇到样本量问题,但比 ADF 或 ML 估计更可取。

对于 SEM 中的分类数据主题(以及实际上任何潜在变量模型)的一个很好的概述,我推荐 Finney 和 DiStefano(2006 年)的可访问章节。

...尽管您提到了一个连续指标,但根据您要估计的模型,您可以看看项目响应理论 (IRT) 模型。在某些条件下,它们被视为等效于 CFA/SEM 模型,但估计方法不同。Finch (2010) 很好地说明了 IRT/CFA 等价性。

Finch, H. (2010)。MIRT 模型的项目参数估计:基于验证性因子分析的模型的偏差和精度。应用心理测量, 34,10-26。

Finney, SJ 和 DiStefano, C. (2006)。结构方程模型中的非正态和分类数据。在 GR Hancock & RO Mueller (Eds.)。结构方程建模的第二门课程(第 269-314 页)。康涅狄格州格林威治:信息时代。