聚合并失去分辨率或不聚合相关二进制数据并遭受痛苦?

机器算法验证 重复测量 物流 卡方检验 广义估计方程
2022-04-08 20:10:09

我有一个实验的数据,其中每个参与者对每个呈现的刺激都提供二元响应,这是正确的 (1) 或不正确的 (0)。

有 4 种不同的刺激类型,每组 48 种刺激呈现给每个参与者。我想比较刺激类型对(所有参与者)之间实现的准确性。

显而易见的事情是汇总每个参与者在每个刺激组内的反应,以获得用于重复测量 ANOVA 的准确度分数。

但是,令我感到困扰的是,这忽略了计算该准确度得分的试验次数——无论每个准确度得分是基于 48 个二进制响应还是 400 个二进制响应,显着性测试都会产生相同的重要性!那么,另一种选择是使用原始二进制数据,但数据不再独立,因此卡方检验是不可能的。我模糊地意识到逻辑回归或广义估计方程(gee)可以解决这个问题,但我只看到它们与较小的相关数据集群一起使用。

在这里做什么是正确的?

1个回答

您是对的,对响应进行平均并执行重复测量方差分析并不是理想的选择。你的直觉很好;基于 48 个响应的全局精度与基于 400 个响应的全局精度之间应该存在差异。首先,您应该使用逻辑回归如果您对此不是很熟悉,它可能会帮助您阅读我写给这个问题的答案:logit 和 probit 模型之间的区别. 尽管它是在不同的背景下编写的,但有很多关于逻辑回归的信息,它可以帮助您了解它的含义。基本形式的逻辑回归适用于独立数据,而您的数据不是独立的。为了解决这个问题,您需要使用广义估计方程拟合逻辑回归模型,或者拟合 GLiMM。使用哪个选项取决于您要问的问题的性质。我在这个问题中讨论了这些问题:广义线性模型之间的区别广义线性混合模型在 SPSS 中有关这些主题的更详尽解释,您可能需要阅读 Agresti 的分类数据分析简介. 我认为您不需要担心的一件事是集群的大小,这些将适用于您的情况。HTH。