Pitman 的方差相等性检验和均值回归检验:我做对了吗?

机器算法验证 回归 标准差 方差
2022-03-26 08:24:03

我从一个实验中获得了 2560 个配对观察结果,其中参与者在两个不同的时间点为一组对象提供了两个评分。集合中一半的对象在两个时间点之间的属性 A 的值发生了变化,一半没有。在每个参与者的集合中更改的对象中,一半从 A' 变为 A'',一半从 A'' 变为 A'。(即所有参与者都经历了两个订单)。我的主要假设是,将此属性从 A' 更改为 A'' 平均会导致更高的评分,这确实得到了数据的支持。我也有兴趣确定这种影响的幅度和方向是否取决于 A' 评级。

出于这个问题的目的,我只考虑改变 A 的那些实例(1280 对 obs)。以下 GLMM

(A'' 评级 - A' 评级)= 参与者 + 订单 + A' 评级

其中 A' rating 是协变量,参与者和 order 是分类变量,得出的结论是 A' rating 与更改为 A'' 的效果之间存在显着的正相关,并且这种相关性 <1,因此具有低 A' 评级通过更改为 A'' 来提高其评级,但具有高 A' 评级的对象在更改为 A'' 时实际上得到更低的评级。

我想测试这是否仅仅是由于回归均值。为此,我跟随Kelly 和 Price使用 Pitman 对配对样本的方差相等性检验,并希望得到一些关于我是否做对了的反馈。

这是我根据同事的建议所做的:

1) 计算 A'' 评级的 SD(SD1)和 A' 评级的 SD(SD2)
2) 在 A' 评级上回归 A'' 评级并记录相关性r.
3) 计算 T 为T=(n2)[(SD1/SD2)(SD2/SD1)]2(1r2)

T 的 2 尾 p 值(学生的 t 距离为 1280-2 DF)为 0.07,即在 alpha=0.05 时,两组评分的方差之间没有显着差异,因此 A' 评分对评分没有影响回归均值后的差异。(我们可以稍后讨论 2-t 与 1-tp 的值)。

我现在计划调整我的差异分数以解决这个问题并重新执行上面概述的 GLMM,如 Kelly & Price 所述。

如果您已经详细了解了这一点,那么首先做得很好,其次,您能告诉我 1)我同事的建议是否明智,以及 2)如果是,我是否正确实施了它?我有一些担忧/明显的灰色地带,但我很想听听其他人首先要说什么。

谢谢你。

2个回答

据我所知,皮特曼测试公式为:

F=SD2SD1 with SD2>SD1

T=(F1)n22F(1r2)
r样本 1 和样本 2 中的分数之间的相关性。这不等同于您在论文中使用和提到的公式。我对我的公式也不乐观,我是从某个地方的课程中得到的(可惜没有参考......)

除此之外,看看另一种处理回归均值的方法可能会很有趣。我发现Barnett 等人关于回归均值的教程论文非常有启发性。

现在让我们回到 2 面与 1 面的 p 值。无论您使用哪种公式,T 的符号仅取决于 SD 的顺序。(事实上​​,我怎么知道pitman测试,T总是正的。)因此,就我而言,基础分布不是T分布,而是T分布的一半,这意味着你必须把截止点放在T0.975,df,但相关的 p 值仅来自一条尾巴。这等效于比较方差的标准 F 检验。

对您的问题的简短回答是,对于 n = 1280 的样本量,对于等方差的正式统计测试并不是真正必要的。使用该样本量,您得到的方差“估计”是确定性等价的[几乎可以肯定非常接近真实的总体方差]。所以你可以看看这两个值,看看它们是否看起来相当接近。

关于您的线性模型的评论:我假设其中也有一个随机误差项。我认为还应该有一个截距项,除非您确定回归线穿过原点。

另外,您是否将参与者效应视为随机效应?如果每个人都为数据贡献了一对以上的评级,那么您似乎应该这样做。但这可能会导致测试回归效应以外的效应的常用方法出现问题[通常模型没有这样的术语]。这是因为通常的模型假设不同的前后 [评级] 对是独立的。但是随机效应会在同一个人的评分对之间产生相关性。必须进一步研究这样的模型,以确定没有差异 A' 评级效应的假设是否仍然简化为等方差检验。

这里有更多关于pitman测试的内容[鉴于上面的“简短回答”,您可能不需要以下内容]:

就像两个 [或更多] 独立样本的方差相等性检验一样,pitman 检验显然对响应的非正态性很敏感。您没有提到衡量变量评级的尺度,但特别是如果它是李克特类型的尺度,则响应的正态性假设可能是有问题的。

wilcox对 Pitman和其他配对数据的方差相等性检验进行了研究,并写道:

但是,得出的结论是,在控制 I 类和 II 类错误方面,尚不存在令人满意的解决方案。[这是在 1990 年。]

这并不一定意味着pitman 测试对您的数据无效,但它确实表明在使用它时要谨慎一些可能是合适的。[如果我没记错的话,当数据分布[在你的情况下进行评级]有一个沉重的尾巴[或尾巴]时,就会出现方差同质性测试的困难。那么测试的实际水平可能会超过名义水平[例如,0.05],导致经常错误地拒绝方差相等的假设,而事实上它们相等的。[更好的功率,但也更差的错误拒绝率。]

李克特量表上的反应似乎不太可能有沉重的尾巴[或太大的 4th时刻 - 与其方差相比],但看看通常的角化测量 [4th中心矩除以方差2超过 3 [这表明尾巴很重]。

grambsch在 1994 年将pitman 测试与替代程序进行了比较——其中一些执行起来更复杂。

她论文中的一些数值结果表明,如果评级的分布是均匀的或在响应范围内呈半抛物线形状[有轻尾],则pitman测试是保守的:名义上的实际类型 1 错误的价值α=.05可以是 0.005 到 0.05 之间的任何值 - 取决于分布的实际形状和样本大小。[她的结果涉及 50 或更少的样本。我想你的样本量是 1280,她的结论会有所不同。]

如果您有兴趣,她会提出对pitman 检验的修改,该修改使实际显着性水平保持接近标称值0.05,对于轻尾分布和重尾分布。