假设您已从随机区组设计中获得一些数据,该设计具有 4 次重复和 23 次处理。在对数据进行初步检查后,您注意到 8 次处理的所有重复都是相同的,这显然是错误的。报告问题后,您会被告知这是由于数据负责人的混淆,他们稍后会向您发送数据的“正确版本”。数据的更正版本将是这样的:
治疗代表价值 1 5727.000 2 5400.000 3 5800.000 4 5473.000 B 1 4618.000 乙 2 4844.000 B 3 4966.000 B 4 4496.000 ... Z 1 4329.345 Z 2 4597.275 Z 3 4833.246 Z 4 4199.098
在这些数据中引起我注意的第一件事是,只有报告问题的八种治疗方法没有任何小数部分(所有剩余的治疗方法都很好)。所以我决定让他们仔细看看,并从治疗中的样本平均值中减去每个观察值,找到类似的东西
治疗代表价值增量 1 5727.000 +127 A 2 5400.000 -200 3 5800.000 +200 4 5473.000 -127 乙 1 4618.000 -113 B 2 4844.000 +113 B 3 4966.000 +235 乙 4 4496.000 -235 ... Z 1 4329.345 ... Z 2 4597.275 ... Z 3 4833.246 ... Z 4 4199.098 ...
在看到差异在均值附近对称后,我会立即打电话给项目负责人,并报告问题。当然,我也会放弃那个项目。
尽管证据非常有说服力,但最好在报告中附加一个概率,以便了解该数据看起来有多糟糕。所以我会想到以下类似的东西,我想知道我的推理是否有任何缺陷:
假设如果数据是合法的,那么根据之前对这类数据的分析经验,假设这类数据是正常的是合理的。
因此,让我们为每次处理中的四个重复中的每一个定义 4 个 iid 正态随机变量:
不等式只是因为我不想删除交集。
如果我们定义随机变量 Y 如下:
由此得出:
假设从具有该数据的模型的残差中,我估计了为 350。据此,我将使用 y 的 CDF 来计算 Y 落在 -0.5 和 0.5 之间的概率,即 P(A) = 0.0005699175
pnorm(0.5, sd = 700, lower = TRUE) - pnorm(-0.5, sd = 700, lower = TRUE)
因此,S 的概率为:
因为没有明显的块效应并且数据来自随机实验,所以假设统计独立性是合理的。让我们假设在 8 个可疑处理中,有 3 个具有这种对称性。然后,假设独立,我们可以从二项分布计算此类事件的概率(我们称之为 D):
D:8 个处理中有 3 个在样本均值附近具有对称的观测值。
我不是统计学家,所以我想知道这种推理是否存在任何缺陷,以及您是否也会将数据报告为欺诈性的。