您会将此数据标记为欺诈吗?

机器算法验证 可能性 方差分析 数据集 欺诈识别
2022-03-19 11:30:21

假设您已从随机区组设计中获得一些数据,该设计具有 4 次重复和 23 次处理。在对数据进行初步检查后,您注意到 8 次处理的所有重复都是相同的,这显然是错误的。报告问题后,您会被告知这是由于数据负责人的混淆,他们稍后会向您发送数据的“正确版本”。数据的更正版本将是这样的:

治疗代表价值
   1 5727.000
   2 5400.000
   3 5800.000
   4 5473.000
   B 1 4618.000
   乙 2 4844.000
   B 3 4966.000
   B 4 4496.000
...
   Z 1 4329.345
   Z 2 4597.275
   Z 3 4833.246
   Z 4 4199.098

在这些数据中引起我注意的第一件事是,只有报告问题的八种治疗方法没有任何小数部分(所有剩余的治疗方法都很好)。所以我决定让他们仔细看看,并从治疗中的样本平均值中减去每个观察值,找到类似的东西

治疗代表价值增量
   1 5727.000 +127
   A 2 5400.000 -200
   3 5800.000 +200
   4 5473.000 -127
   乙 1 4618.000 -113
   B 2 4844.000 +113
   B 3 4966.000 +235
   乙 4 4496.000 -235
...
   Z 1 4329.345 ...
   Z 2 4597.275 ...
   Z 3 4833.246 ...
   Z 4 4199.098 ...

在看到差异在均值附近对称后,我会立即打电话给项目负责人,并报告问题。当然,我也会放弃那个项目。

尽管证据非常有说服力,但最好在报告中附加一个概率,以便了解该数据看起来有多糟糕。所以我会想到以下类似的东西,我想知道我的推理是否有任何缺陷:

假设如果数据是合法的,那么根据之前对这类数据的分析经验,假设这类数据是正常的是合理的。

因此,让我们为每次处理中的四个重复中的每一个定义 4 个 iid 正态随机变量:

XiN(μX, σX);   i=1,2,3,4
上面观察到的对称性(公差为 0.5)可以表示为事件:
A:0.5<X1+X2X3X4<0.5
还有其他等效的方法可以安排样本以满足对称性 (X1 + X3 - X4 - X2; X1 + X4 - X2 - X3),因此对称性 (S) 的概率为:
P(S)3P(A)

不等式只是因为我不想删除交集。

如果我们定义随机变量 Y 如下:

Y=X1+X2X3X4

由此得出:

YN(0, 2σX)

假设从具有该数据的模型的残差中,我估计了σX为 350。据此,我将使用 y 的 CDF 来计算 Y 落在 -0.5 和 0.5 之间的概率,即 P(A) = 0.0005699175

pnorm(0.5, sd = 700, lower = TRUE) - pnorm(-0.5, sd = 700, lower = TRUE)

因此,S 的概率为:

P(S)0.001709752

因为没有明显的块效应并且数据来自随机实验,所以假设统计独立性是合理的。让我们假设在 8 个可疑处理中,有 3 个具有这种对称性。然后,假设独立,我们可以从二项分布计算此类事件的概率(我们称之为 D):

D:8 个处理中有 3 个在样本均值附近具有对称的观测值。

P(D)(83)p3(1p)5

P(D)2.7107

我不是统计学家,所以我想知道这种推理是否存在任何缺陷,以及您是否也会将数据报告为欺诈性的。

1个回答

道德问题在这里是最重要的。我同意此信息,将数据视为高度可疑的数据并将其报告;我永远不会称之为“欺诈”,因为这是由其他人在调查后确定的,并且在某些国家/地区可能会让您对法律诉讼或其威胁持开放态度。至于附加概率估计,我会放弃。没有它,情况就很清楚(呃),几乎每个假设或近似都面临挑战。