在一项研究中使用相同数据得出多个推论的结论

机器算法验证 自习 推理 多重比较 生物统计学 精确检验
2022-04-04 04:53:19

在 100 个样本大小中,我们确定了两个属性A和的存在B

我们的目标是评估这两个属性之间是否存在关联。数据如下所示:

                    A
            Present    Absent|
  Present      x1         x2 |
B                            |
   Absent      x3         x4 |
 ----------------------------|---
                               100

由于此处仅固定了总样本量,因此我们进行了“Boschloo 的多项式模型的精确检验”。

属性A 可以分为两部分,pathogenic Anon-pathogenic A现在,使用相同的 100 个样本B,我们测试属性和之间是否存在关联pathogenic A由于此处属性的边际B是固定的,因此我们进行了“Boschloo 使用二项式模型的精确检验”。

B同样,我们评估了属性和之间是否存在任何关联non-pathogenic A在这里,我们还使用了“Boschloo 使用二项式模型进行精确检验”作为测试程序。

我的问题:

在同一项研究中,我们使用相同的 100 样本进行 3 次不同的推断。执行多个测试以得出具有相同样本(数据)的多个推论的结论是否有效?

2个回答

首先,在我的理解和原则上,在给定的数据集上测试一组不同的预定义假设是一个有效的过程。

但是,您的问题似乎与一组非预定义的假设有关,据我所知,您的问题的本质是关于“得出结论”是什么意思。正如您在评论中提到的,您的假设没有计划(或至少其中一部分)。因此,您的分析充其量只是解释性的,得出明确的结论超出了您的范围。我建议你这个问题和相关的答案来讨论为什么会这样。一个简短的总结可能是:数据集中的自由度太大,无法从查看数据后生成的假设中得出结论。

然而,记录和讨论侧面观察的影响大小是相关且有用的。请注意并让您的读者意识到这些是需要正确测试的观察结果(但这仍然可以进行合理的讨论)。

答案是暂定的;我稍后会添加或删除它。

原则上,您可以根据需要从数据中提取尽可能多的不同结论。这包括假设和推论。但是,您会注意到,这些结论可能相互重叠甚至相互矛盾。如果统计能力不足以得出结论性的结论,您可能会争辩说情况尤其如此。

但是,如果您使用相同的数据来训练、测试和/或验证某些提取或精炼方法,那将是一个严重的错误。但这可能是也可能不是这里的情况。您认为可能存在某些功能并且您测试此功能。该测试可以通过多种方式实现。问题(i)“特征 A 存在”和(ii)“特征 A 不存在”是不一样的;如果你发现你有数据支持 (i),你仍然可能无法拒绝 (ii)。

Barnard 的测试统计数据,包括其对 Buschloo 的改进,是进行此测试的最佳方法,afaik。