您的问题中提出了很多问题,因此我将尝试就您提出的每个问题给出答案。为了清楚地描述其中的一些问题,重要的是在一开始就注意到 p 值是针对零假设的证据的连续测量(有利于所述的替代方案),但是当我们将其与规定的显着性水平进行比较时为了得出“统计意义”的结论,我们将证据的连续测量分成二元测量。
告诉人们结果在 71 个样本中不显着,但在 77 个样本中显着是没有意义的。
您需要确定这两个中的哪一个实际上是合适的样本——即,从数据中删除六个数据点是否合适。由于在此站点上多次解释的原因(例如,此处和此处),删除不是由于不正确记录观察结果的“异常值”是一个坏主意。因此,除非您有理由相信是这种情况,否则使用所有 77 个数据点可能是合适的,在这种情况下,对 71 个数据点的精挑细选子样本说任何话都是没有意义的。
注意这里的问题与统计显着性问题无关。不同假设检验的结果(例如,对不同数据的相同检验)可能不同是完全有道理的,因此没有理由认为在一种情况下存在替代假设的统计显着证据是有问题的,但不是在另一个。这是通过在证据的连续测量中绘制一条“重要性”线而获得二元结果的自然结果。
在解释趋势时,将结果与文献中的发现联系起来很重要。尽管我们在这里发现了一个弱趋势,但这种趋势与文献中的大量研究一致,这些研究发现这两个变量之间存在显着相关性。
如果这是您想做的事情,那么适当的练习是进行荟萃分析以考虑文献中的所有数据。仅凭其他文献和其他数据/证据这一事实,并不能成为以与其他方式不同的方式处理本文中的数据的理由。对自己论文中的数据进行数据分析。如果您担心自己的结果与文献存在偏差,请注意其他证据。然后,您可以进行适当的元分析,其中考虑到所有数据(您的和其他文献),或者您至少可以提醒读者注意可用数据的范围。
以下是我的主管回复: 我会以另一种方式争论:如果它在 71 的样本中不再显着,那么它太弱而无法报告。如果有强信号,我们也会在较小的样本中看到它。我不应该报告这个“不重要”的结果吗?
因为统计结果与其他文献不同而选择不报告数据是一种可怕的、可怕的、统计破产的做法。统计理论中有大量文献警告当研究人员允许他们的统计测试结果影响他们选择报告/发布他们的数据时,就会出现发表偏差问题。事实上,由于基于 p 值做出的发表决定而导致的发表偏差是科学文献的祸根。这可能是科学和学术实践中最大的问题之一。
无论替代假设的证据多么“弱”,您收集的数据都包含应该报告/发布的信息。它在文献中增加了 77 个数据点,无论其价值如何。您应该报告您的数据并报告您的检验的 p 值。如果这不构成所研究效果的统计显着证据,那么就这样吧。