如何测试多个类别的变化是否显着?

机器算法验证 假设检验 统计学意义
2022-04-17 07:57:32

这是我的数据。我们要求相同的受访者(n=~400)向我们提供他们当前和未来的消费占总支出的比例。这里绘制的是“现在”和“以后”的每个类别的总支出的平均比例,分别是当前和未来。

我正在寻找的是一种统计方法,我可以用它来测试其他类别是否在增加,而最大的类别正在减少。该图在某种程度上显示了这一点,但我想确保它在统计上是有效的。

例子

2个回答

设计比较和事后比较之间存在一些微妙的问题,这可能就是一个例子。

如果在收集数据之前,您预计会出现这种模式,您可以使用简单的非参数检验。零假设是所有变化都是偶然的,另一种选择是指定类别正在增加,而其他八个类别正在减少。在零值下,积极的变化有 50% 的机会发生,这意味着替代的机会是 =:替代的非常重要的证据。(0.50)8(10.50)10.002

事后观察的分析很困难,因为我们甚至无法开始描述情况。你会碰巧注意到什么样的模式并认为值得测试?在没有准确描述的情况下,有很多可能,我们只能说(根据经验)是(a)任何感兴趣的调查员很可能会注意到数据中的 某些 模式和(b)事后正如我在上面所做的那样,可以构建假设检验以“证明”该模式的“高度重要性”。由于这些原因,在事实之后应用假设检验来支持探索性结果的“统计有效性”的主张是不受欢迎的。(在统计学家中,应该知道的更多,这被称为“数据窥探”或更糟。)

一种方法是使用c进行分析。一半的数据,随机选择。寻找你喜欢的任何模式。为这些模式构建一套适当的假设检验,然后仅将它们应用于保留的数据。 这符合科学复制的精神要求。如果您不这样做,那么您将不得不重复您的实验以确认您在当前拥有的数据中看到的任何内容。

鉴于您随后发布的其他信息,我不确定任何统计测试都会提供如此丰富的信息。如果您对诸如此类或类似的模式有很强的预测,那么这是一个非常低概率的事件,您几乎已经准备好获得这些数据。N 为 400 时,几乎任何测试都绝对是重要的。一些好的描述性统计数据(如置信区间)将非常有用。

我建议您在描述下降趋势时要小心谨慎。这是一个很小的数量,是的,如果你的 N 足够大,它就会很重要。但是,百分比的微小下降有意义吗?我认为更有意义的说法是,它不像其他人那样增加,并且大致保持不变。不要试图通过统计测试来改变影响非常小的故事。