零膨胀连续数据的假设检验

机器算法验证 假设检验
2022-03-07 05:54:01

非常感谢您对以下问题的建议:

我有一个大的连续数据集,有很多零(~95%),我需要找到最好的方法来测试它的某些子集是否“有趣”,即似乎不是来自相同的分布其余的部分。零膨胀来自这样一个事实,即每个数据点都基于具有真零和采样零的计数测量,但结果是连续的,因为它考虑了由计数加权的其他一些参数(因此,如果计数为零,则结果也是零)。

最好的方法是什么?我有一种感觉,Wilcoxon 甚至暴力置换测试都不够充分,因为它们会被这些零点扭曲。专注于非零测量也消除了极其重要的真零。计数数据的零膨胀模型非常发达,但不适合我的情况。

我考虑将 Tweedie 分布拟合到数据,然后在 response=f(subset_label) 上拟合 glm。从理论上讲,这似乎是可行的,但我想知道(a)这是否是矫枉过正,(b)仍然会隐含地假设所有零都是样本零,即会以与排列相同的方式(充其量)偏置?

直观地说,这听起来像是某种层次化设计,它结合了基于零比例的二项式统计,例如,根据非零值(或者,更好的是,非零值加上一小部分基于一些先验的零)。听起来像贝叶斯网络...

希望我不是第一个遇到这个问题的人,所以如果你能指出合适的现有技术,我将不胜感激......

非常感谢!

3个回答

@msp,我认为您正在查看该附件中的两阶段模型(我没有时间阅读它),但是零膨胀连续数据是我经常使用的类型。要将参数模型拟合到该数据(以允许假设检验),您可以拟合两个阶段,但随后您有两个模型(Y 是目标,X 是协变量):P(Y=0 |X) 和 P(Y| X;Y>0)。您必须使用模拟将这些“组合”在一起。Gelmans的(以及 R 中的 arm 包)显示了这个精确模型的这个过程(使用逻辑回归和带有对数链接的普通线性回归)。

我见过并且更喜欢的另一个选择是拟合零膨胀伽马回归,这与上面相同(但伽马作为误差而不是高斯),您可以将它们放在一起进行 P(Y|X) 的假设检验. 我不知道如何在 R 中执行此操作,但您可以在 SAS NLMIXED 中执行此操作。看到这个帖子,效果很好。

在营销测试中使用了与 Fletcher 论文类似的方法,我们可以任意将干预措施(例如广告)的影响分为 (a) 购买品牌的数量的变化(即零的比例)和 (b)购买频段的频率发生变化(完全发生销售给定的销售)。这是一种可靠的方法,在营销环境和弗莱彻讨论的生态环境中具有概念意义。事实上,这可以扩展到 (c) 每次购买的规模发生变化。

您可以处理未知的确切零数,但限制在 0 和观察到的零数之间。这肯定可以使用模型的贝叶斯公式来处理。也许还可以调整多重插补方法,以适当地改变零观测值的权重(0 到 1 之间)……