非常感谢您对以下问题的建议:
我有一个大的连续数据集,有很多零(~95%),我需要找到最好的方法来测试它的某些子集是否“有趣”,即似乎不是来自相同的分布其余的部分。零膨胀来自这样一个事实,即每个数据点都基于具有真零和采样零的计数测量,但结果是连续的,因为它考虑了由计数加权的其他一些参数(因此,如果计数为零,则结果也是零)。
最好的方法是什么?我有一种感觉,Wilcoxon 甚至暴力置换测试都不够充分,因为它们会被这些零点扭曲。专注于非零测量也消除了极其重要的真零。计数数据的零膨胀模型非常发达,但不适合我的情况。
我考虑将 Tweedie 分布拟合到数据,然后在 response=f(subset_label) 上拟合 glm。从理论上讲,这似乎是可行的,但我想知道(a)这是否是矫枉过正,(b)仍然会隐含地假设所有零都是样本零,即会以与排列相同的方式(充其量)偏置?
直观地说,这听起来像是某种层次化设计,它结合了基于零比例的二项式统计,例如,根据非零值(或者,更好的是,非零值加上一小部分基于一些先验的零)。听起来像贝叶斯网络...
希望我不是第一个遇到这个问题的人,所以如果你能指出合适的现有技术,我将不胜感激......
非常感谢!