为什么非参数统计中的关系如此困难?

机器算法验证 非参数 领带
2022-02-05 12:30:55

我的非参数文本Practical Nonparametric Statistics经常为期望、方差、测试统计等提供清晰的公式,但包含一个警告,即这只有在我们忽略平局时才有效。在计算 Mann-Whitney U 统计量时,我们鼓励您在比较哪个更大时丢弃并列的对。

我知道关系并不能真正告诉我们哪个人口更大(如果这是我们感兴趣的话),因为两个群体都不比另一个群体大,但在开发渐近分布时这似乎并不重要。

那么,为什么在一些非参数程序中处理关系会如此窘迫呢?有没有办法从关系中提取任何有用的信息,而不是简单地把它们扔掉?

编辑:关于@whuber 的评论,我再次检查了我的来源,一些程序使用平均排名而不是完全删除绑定值。虽然这在保留信息方面似乎更明智,但在我看来,它也缺乏严谨性。然而,这个问题的精神仍然存在。

1个回答

大多数关于非参数的工作最初都是假设存在一个潜在的连续分布,其中不可能有联系(如果测量得足够准确)。然后,该理论可以基于订单统计的分布(没有关系更简单)或其他公式。在某些情况下,统计数据几乎是正常的,这让事情变得非常容易。当由于数据被四舍五入或自然离散而引入联系时,则标准假设不成立。在某些情况下,近似值可能仍然足够好,但在其他情况下则不然,所以通常最简单的做法就是警告这些公式不适用于平局。

有一些标准非参数测试的工具可以计算出存在关系时的精确分布。R 的exactRankTests 包就是一个例子。

处理关系的一种简单方法是使用随机化测试,如排列测试或引导。这些不担心渐近分布,而是按原样使用数据,关系和所有(注意,有很多关系,即使这些技术也可能具有低功率)。

几年前有一篇文章(我认为是在美国统计学家,但我没有找到)讨论了关系的概念以及你可以用它们做的一些事情。有一点是,这取决于您要问什么问题,在优势测试与非劣势测试中,如何处理关系可能会有很大不同。