无分布统计/方法和非参数统计有什么区别?

机器算法验证 非参数
2022-03-01 10:32:51

来自维基百科

非参数的第一个含义涵盖了不依赖于属于任何特定分布的数据的技术。其中包括:

  • 无分布方法,它不依赖于数据来自给定概率分布的假设。因此,它与参数统计相反。它包括非参数统计模型、推理和统计测试。
  • 非参数统计(在数据统计的意义上,它被定义为不依赖于参数的样本上的函数),其解释不依赖于拟合任何参数化分布的总体。基于观察等级的统计是此类统计的一个示例,它们在许多非参数方法中起着核心作用。

我看不出这两种情况之间的区别:无分布方法和非参数统计。他们都没有假设数据来自某个分布吗?它们有何不同?

谢谢并恭祝安康!

2个回答

差异的说明性示例 - 比较来自两个群体的样本。

使用第一个定义,您可能仍会比较两个总体的均值,以某种方式使用样本得出推论(例如,通过比较样本均值)。总体均值是参数,但您不对分布做出任何假设(例如,您不假设总体是正态分布的)。所以这是“免费分发”的统计数据。我,我认为这不应该被称为非参数统计的一部分——因为明显的逻辑矛盾。

在第二个定义下,您根本不考虑总体平均值或任何其他参数。相反,您使用诸如排名比较之类的方法。这是真正的非参数统计。

维基百科上的文字已经被修改过,在我看来现在更有意义了。特别是,它引用了肯德尔关于非参数和无分布之间可能的区别,但尚未被采用:

术语“非参数统计”在以下两种方式中被不精确地定义。

  1. 非参数的第一个含义涵盖了不依赖于属于任何特定参数概率分布族的数据的技术。

    其中包括:

    • 无分布方法,它不依赖于数据来自给定的概率分布参数族的假设。因此,它与参数统计相反。非参数统计(统计定义为样本上的函数;不依赖于参数)。

    基于观察等级的顺序统计是此类统计的一个示例。

    以下讨论取自 Kendall 的。 [2]

    统计假设涉及可观察随机变量的行为……例如,假设 (a) 正态分布具有指定的均值和方差是统计的;假设 (b) 具有给定均值但未指定方差的假设也是如此;假设 (c) 也是正态分布,均值和方差均未指定;最后,假设 (d) 两个未指定的连续分布相同。

    应该注意到,在示例 (a) 和 (b) 中,观察结果的分布被视为具有某种形式(正态),并且该假设完全涉及其一个或两个参数的值。出于显而易见的原因,这种假设被称为参数化。

    假设 (c) 具有不同的性质,因为在假设的陈述中没有指定参数值;我们可以合理地称这种假设为非参数的。假设 (d) 也是非参数的,但此外,它甚至没有指定分布的基本形式,现在可以合理地称为无分布。尽管有这些区别,但统计文献现在通常将标签“非参数”应用于我们刚刚称为“无分布”的测试程序,从而失去了有用的分类。

  2. 非参数的第二个含义涵盖了不假设模型结构是固定的技术。通常,模型会扩大规模以适应数据的复杂性。在这些技术中,通常假设单个变量属于参数分布,并且还假设了变量之间的连接类型。这些技术包括:

    • 非参数回归,这是一种建模,其中变量之间的关系结构被非参数处理,但仍然可能存在关于模型残差分布的参数假设。
    • 非参数分层贝叶斯模型,例如基于狄利克雷过程的模型,它允许潜在变量的数量根据需要增长以适应数据,但其中单个变量仍然遵循参数分布,甚至是控制增长率的过程潜在变量遵循参数分布。