机器算法验证 - 如何确定分类数据是否呈正态分布？ - 吾爱随笔录

机器算法验证假设正态假设

2022-03-02 03:49:13

1个回答

分类数据不是来自正态分布。

仅当您至少处理区间数据时，正态分布才有意义，并且正态分布是连续的并且在整个实线上。如果其中任何一个不正确，则无需检查数据分布即可得出其与正态性不一致的结论。

[请注意，如果不是区间，则与假设分布形状相关的问题相比，您遇到的问题更大，因为即使计算平均值也意味着您具有区间尺度。说“高”+“非常低”=“中”+“低”和“非常高”+“中”=“高”+“高”（即正是你需要坚持的那种东西才能开始首先添加值），您被迫在该点假设区间尺度。]

由于比率数据通常是非负的并且通常有些偏斜，因此即使是具有实际比率数据的合理近似正常外观的样本也很少见。

当您的度量是分类的时，您不能“检查”它，因为这样做通常没有意义 - 您已经知道它不是来自正态分布的样本。事实上，在名义数据的情况下，甚至尝试的想法都没有意义，因为类别甚至没有顺序！[唯一不受任意顺序重排影响的分布是离散均匀分布。]

如果您的数据是按类别排序的，则间隔是任意的，同样，我们留下了一个我们无法真正做太多事情的概念；甚至像对称这样更简单的概念在间隔的任意变化下也无法真正成立。

要开始考虑甚至近似正态性意味着我们必须至少假设我们的类别是区间/具有固定的已知“分数”。

但无论如何，“这正常吗？”的问题。无论如何，这并不是一个真正有用的问题——因为什么时候真正从正态分布中采样了真实数据？

[在某些情况下，考虑有序类别是否具有具有（比如说）正态分布的潜在（潜在）变量可能是有意义的，但这是一种完全不同的考虑。]

George Box 提出了一个更有用的问题：

请记住，所有模型都是错误的；实际的问题是它们有多大的错误才没有用。

（我相信那是在 Box 和 Draper 中，以及他更广为人知的格言。）

如果您有至少是间隔的离散数据，并且具有相当数量的类别，那么检查它是否没有严重偏斜可能是有意义的，例如，但您实际上不会相信它是从正常人群中提取的- 不可能。

对于某些推理过程，实际正态性可能不是特别重要，尤其是在较大的样本量下。

其它你可能感兴趣的问题