如何检测给定数据集是否具有多元正态分布?

机器算法验证 正态分布 多元分析 正态假设 判别分析
2022-04-19 08:48:17

我在 UCI ML 存储库的各种数据集上查看 Fisher 的 LDA,并试图查看 LDA 可能表现不佳的地方。我能想到的一个原因是数据分布是否不是多元正态分布。这是从我在一本书中读到的事实,您将 LDA 应用于多元正态分布。这个思维过程正确吗?LDA 什么时候会给出不好的结果?

2个回答

根据定义,如果所有线性组合具有某些(单变量)正态分布,则随机向量是多元正态分布。因此,测试多元正态性的一个想法是在向量中搜索一个,使得绝对不正常。这就是 pp 背后的理念,投影追踪方法。https://en.wikipedia.org/wiki/Projection_pursuitXaTXaaTX

检查数据集是否为高斯分布的一种快速方法是为数据集的每个变量绘制直方图(如果维度很小),或者只是计算样本偏度和峰度以检查它们是否为高斯分布. 高斯分布数据集的偏度 = 0 和峰度 = 3。