我想知道是否有人可以帮助我提供有关峰度的信息(即有没有办法转换您的数据以减少它?)
我有一个包含大量案例和变量的问卷数据集。对于我的一些变量,数据显示了相当高的峰度值(即尖峰分布),这是因为许多参与者对变量给出了完全相同的分数。我确实有一个特别大的样本量,所以根据中心极限定理,违反正态性应该仍然可以。
然而,问题在于,特别高的峰度在我的数据集中产生了许多单变量异常值。因此,即使我转换数据或删除/调整异常值,高水平的峰度意味着下一个最极端的分数会自动成为异常值。我的目标是使用(判别函数分析)。如果违反是由偏度而不是异常值引起的,则 DFA 对偏离正态性的情况具有鲁棒性。此外,据说 DFA 特别受数据中异常值的影响(Tabachnick & Fidel)。
关于如何解决这个问题的任何想法?(我最初的想法是控制峰度的某种方式,但如果我的大多数样本都给出相似的评级,这不是一件好事吗?)