峰态产生的异常值的处理

机器算法验证 分布 假设 判别分析 峰度
2022-02-28 07:17:34

我想知道是否有人可以帮助我提供有关峰度的信息(即有没有办法转换您的数据以减少它?)

我有一个包含大量案例和变量的问卷数据集。对于我的一些变量,数据显示了相当高的峰度值(即尖峰分布),这是因为许多参与者对变量给出了完全相同的分数。我确实有一个特别大的样本量,所以根据中心极限定理,违反正态性应该仍然可以。

然而,问题在于,特别高的峰度在我的数据集中产生了许多单变量异常值。因此,即使我转换数据或删除/调整异常值,高水平的峰度意味着下一个最极端的分数会自动成为异常值。我的目标是使用(判别函数分析)。如果违反是由偏度而不是异常值引起的,则 DFA 对偏离正态性的情况具有鲁棒性。此外,据说 DFA 特别受数据中异常值的影响(Tabachnick & Fidel)。

关于如何解决这个问题的任何想法?(我最初的想法是控制峰度的某种方式,但如果我的大多数样本都给出相似的评级,这不是一件好事吗?)

1个回答

解决问题的明显“常识”方法是

  1. 使用完整的数据集得出结论。即你会宣布什么结果忽略中间计算?
  2. 使用删除了所述“异常值”的数据集得出结论。即你会宣布什么结果忽略中间计算?
  3. 比较第 2 步和第 1 步
  4. 如果没有区别,就忘了你有过问题。异常值与您的结论无关异常值可能会影响使用这些数据得出的其他一些结论,但这与您的工作无关。这是别人的问题。
  5. 如果有差异,那么您基本上就有一个“信任”问题。这些“异常值”是否真实,因为它们真正代表了您分析的某些内容?还是“异常值”是坏的,因为它们来自某些“污染源”?

在情况 5 中,您基本上有一个案例,您用来描述“人口”的任何“模型”都不完整 - 有一些细节未指定,但对结论很重要。有两种方法可以解决这个问题,对应两种“信任”场景:

  1. 向您的模型添加一些额外的结构,以便描述“异常值”。所以而不是P(D|θ), 考虑P(D|θ)=P(λ|θ)P(D|θ,λ)dλ.
  2. 创建一个“模型模型”,一个用于“好”观察,一个用于“坏”观察。所以而不是P(D|θ)你会用P(D|θ)=G(D|θ)u+B(D|θ)(1u),如果是在你的样本中获得“好”观察的概率,GB代表“好”和“坏”数据的模型。

大多数“标准”程序可以显示为这些模型的近似值。最明显的一个是考虑案例 1,其中假设方差在观察中是恒定的。通过将此假设放松为分布,您将获得混合分布。这是“正态”和“t”分布之间的联系。法线具有固定的方差,而“t”混合了不同的方差,“混合”的量取决于自由度。高 DF 意味着低混合(异常值不太可能),低 DF 意味着高混合(可能出现异常值)。实际上,您可以将案例 2 视为案例 1 的特例,其中“好”观察是正常的,而“坏”观察是 Cauchy(t 和 1 DF)。