除了平方根、对数等常见转换之外,还有哪些常用的标准化转换?

机器算法验证 数据转换 正态假设 方差稳定
2022-02-28 06:21:23

在测试分数的分析中(例如,在教育或心理学中),常见的分析技术通常假设数据是正态分布的。然而,也许更多时候,分数往往会与正常情况大相径庭。

我熟悉一些基本的归一化变换,例如:平方根、对数、用于减少正偏斜的倒数变换、上述用于减少负偏斜的反射版本、用于尖峰分布的平方。我听说过反正弦变换和幂变换,尽管我对它们并不了解。

所以,我很好奇分析师通常使用哪些其他转换?

4个回答

第一步应该是问为什么你的变量是非正态分布的。这可能很有启发性。根据我的经验,常见的发现:

  • 当存在天花板效应时,能力测试(例如,考试、智力测试、入学测试)往往呈负偏态,而当存在地板效应时,则趋向于正偏态。这两项发现都表明,测试的难度级别并未针对样本进行优化,要么太容易,要么太难,无法优化区分能力。这也意味着感兴趣的潜在变量仍然可能是正态分布的,但测试的结构会导致测量变量出现偏差。
  • 能力测试通常在低分者方面存在异常值。简而言之,有很多方法在考试中表现不佳。特别是有时可以在考试中看到这一点,其中有一小部分学生在缺乏能力和缺乏努力的情况下结合起来导致考试成绩非常低。这意味着感兴趣的潜在变量可能有一些异常值。
  • 关于自我报告测试(例如,性格、态度测试等),当样本本身在量表上较高时(例如,生活满意度分布呈负偏态,因为大多数人都感到满意)或当量表已针对与正在应用测试的样本不同的样本进行了优化(例如,将抑郁症的临床测量应用于非临床样本)。

第一步可能会建议对测试进行设计修改。如果您提前意识到这些问题,您甚至可以设计您的测试来避免它们,如果您认为它们是有问题的。

第二步是决定你有非正常数据的情况下要做什么。注意转换只是一种可能的策略。我会重申先前关于非正态性的回答中的一般建议:

  • 许多假设残差正态性的程序对于适度违反残差正态性是稳健的
  • 自举通常是一个很好的策略
  • 转型是另一个很好的策略。请注意,根据我的经验,能力和自我报告心理测试中常见的轻度偏斜通常可以使用对数、平方或逆变换(或反向等效)相当容易地转换为近似正态的分布。

John Tukey 在他关于 EDA 的书中系统地讨论了转换。除了 Box-Cox 系列(仿射缩放的幂变换)之外,他还定义了一系列“折叠”变换,用于比例(本质上是 x/(1-x) 的幂)和“开始”计数(向计数数据添加正偏移在转换它们之前)。折叠变换基本上概括了 logit,对考试成绩特别有用。

完全不同的是,Johnson & Kotz 在他们关于分布的书中提供了许多转换,旨在将测试统计转换为近似正态性(或其他一些目标分布),例如卡方的立方根转换。当您预计您的数据将遵循某些特定分布时,此材料是有用转换的重要想法来源。

Box-Cox转换包括您引用的许多转换有关详细信息,请参阅此答案:

更新:这些幻灯片很好地概述了 Box-Cox 转换。

一个简单的选择是使用分数总和而不是分数本身。分布的总和趋于正态。例如,在教育中,您可以在一系列测试中添加学生的分数。

当然,另一种选择是使用不假定正态性的技术,这些技术被低估和未充分利用。