在测试分数的分析中(例如,在教育或心理学中),常见的分析技术通常假设数据是正态分布的。然而,也许更多时候,分数往往会与正常情况大相径庭。
我熟悉一些基本的归一化变换,例如:平方根、对数、用于减少正偏斜的倒数变换、上述用于减少负偏斜的反射版本、用于尖峰分布的平方。我听说过反正弦变换和幂变换,尽管我对它们并不了解。
所以,我很好奇分析师通常使用哪些其他转换?
在测试分数的分析中(例如,在教育或心理学中),常见的分析技术通常假设数据是正态分布的。然而,也许更多时候,分数往往会与正常情况大相径庭。
我熟悉一些基本的归一化变换,例如:平方根、对数、用于减少正偏斜的倒数变换、上述用于减少负偏斜的反射版本、用于尖峰分布的平方。我听说过反正弦变换和幂变换,尽管我对它们并不了解。
所以,我很好奇分析师通常使用哪些其他转换?
第一步应该是问为什么你的变量是非正态分布的。这可能很有启发性。根据我的经验,常见的发现:
第一步可能会建议对测试进行设计修改。如果您提前意识到这些问题,您甚至可以设计您的测试来避免它们,如果您认为它们是有问题的。
第二步是决定在你有非正常数据的情况下要做什么。注意转换只是一种可能的策略。我会重申先前关于非正态性的回答中的一般建议:
John Tukey 在他关于 EDA 的书中系统地讨论了转换。除了 Box-Cox 系列(仿射缩放的幂变换)之外,他还定义了一系列“折叠”变换,用于比例(本质上是 x/(1-x) 的幂)和“开始”计数(向计数数据添加正偏移在转换它们之前)。折叠变换基本上概括了 logit,对考试成绩特别有用。
完全不同的是,Johnson & Kotz 在他们关于分布的书中提供了许多转换,旨在将测试统计转换为近似正态性(或其他一些目标分布),例如卡方的立方根转换。当您预计您的数据将遵循某些特定分布时,此材料是有用转换的重要想法来源。
一个简单的选择是使用分数总和而不是分数本身。分布的总和趋于正态。例如,在教育中,您可以在一系列测试中添加学生的分数。
当然,另一种选择是使用不假定正态性的技术,这些技术被低估和未充分利用。