我试图了解如何使用 ANOVA 分析转换后的数据。
如果我的数据不符合正态性假设,并且我已经使用对数转换对其进行了转换以解决该问题,那么我是否会对转换后的分数进行分析并引用转换后的值?
编辑:更具体地说,当您已转换数据使其符合正态性假设,然后对转换后的分数运行 1 路方差分析时,如果您想绘制数据图表,您是否也应该使用转换后的分数,还是使用原始方法? 由于图形说明了变量之间的关系,我猜想使用转换后的值。
我试图了解如何使用 ANOVA 分析转换后的数据。
如果我的数据不符合正态性假设,并且我已经使用对数转换对其进行了转换以解决该问题,那么我是否会对转换后的分数进行分析并引用转换后的值?
编辑:更具体地说,当您已转换数据使其符合正态性假设,然后对转换后的分数运行 1 路方差分析时,如果您想绘制数据图表,您是否也应该使用转换后的分数,还是使用原始方法? 由于图形说明了变量之间的关系,我猜想使用转换后的值。
这取决于很多事情。分析是在转换空间内完成的,因此呈现反向转换的数据可能会扭曲事物(未转换的均值是错误的,但在某些情况下,将其从转换后的汇总、均值、方差等转换回来可能是可以的)。我想我要做的第一件事就是看看它在你进行反向转换时的样子。反向转换是否与转换后的数据完全相同。如果是这样,那么您可能会以这种方式呈现它。如果不是,那么您需要提供转换后的摘要。
即使您进行了反向转换,您也需要在结果部分明确该分析适用于转换。您说,“我们在数据日志中发现了显着影响”等。
无论如何,某些转换是任意测量的变体。例如,您可能以秒为单位测量反应时间,平均值为 0.5。通常,这种数据会向右拖尾,有时可以通过简单地取反来归一化,所以现在你的平均值是 2 响应/秒。很难争辩说哪一个更有意义地代表了所发生的事情,而且它们既直截了当表达又易于解释。
要考虑的另一件事是,有时转换后的数据实际上更有意义。有时需要对数据进行部分转换,因为转换是响应变量更自然的表达方式。
可能有很多事情需要考虑,我什至没有提到。如果您在决定特定问题时遇到困难,请询问有关您拥有的确切数据类型的特定问题。
@John 在这里有一个非常好的答案。我只想添加一个正交点。拥有正态分布的数据并不像许多人认为的那么重要。高斯-马尔可夫定理告诉我们,模型估计没有必要。正态性要求值在低时是准确的(即足够高值将是正确的,即使对于非正态数据也是如此)。如果很低,那么你会想要引导你的标准错误/值。
经常执行转换是因为数据在该尺度上最有意义/可解释,或者是为了纠正方差的异质性(比非正态性更重要的问题)。例如,约翰以反应时间为例。众所周知,反应时间的标准偏差随着平均值的增加而增加。取对数可以稳定方差。
这取决于您的应用,但在生物科学中,建议呈现未转换的方法,因为它们通常比转换的方法更容易解释