在审查一篇论文时,作者指出,“在进行 t 检验以满足正态性的先决条件假设之前,使用自然对数对表现出偏态分布的连续结果变量进行了转换。”
这是分析非正态数据的可接受方式,特别是如果基础分布不一定是对数正态分布?
这可能是一个非常罕见的问题,但我以前从未见过这样做......
在审查一篇论文时,作者指出,“在进行 t 检验以满足正态性的先决条件假设之前,使用自然对数对表现出偏态分布的连续结果变量进行了转换。”
这是分析非正态数据的可接受方式,特别是如果基础分布不一定是对数正态分布?
这可能是一个非常罕见的问题,但我以前从未见过这样做......
当遇到非正态数据时,通常会尝试对正态性应用某种转换(使用例如对数、平方根等)。虽然对数经常合理地为偏斜数据产生良好的结果,但不能保证它在这种特殊情况下会起作用。在分析转换后的数据时,还应牢记@whubers 上面的评论:“对数的 t 检验既不同于未转换数据的 t 检验,也不是非参数检验。日志上的 t 检验比较几何手段,而不是(通常的)算术手段。”
转换为正态性后应始终对正态性假设进行调查,以评估转换后的数据是否看起来“足够正常”。这可以使用例如直方图、QQ 图和正态性检验来完成。t 检验对偏态形式的正态性偏差特别敏感,因此针对偏态备选方案的正态性检验将是更可取的。Pearson 样本偏度在这种情况下是一个合适的检验统计量。
与其选择转换(例如对数),因为它在大多数情况下都有效,我更喜欢使用Box-Cox 过程来选择使用给定数据的转换。然而,这有一些哲学问题;特别是这是否会影响 t 检验中的自由度数量,因为我们在选择要使用的变换时使用了样本中的一些信息。
最后,在转换后使用 t 检验或经典非参数检验的一个很好的替代方法是使用 t 检验的引导模拟。它不需要假设正态性,并且是对未转换均值的测试(而不是其他任何东西)。