转换数据:所有变量还是非正常变量?

机器算法验证 正态分布 数据转换
2022-02-10 08:13:53

在 Andy Field 的 Discovering Statistics Using SPSS 中,他指出所有变量都必须进行转换。

然而在出版物中:“使用地理加权回归 I:模型设计和评估检查土地利用和水质之间的空间变化关系”,他们明确指出只有非正态变量被转换。

这个分析具体吗?例如,在比较均值时,将日志与原始数据进行比较显然会产生显着差异,而当使用回归之类的方法来研究变量之间的关系时,它就变得不那么重要了。

编辑:这是“数据转换”部分的全文页面:

这是论文的链接: http ://www.sciencedirect.com/science/article/pii/S0048969708009121

2个回答

您引用了几条建议,毫无疑问,所有这些建议都是有帮助的,但很难从中找到很多优点。

在每种情况下,我都完全依赖您引用的摘要。在作者的辩护中,我想相信他们在周围或其他材料中添加了适当的资格。(通常名称、日期、标题、(出版商、地点)或(期刊标题、卷、页)格式的完整参考书目将增强问题。)

场地

该建议旨在提供帮助,但充其量只是过于简单化了。菲尔德的建议似乎是普遍的。例如,对 Levene 检验的引用意味着对方差分析的一些临时关注。

例如,假设我有一个预测变量,应该记录各种理由,另一个指标变量是(1,0). 后者 (a) 不能被记录 (b) 不应该被记录。(实际上,将指示变量转换为任何两个不同的值都没有重要影响。)

更一般地说,在许多领域中,通常情况下,一些预测变量应该被转换,其余的保持原样,这是很常见的。

确实,在论文或论文中遇到对不同预测变量应用不同的转换的混合(包括作为特殊情况、身份转换或保持原样)通常是读者关心的问题。混合是经过深思熟虑的选择,还是任意和反复无常的?

此外,在一系列研究中,方法的一致性(总是对响应应用对数,或者从不这样做)确实有助于比较结果,而不同的方法使其变得更加困难。

但这并不是说永远不可能有混合转型的理由。

我认为您引用的大部分部分与您以黄色突出显示的关键建议没有太大关系。这本身就是一个令人担忧的问题:宣布一个绝对规则然后不真正解释它是一件奇怪的事情。相反,禁令“记住”表明菲尔的理由是在本书的前面提供的。

匿名论文

这里的上下文是回归模型。通常,谈论 OLS 奇怪地强调估计方法而不是模型,但我们可以理解其意图。GWR 我解释为地理加权回归。

这里的论点是您应该转换非正态预测变量并保持其他变量不变。同样,这提出了一个问题,即您可以和应该如何处理不能正态分布的指标变量(如上所述,可以通过指出在这种情况下的非正态性不是问题来回答)。但是该禁令反过来暗示了预测变量的非正态性才是问题所在。不是这样;假设预测变量的边际分布不是回归建模的一部分。

在实践中,如果您使预测变量更接近正态,那么您通常会应用转换来生成函数形式Xβ更接近于数据,尽管在许多文本中都非常强调错误结构,但我会断言这是转换的主要原因。换句话说,如果您在转换后的空间中更接近线性,那么记录预测变量以使其更接近正态性可能会出于错误的原因做正确的事情。

在这个论坛上有很多关于转换的非常好的建议,我专注于讨论你引用的内容。

PS您添加了一条以“例如,在比较均值时,将日志与原始数据进行比较显然会产生显着差异”的语句。我不清楚您的想法,但是将一组的值与另一组的值的对数进行比较是荒谬的。我完全不明白你的其余陈述。

首先,这两个引号都具有误导性,因为应用于回归模型的数据的任何转换都不是为了使变量PDF 更正态分布,而是为了使模型残差更加对称,因为经典回归中的一个假设是误差是高斯的。这意味着比仅仅对称 PDF 更严格和严格。

此外,这两个引述都很薄弱,因为没有一个人深入研究他们开处方的动机(至少基于所提供的信息)。碰巧,我不同意两者。

在您强调的段落中,SPSS 书声称不允许混合转换(例如,一个变量的自然对数,另一个变量的平方根)。为什么这是非法的?转换的混合不违反我所知道的回归假设。请检查有关回归假设的任何回归文本,以确认情况属实。就其解释而言,转换混合物可能会带来实质性的描述性问题,但这不是混合物是否非法的问题。SPSS家伙错了。

就第二个文本而言,再一次,转换完全是分析师选择的问题——无论是否进行转换,转换所有输入或某些变量而不是其他变量。这些都不违反任何假设。

我认为第二个引用偏离轨道的地方是,“......为了避免潜在的多重共线性......只有一个土地使用指标(被使用)......”这是一个非常糟糕的建议,听起来像一些分析师将作为一种降维技术做的事情,他们将因素分析一堆变量并选择每个因素的最高负载变量。这种启发式方法已经存在多年,我既不使用也不推荐。同样,这是分析师偏好和培训的问题。但这一点并不是针对回答您的具体问题。

归根结底,根据所提供的信息,在没有任何支持证据的情况下,这两个引用都是作者观点的断言。