我对四个变量进行了线性回归分析。响应,比如每 2000 只母鸡的鸡蛋数量,以及预测因素之一,比如温度变化,是高度偏斜的因此,当值为零或正数时,当值为负时。此外,我已经标准化了三个预测变量,但没有标准化响应变量。我需要以下帮助:
1)我如何解释系数,例如(转换后的预测器)是 0.385,(预测器是自然形式)是 0.102?
、和的系数和 t 值非常高。这是否表明我的模型存在问题?
我对四个变量进行了线性回归分析。响应,比如每 2000 只母鸡的鸡蛋数量,以及预测因素之一,比如温度变化,是高度偏斜的因此,当值为零或正数时,当值为负时。此外,我已经标准化了三个预测变量,但没有标准化响应变量。我需要以下帮助:
1)我如何解释系数,例如(转换后的预测器)是 0.385,(预测器是自然形式)是 0.102?
、和的系数和 t 值非常高。这是否表明我的模型存在问题?
我非常同意 COOLSerdash 和 Srikanth Guhan 的建议,即泊松回归对您的问题更自然。因此,转换响应的想法比使用适当的计数模型要弱得多。泊松回归在许多优秀的文章和这个论坛中都有很好的记录。实际上,您会得到对数尺度的处理,但有聪明的想法确保数据中的零不会咬人。(如果 Poisson 回归被证明是一种过度简化,那么还有其他模型。)
该答案的其余部分侧重于您使用的转换,以及将温度变化作为可以为负、零或正的预测变量是否是一个好主意。到目前为止,这是一个更不寻常的问题。
这里使用的变换有一个名称,asinh或反双曲正弦。它的图形比使用初等数学中更可能遇到的其他函数的问题中的代数定义更好:
该函数是为参数的所有有限值定义的,。我在到的范围内任意绘制了它,但该范围尽可能地考虑了您的示例;我们稍后会谈到。
这种转换的优点包括对称地处理正值和负值。当参数经过零时,转换的结果平滑变化。它肯定会引入大正或大负的异常值。在许多情况下,它可能会减少偏斜。
转换的另一个优点是它接近于零值附近的恒等转换。该图在原点附近显示一条等线,以强调该点。(所有双关语都应该被认为是故意的。)
我想强调对使用这种转换的保留意见。
首先但并非最不重要的一点是,即使人们在前世遇到过这种转变,我怀疑很多人对它是什么以及它如何运作保持良好的感觉。就个人而言,我大约每三年在统计实践中遇到它,并且每次都必须绘制图表并考虑它。除非您在一个众所周知的技巧领域工作,否则大多数读者会说“那是什么?” 以某种方式。这并不排除它是一种解决方案,但在想象将其放入论文或论文中时,这是一个实际的考虑。
其次,更重要的是,我怀疑这有任何生物学(物理、经济等)理由。想象温度变化以这种方式影响生物体,这是非物理和非生理的。自然,我们出于纯粹的统计原因在统计中做一些事情,但是当这在科学上有意义时,这是一种奖励,而不是其他方面。
第三,您当然应该做的是为您的数据绘制 asinh(温度变化)与温度变化的关系,并询问它真正产生了多大的差异。正如所指出的,对于小接近线性。与我的数据点图等效的散点图可能表明您最好将数据保持原样。偏度是如何产生的?是少数异常值的问题吗?我现在将揭示我从到的限制来自一个(另一个疯狂的)猜测,即你的大部分温度变化都会很小,一些C.(什么是温度变化?每天都在变化吗?真正大的温度变化可能只会杀死母鸡,或者让它们完全停止产蛋;也许这是你的问题的一部分。)所以:一种可能性是这种转变使差异比您想象的要小,在这种情况下不这样做会简化您的分析。另一种可能性是这里存在一个真正的问题,可能需要以其他方式处理。我们需要更多地了解您的数据,以便提供更好的建议。
第四,也许也是最重要的一点,任何预测变量的边际分布本身对于回归模型并不重要,这与许多反复循环的神话相反。
第五,绘制残差与预测变量是查看使用的预测变量版本是否在您的模型中实际运行良好的(部分)方法。此图上的模式可能表明您弄错了。(通过“版本”,我的意思是温度变化,或其 asinh,或其他一些转变。)
我认为这里的预测变量标准化没有太多必要或优点。
在寻求更好的建议时,发布您的数据也可以更容易地提供建议。
编辑 2021 年 9 月 3 日“对此保持个人看法”自从写了这篇文章以来,我已经更多地看到了 asinh 的实际操作,并使用了与数据相关的定义及其派生词。因此,我更清楚它是如何以及何时起作用或有帮助的。这是微不足道的,但也是普遍的:如果某件事不熟悉,您可能必须在它变得熟悉之前对其进行处理。