在分析我的数据时,我发现了与解释此回归系数中描述的问题类似的问题。我正在使用回归分析来构建使用运动传感器的人体能量消耗估计模型。根据运动的强度,传感器的输出可能高达每分钟 1,000 到 2,000 个计数,而我的数据显示平均每分钟 900-1,100 个计数。我使用这些数据开发了一个模型,将能量消耗作为因变量,将运动传感器输出作为自变量。结果表明模型具有统计学意义(),但我的自变量的非标准化系数显示为. 我尝试将输出除以 100,系数变为. 我想知道我所做的是否在统计/数学上有效?如果是这样,是否有参考资料(学术论文等)可以证明这一点?
将数据除以常数以使估计的 beta 更大/更易于解释是否有效?
机器算法验证
回归
参考
2022-03-22 12:16:49
3个回答
无论您使用什么软件,显然都将系数报告为 3 dp 所以 0.000 只是意味着 <0.0005。
使用产生不会大或小的系数的测量单位是非常有意义的。由此不违反统计原则。您不需要参考或授权来支持这一点:可以根据问题和您所在领域熟悉的单位选择(例如)毫米或米或公里或英里或英尺或英寸的长度。
在您的情况下,除以 60 来获得每秒计数如何?您所在领域的人是否曾经将其用作一个单位?
一种看待它的方式是这样。如果您更改所有自变量的单位(同时保持因变量的相同单位),那么您应该预期回归系数会发生变化。单位越小,意味着值越大,系数越小。没有学术论文会提出这样的基本观点,但是如果您需要证明理由,可以参考矩阵形式的系数公式:
这里是自变量值的矩阵显示为平方项乘以非平方项的倒数,净效应是较小的单位,意味着较大的值,减小系数的值。
在实践中,当回归包含一个常数项时,事情会稍微复杂一些,需要在其中包含 1 的列. 改变自变量的单位不会改变常数(只有改变因变量的单位才会改变)。
相比之下,系数的 p 值是一个无单位的显着性度量(与零的差异),并且不会随着变量的单位改变而改变。
我喜欢将此视为一个问题,即为预测变量 X 选择 x1 和 x2 的代表性或其他合理值,并在 X=x2 减去 X=x1 时的预测 Y 时得到预测 Y。很容易获得这种差异的置信区间(在 R 中,这是rms包的一个特性)。这可以处理 X 效应中的非线性。我不喜欢重新编码数据只是为了更容易获得预测值。我喜欢完全准确地说明我的估计。我经常选择 x1=X 的第 25 个百分位,x2=75 个百分位。
其它你可能感兴趣的问题