如果表现得相当好,是否有必要对比例数据进行转换?

机器算法验证 造型 数据转换 部分
2022-03-14 10:54:47

如果您要针对众多也是比例的预测变量对比例响应进行建模,如果标准 OLS 模型似乎表现良好,是否有必要转换响应?

表现良好的意思是:

  • 没有任何拟合值超出 [0,1] 范围(实际上它们相当准确)
  • 残差看起来不错

我相信在这种情况下通常使用反正弦变换来使数据看起来正常,但是如果不需要呢?

另外,假设数据不正常,如果使用随机森林技术对比例进行建模,是否仍然需要进行转换?

干杯

1个回答

这取决于。如果你的目标是预测,那么如果手头的模型做得好,你可能不需要做任何体操来获得理论上更合理的模型。但当然,您应该始终意识到,一个适合呈现数据的模型可能无法在新数据上表现良好。您可以尝试使用交叉验证来感受这一点,尽管您可能根本没有样本中表示的分布的重要方面。

如果您想使用模型中的某些参数进行推断,那么该模型应该由手头的问题驱动。

无论如何,第一步就是查看响应。它大致呈钟形吗?你试过反正弦变换吗?转换后的分布看起来(很大)不同吗?如果比例分布相当紧凑并且位于中间某个位置,则转换可能不会起到太大作用。然后,当然,转换是否会对回归产生影响?