在预测模型中,我将变量标准化为预测变量。假设我必须在未来的某个时候根据新数据对模型进行重新评分:我是像构建模型时一样使用均值/标准来对新数据进行居中和缩放,还是像它们一样使用均值/标准与我正在评分的数据。
我的看法是使用我正在评分的数据的平均值/标准,因为我希望标准化变量能够反映评分时的分布。
原始手段/标准与当前手段/标准的优缺点?
谢谢。
在预测模型中,我将变量标准化为预测变量。假设我必须在未来的某个时候根据新数据对模型进行重新评分:我是像构建模型时一样使用均值/标准来对新数据进行居中和缩放,还是像它们一样使用均值/标准与我正在评分的数据。
我的看法是使用我正在评分的数据的平均值/标准,因为我希望标准化变量能够反映评分时的分布。
原始手段/标准与当前手段/标准的优缺点?
谢谢。
这是在回归之前标准化变量的主要问题之一。输出的全部含义取决于样本。我更喜欢使用非标准化变量,这样就不会出现这个问题(和类似问题)。
如果要拟合模型其中并使用该模型来预测对于某些给定的值,然后使用原始的和来标准化用于预测
但是,如果一个人有许多和的新值并且想要重新拟合模型,则基于和。