创建线性模型的一个好处是您可以查看模型学习并解释它们的系数。例如,您可以查看哪些特征具有最强的预测能力,哪些没有。
如果我们在拟合模型之前对所有特征进行归一化(将所有特征缩放到 0-1)与标准化(减去均值并除以标准差)它们,那么特征可解释性如何改变。
我在其他地方读到过,“如果你规范化你的特征,你会失去特征的可解释性”,但找不到原因的解释。如果这是真的,你能解释一下吗?
这是我建立的两个多元线性回归模型的系数的两个屏幕截图。它使用 Gapminder 2008 数据和每个国家的统计数据来预测其生育率。
首先,我使用 StandardScaler 缩放特征。在第二个中,我使用了 MinMaxScaler。Region_ 特征是分类的,是一次性编码的,没有缩放。
不仅系数会根据不同的缩放比例发生变化,而且它们的排序(重要吗?)也发生了变化!为什么会这样?这是什么意思?