我正在尝试生成一个模型,该模型使用分子的几种物理化学特性(包括原子数、环数、体积等)来预测数值. 我想使用 PLS 回归,我知道标准化在这里非常重要。我正在使用 scikit-learn 在 Python 中编程。
功能的类型和范围各不相同。有些是 int64,有些是浮点数。一些特征通常具有较小的(正或负)值,而另一些则具有非常大的值。我尝试过使用各种缩放器(例如标准缩放器、标准化、最小-最大缩放器等)。然而,R2/Q2 仍然很低。
我有几个问题:
是否有可能通过缩放,一些非常重要的特征失去了它们的意义,从而对解释响应变量的方差贡献较小?
如果是,如果我确定了一些重要特征(通过专业知识),是否可以扩展除这些之外的其他特征?还是仅扩展重要功能?
一些特征,虽然并不总是相关的,但与其他特征(例如-1到10)相比,具有相似范围内的值(例如100-400)。是否可以仅缩放同一范围内的特定功能组?