我对 DS 比较陌生,如果这是一个愚蠢的问题或在错误的论坛中,请原谅我
在评估特征时,似乎几乎所有地方都使用了相关矩阵[df.corr(), cor(df, method="pearson")]
。
我理解它的方式是,相关矩阵描述了每个特征/预测变量与所有其他变量之间的线性关系(强负到强正)的强度和方向性。
然而
如果表示每个特征/预测变量(按比例)之间由线性关系解释的可变性量,这不会为模型选择或特征工程提供更多信息吗?
所以
总是对相关矩阵进行平方以获得值而不查看相关矩阵?
了解特征之间是否存在正相关或负相关与模型选择或特征工程的相关性如何?