我有一个包含 5K 记录的数据集,用于二进制分类问题。
我的特征是min_blood_pressure、max_blood_pressure、min_heart_rate等max_heart_rate。类似地,我有超过 15 个测量值,每个测量值都有30 个变量的列min。max
当我correlation在数据上运行时,我能够看到这些输入特征是高度相关的。我的意思min_blood_pressure是与 高度相关(>80%)max_blood_pressure。每个测量及其min和max特征都是高度相关的。尽管它们与目标变量的个体相关性较小。
那么在这种情况下,我应该放弃哪一个或者我应该如何处理这种情况?
我想有min和max变量是有原因的。在这种情况下你会怎么做?
我们是否应该找到所有测量值的平均值并创建一个新特征?
谁能帮我这个?