我们通常会过滤掉相关性较低或对目标变量没有显着影响的特征(列)。使用高维数据集(比方说,超过数千个特征)训练的算法将如何执行包含具有非常高相关性但具有不同目标变量的行?它不会让 ML 算法在分类任务中感到困惑吗?
让我举一个简单的例子来解释我的意思。假设给定汽车的价格,任务是将其分类为“廉价汽车”、“经济型汽车”、“豪华汽车”和“精英汽车”。进一步假设,一般预计两行之间的距离大于 1000。例如,如果一行描述价格为 1000 的汽车,那么我们分类中下一个更高级别的汽车预计至少为 2000。如果有一些数据集中的异常情况,例如价格为 1000 的汽车被归类为“便宜”,而价格为 1050 的汽车被归类为“精英”。这是大错特错。我们消除了不相关的特征。难道不应该有一些东西可以消除令人困惑的训练示例吗?