我目前正在研究一个回归问题,我有 10 个输入/属性。
如果输入数据的不同特征之间存在相关性怎么办?输入之间的相关性是否会影响模型的性能(例如准确性)?
我目前正在研究一个回归问题,我有 10 个输入/属性。
如果输入数据的不同特征之间存在相关性怎么办?输入之间的相关性是否会影响模型的性能(例如准确性)?
不相关并不意味着独立,即如果两个特征不相关(即零相关),并不意味着它们是独立的。但是(非零)相关意味着依赖(有关更多详细信息,请参见https://stats.stackexchange.com/q/113417/82135)。因此,如果您在两个特征之间具有非零相关性,则意味着它们是相互依赖的。如果它们是依赖的,那么一个特性会为您提供关于另一个特性的信息,反之亦然:从某种意义上说,两者中的一个至少部分是多余的。
不必要的特征可能不会影响模型的性能(例如准确性)。但是,如果减少特征数量,学习过程实际上可能会更快。
您可能想尝试一些降维技术,以减少特征数量。