我经常在一个著名的数据科学竞赛平台上看到,很多人应用了一些降维技术,但他们没有使用它来减少模型的特征数量(复杂性),而是将结果特征附加到他们的数据集中。这不是给他们的模型增加复杂性而不是简化它吗?
为什么有些人将 PCA 和其他降维技术的结果添加为特征
数据挖掘
集成建模
2022-01-26 09:41:52
1个回答
这是特征工程。你只是从另一个角度让算法重新审视数据。当您有不同的观点时,它通常有助于更好地理解数据。
例如,假设您想通过简单的 ML 模型学习美国道路方向。你给他从道路 1 到 100 映射到 0(如果道路是东西向)或 1(道路是南北向)的所有示例,除了数字 47。然后你让模型预测 47,它会回答 0,因为在 46 到 48 之间被标记为 0。
现在,如果你给模型另一个角度(这里是道路编号的奇偶性),那么它显然会有效地学习道路方向。
您可以将 PCA 的结果视为奇偶校验,只是数据的另一种视图以便更好地理解它。