我是数据科学的新手。我想知道一个人应该如何对待一个非常重要的特征。
例如,其中一个功能是“开”/“关”,当它“关”时,其他任何功能都不重要,输出将始终为 0。所以我应该删除它“关”的所有行我的训练/测试数据集?我觉得这样我会变得更好。
如果我删除这些行,我会担心如何处理测试集中的这些行。例如,我必须编写代码来循环遍历数据并在这些行的预测列中放置一个 0,并确保其他所有内容都对齐。(这都是与 Kaggle 相关的,所以训练集是几列特征和一个 y_column,而测试集没有 y_column,我们应该预测它。)
如果这很重要,我正在使用 Python 和 Scikit Learn 的随机森林。