如何为 ML 选择输入变量

数据挖掘 机器学习 深度学习 预测建模 特征选择 特征工程
2022-02-18 07:21:40

假设我有一个包含 100K 记录和 60 列的庞大数据库。假设其中一列是“min_p”。我所做的是应用一些逻辑/规则来确定该记录的输出标签。基本上我会查看这个 min_p 的前两条记录和后两条记录。如果满足条件,我将标签标记为 1,否则我将其标记为 0。

现在我的问题是,由于我直接从这个名为“min_p”的标签中派生了标签,我应该将它作为我的预测变量之一保留在我的最终数据集中吗?由于我使用了派生标签,因此我没有将它们作为输入变量包含在我的数据集中,认为它不正确

你能帮我解决这个问题吗?

1个回答

[已编辑,我误读了第一版中的问题]

标签是由该特征的值组合确定的事实本身并不是问题:如果有意义,最好为学习算法提供最佳指标。所以唯一的问题是:

  • 为任何新实例提供该功能作为输入是否对您的问题有意义:如果是,则没有理由将其删除。
  • 将 ML 应用于您的问题是否有用:如果可以直接从单个特征确定标签,那么训练模型根本就没有用。

您提到标签是基于前/后两条记录的信息。请记住,模型需要为任何单个实例预测其目标作为输入,除非您使用的是顺序模型(例如使用时间序列)。