数据挖掘 - 如何为 ML 选择输入变量 - 吾爱随笔录

数据挖掘机器学习深度学习预测建模特征选择特征工程

2022-02-18 07:21:40

假设我有一个包含 100K 记录和 60 列的庞大数据库。假设其中一列是“min_p”。我所做的是应用一些逻辑/规则来确定该记录的输出标签。基本上我会查看这个 min_p 的前两条记录和后两条记录。如果满足条件，我将标签标记为 1，否则我将其标记为 0。

现在我的问题是，由于我直接从这个名为“min_p”的标签中派生了标签，我应该将它作为我的预测变量之一保留在我的最终数据集中吗？由于我使用了派生标签，因此我没有将它们作为输入变量包含在我的数据集中，认为它不正确

你能帮我解决这个问题吗？

1个回答

[已编辑，我误读了第一版中的问题]

标签是由该特征的值组合确定的事实本身并不是问题：如果有意义，最好为学习算法提供最佳指标。所以唯一的问题是：

您提到标签是基于前/后两条记录的信息。请记住，模型需要为任何单个实例预测其目标作为输入，除非您使用的是顺序模型（例如使用时间序列）。

其它你可能感兴趣的问题