假设我有一个包含 100K 记录和 60 列的庞大数据库。假设其中一列是“min_p”。我所做的是应用一些逻辑/规则来确定该记录的输出标签。基本上我会查看这个 min_p 的前两条记录和后两条记录。如果满足条件,我将标签标记为 1,否则我将其标记为 0。
现在我的问题是,由于我直接从这个名为“min_p”的标签中派生了标签,我应该将它作为我的预测变量之一保留在我的最终数据集中吗?由于我使用了派生标签,因此我没有将它们作为输入变量包含在我的数据集中,认为它不正确
你能帮我解决这个问题吗?
假设我有一个包含 100K 记录和 60 列的庞大数据库。假设其中一列是“min_p”。我所做的是应用一些逻辑/规则来确定该记录的输出标签。基本上我会查看这个 min_p 的前两条记录和后两条记录。如果满足条件,我将标签标记为 1,否则我将其标记为 0。
现在我的问题是,由于我直接从这个名为“min_p”的标签中派生了标签,我应该将它作为我的预测变量之一保留在我的最终数据集中吗?由于我使用了派生标签,因此我没有将它们作为输入变量包含在我的数据集中,认为它不正确
你能帮我解决这个问题吗?
[已编辑,我误读了第一版中的问题]
标签是由该特征的值组合确定的事实本身并不是问题:如果有意义,最好为学习算法提供最佳指标。所以唯一的问题是:
您提到标签是基于前/后两条记录的信息。请记住,模型需要为任何单个实例预测其目标作为输入,除非您使用的是顺序模型(例如使用时间序列)。