假设我们有一个带有列的标记数据集,, 和和一个二元结果变量. 假设我们有如下行:
col A B C X
1 1 2 3 1
2 4 2 3 0
3 6 5 1 1
4 1 2 3 0
我们应该丢弃第 1 行还是第 4 行,因为它们具有不同的结果变量 X 值?还是两个都保留?
假设我们有一个带有列的标记数据集,, 和和一个二元结果变量. 假设我们有如下行:
col A B C X
1 1 2 3 1
2 4 2 3 0
3 6 5 1 1
4 1 2 3 0
我们应该丢弃第 1 行还是第 4 行,因为它们具有不同的结果变量 X 值?还是两个都保留?
您所描述的问题看起来像是修改后的XOR 问题。您不能丢弃标签为 1 的行,因为模型将无法学习此类。
这在随机环境中是完全可以接受的。通常你的损失是最小化或等效地. 这种优化相当于. 换句话说,在这种情况下你正在最小化:
或者因为 log 是凹的,所以等效地最小化
在一些基本的计算 1 之后,我们看到我们希望系统学习的最佳结果是
请注意,如果您有更多证据,结果只是您希望它知道它是有概率
我可能会考虑 2 个模型(丢弃 col 1 并丢弃 col 4),以及另外一个保留两者的模型,看看哪个更适合测试集。