当我们有不同标签的相同观察时,我们应该怎么做?

人工智能 机器学习 人工智能设计 训练 数据科学
2021-11-03 05:58:33

假设我们有一个带有列的标记数据集A,B, 和C和一个二元结果变量X. 假设我们有如下行:

 col  A B C X
  1   1 2 3 1
  2   4 2 3 0
  3   6 5 1 1
  4   1 2 3 0

我们应该丢弃第 1 行还是第 4 行,因为它们具有不同的结果变量 X 值?还是两个都保留?

3个回答

您所描述的问题看起来像是修改后的XOR 问题您不能丢弃标签为 1 的行,因为模型将无法学习此类。

这在随机环境中是完全可以接受的。通常你的损失是最小化log p(Y|X)或等效地ilog p(yi|xi). 这种优化相当于Elog p(yi|xi). 换句话说,在这种情况下你正在最小化:

L=log p(1|x0)log p(0|x0)=log[p(1|x0)p(0|x0)]=log[p(1|x0)(1p(1|x0))]

或者因为 log 是凹的,所以等效地最小化
L^=p(1|x0)(1p(1|x0))
在一些基本的计算 1 之后,我们看到我们希望系统学习的最佳结果是
p(1|x0)=.5

请注意,如果您有更多证据,结果只是您希望它知道它是1有概率Ei yi|x

我可能会考虑 2 个模型(丢弃 col 1 并丢弃 col 4),以及另外一个保留两者的模型,看看哪个更适合测试集。