人工智能 - 当我们有不同标签的相同观察时，我们应该怎么做？ - 吾爱随笔录 - 问答

当我们有不同标签的相同观察时，我们应该怎么做？

人工智能机器学习人工智能设计训练数据科学

2021-11-03 05:58:33

假设我们有一个带有列的标记数据集 $A$ , $B$ ，和 $C$ 和一个二元结果变量 $X$ . 假设我们有如下行：

 col  A B C X
  1   1 2 3 1
  2   4 2 3 0
  3   6 5 1 1
  4   1 2 3 0

我们应该丢弃第 1 行还是第 4 行，因为它们具有不同的结果变量 X 值？还是两个都保留？

3个回答

您所描述的问题看起来像是修改后的XOR 问题。您不能丢弃标签为 1 的行，因为模型将无法学习此类。

这在随机环境中是完全可以接受的。通常你的损失是最小化 $-log\ p(Y|X)$ 或等效地 $-\sum_i log\ p(y_i|x_i)$ . 这种优化相当于 $-\mathbb{E}\log\ p(y_i|x_i)$ . 换句话说，在这种情况下你正在最小化：

\begin{aligned} L & = - l o g p (1 | x_{0}) - l o g p (0 | x_{0}) \\ = - l o g [p (1 | x_{0}) * p (0 | x_{0})] \\ = - l o g [p (1 | x_{0}) * (1 - p (1 | x_{0}))] \end{aligned}

$\begin{align*} L &= -log\ p(1|x_0) - log\ p(0|x_0) \\ &= -log [p(1|x_0) * p(0|x_0)] \\ &= -log [p(1|x_0) * (1 - p(1|x_0))] \\ \end{align*}$
或者因为 log 是凹的，所以等效地最小化

\hat{L} = - p (1 | x_{0}) * (1 - p (1 | x_{0}))

$\hat L = -p(1|x_0) * (1 - p(1|x_0))$ 在一些基本的计算 1 之后，我们看到我们希望系统学习的最佳结果是

p (1 | x_{0}) = .5

$p(1|x_0) = .5$

请注意，如果您有更多证据，结果只是您希望它知道它是 $1$ 有概率 $\mathbb{E}_i\ y_i | x$

我可能会考虑 2 个模型（丢弃 col 1 并丢弃 col 4），以及另外一个保留两者的模型，看看哪个更适合测试集。

其它你可能感兴趣的问题

上一篇人类演员用来模仿机器人的方法是什么？下一篇通过不提供不相关的数据来防止偏见