数据挖掘 - 试图找出训练集是哪个 - 吾爱随笔录

数据挖掘机器学习过拟合

2021-09-29 09:24:25

有人可以帮我解决这个问题吗？从屏幕截图中可以看出，它说损失是 1/2。那 1/2 是从哪里来的？如何替换 h(s) 函数中的值？

2个回答

从屏幕截图中可以看出，它说损失是 1/2。那 1/2 是从哪里来的？

预测器有什么作用 $h_S(\mathbf{x})$ 实际上呢？用简单的英语，它从训练集中预测标签，如果 $\mathbf{x}$ 是训练集的一个成员，否则它预测为 0。显然，这个预测器在训练集上评估时会表现得很好。它将达到0损失。

但是，如果我们不仅在训练集上，而且在整个分布上评估这个预测器，会发生什么 $\mathcal{D}$ ? 请注意，预测器将正确预测虚线蓝色正方形之外的任何实例。因为这是一个连续的区域，所以有无数个点 $h_S$ 会正确预测。

还要注意，有无数个点 $h_S$ 会预测错误。在蓝色方块内但未在训练集中找到的任何点都将被错误地预测为 0 而不是 1。

因为有无数个点 $h_S$ 是不正确的，并且有无数个点 $h_S$ 是正确的，作者说损失是1/2。

如何替换 h(s) 函数中的值？

$h_S(\mathbf{x})$ 是一个记忆分类器。如果它在训练期间已经“看到”了一个数据点，那么它将反刍该点的分类。否则它只会预测 0。

所以如果你给 $h_S$ 一个红点，它会预测 0。如果你给它一个蓝点，它会预测 1。如果你给它正方形中的任何其他点，它会预测 0。

澄清提议的分类器（因为我认为它取决于一些非标准符号）：根据其真实标签对（有限）训练集中的任何点进行分类。（很明显，这会给你在训练集上的错误率为 0。）对于不在训练集中的任何点，只需预测标签 0。

现在，考虑灰色方块中的一个随机新点：它与训练集中概率为 0 的点相同，因此假设不是。然后我们的分类器预测标签 0。但是该点有 1/2（蓝色方块的面积超过灰色方块的面积）成为标签 1。所以我们的分类器在测试数据上的错误率是 1/2。

其它你可能感兴趣的问题