试图找出训练集是哪个

数据挖掘 机器学习 过拟合
2021-09-29 09:24:25

有人可以帮我解决这个问题吗?从屏幕截图中可以看出,它说损失是 1/2。那 1/2 是从哪里来的?如何替换 h(s) 函数中的值?

在此处输入图像描述

PDF

2个回答

从屏幕截图中可以看出,它说损失是 1/2。那 1/2 是从哪里来的?

预测器有什么作用hS(x)实际上呢?用简单的英语,它从训练集中预测标签,如果x是训练集的一个成员,否则它预测为 0。显然,这个预测器在训练集上评估时会表现得很好。它将达到0损失。

但是,如果我们不仅在训练集上,而且在整个分布上评估这个预测器,会发生什么 D? 请注意,预测器将正确预测虚线蓝色正方形之外的任何实例。因为这是一个连续的区域,所以有无数个点hS会正确预测。

还要注意,有无数个点hS会预测错误。在蓝色方块内但未在训练集中找到的任何点都将被错误地预测为 0 而不是 1。

因为有无数个点hS是不正确的,并且有无数个点hS是正确的,作者说损失是1/2。


如何替换 h(s) 函数中的值?

hS(x)是一个记忆分类器。如果它在训练期间已经“看到”了一个数据点,那么它将反刍该点的分类。否则它只会预测 0。

所以如果你给hS一个红点,它会预测 0。如果你给它一个蓝点,它会预测 1。如果你给它正方形中的任何其他点,它会预测 0。

澄清提议的分类器(因为我认为它取决于一些非标准符号):根据其真实标签对(有限)训练集中的任何点进行分类。(很明显,这会给你在训练集上的错误率为 0。)对于不在训练集中的任何点,只需预测标签 0。

现在,考虑灰色方块中的一个随机新点:它与训练集中概率为 0 的点相同,因此假设不是。然后我们的分类器预测标签 0。但是该点有 1/2(蓝色方块的面积超过灰色方块的面积)成为标签 1。所以我们的分类器在测试数据上的错误率是 1/2。