试图找出训练集是哪个
数据挖掘
机器学习
过拟合
2021-09-29 09:24:25
2个回答
从屏幕截图中可以看出,它说损失是 1/2。那 1/2 是从哪里来的?
预测器有什么作用实际上呢?用简单的英语,它从训练集中预测标签,如果是训练集的一个成员,否则它预测为 0。显然,这个预测器在训练集上评估时会表现得很好。它将达到0损失。
但是,如果我们不仅在训练集上,而且在整个分布上评估这个预测器,会发生什么 ? 请注意,预测器将正确预测虚线蓝色正方形之外的任何实例。因为这是一个连续的区域,所以有无数个点会正确预测。
还要注意,有无数个点会预测错误。在蓝色方块内但未在训练集中找到的任何点都将被错误地预测为 0 而不是 1。
因为有无数个点是不正确的,并且有无数个点是正确的,作者说损失是1/2。
如何替换 h(s) 函数中的值?
是一个记忆分类器。如果它在训练期间已经“看到”了一个数据点,那么它将反刍该点的分类。否则它只会预测 0。
所以如果你给一个红点,它会预测 0。如果你给它一个蓝点,它会预测 1。如果你给它正方形中的任何其他点,它会预测 0。
澄清提议的分类器(因为我认为它取决于一些非标准符号):根据其真实标签对(有限)训练集中的任何点进行分类。(很明显,这会给你在训练集上的错误率为 0。)对于不在训练集中的任何点,只需预测标签 0。
现在,考虑灰色方块中的一个随机新点:它与训练集中概率为 0 的点相同,因此假设不是。然后我们的分类器预测标签 0。但是该点有 1/2(蓝色方块的面积超过灰色方块的面积)成为标签 1。所以我们的分类器在测试数据上的错误率是 1/2。
其它你可能感兴趣的问题
