让我们以噪声很大的 MNIST 数据集(我的应用程序不同)为例,我将训练一个深度神经网络来对字母进行分类。
什么是正确的推断方法,没有字母的可能性?还是训练集中未包含的字母?
我是否必须添加“not a letter”类并尝试选择或模拟数据集中没有字母但有噪音的部分,
或者,我可以在不添加额外标签的情况下做到这一点?
让我们以噪声很大的 MNIST 数据集(我的应用程序不同)为例,我将训练一个深度神经网络来对字母进行分类。
什么是正确的推断方法,没有字母的可能性?还是训练集中未包含的字母?
我是否必须添加“not a letter”类并尝试选择或模拟数据集中没有字母但有噪音的部分,
或者,我可以在不添加额外标签的情况下做到这一点?
您正在寻找的是异常检测或新奇检测。
这不能总是通过将一些图像标记为“无字母”来解决,因为所有类型的没有字母的图像都可能无法用于标记,或者可能过于昂贵而无法详尽地标记。
这个链接有一些方向,你可以先看看。
对于来自搜索引擎的其他人;
您可以根据输出分数做出决定,如果网络对分配的标签有足够的信心,您将看到 > 0.8(例如)和其他类别的极小分数。
但是,如果网络不够自信,分数值往往会采用可比较的值(尤其是在最后使用 softmax 时)。
因此,将这个和我标记为解决我的问题的答案结合起来,我做了一种类似于新颖性检测的方法,使用 KMeans 来猜测一个阈值,低于该阈值的输入数据将被视为不属于任何类标签。