加权损失函数与加权采样?

数据挖掘 机器学习 数据集 图像分类 损失函数 加权数据
2022-02-12 21:58:33

对于图像分类任务,使用加权损失函数与使用加权采样之间有实际区别吗?(我会很感激理论论据、经验或发表的论文,任何东西。)

一些细节:

通过“加权抽样”,我的意思是为训练集中的每个样本分配不同的抽样概率。

通过“加权损失函数”,我的意思是根据所考虑的样本对误差项进行不同的加权。

1个回答

首先,我要指出这两个概念可以很好地共存。让我们看下面的例子:

图像分类包括 2 个类别和覆盖 2 个域的样本。这些类是不平衡的,一个域比另一个域“更难”。您可以使用加权采样从“较难”域中采样更多示例,同时使用加权损失来应对类不平衡。

现在让我们看看一些优点和缺点:

  • 加权抽样

称量每个样本意味着您了解所有样本并对其进行评分。从实践的角度来看,这并不总是可能或可行的。确实,在流式传输训练样本的情况下,您无法控制哪些样本来自您的方式,并且加权采样是不可能的。或者在您不断更新每个样本的权重的情况下。

另一方面,更新样本的权重比在整个训练过程中修改损失要实用得多。

  • 加权损失

从好的方面来说,加权损失不依赖于实例的采样方式,这可能更实用。不利的一面是,如果您以大多数实例的权重较低的方式对数据进行采样,您的模型将不会快速更新。