数据挖掘 - 加权损失函数与加权采样？ - 吾爱随笔录

数据挖掘机器学习数据集图像分类损失函数加权数据

2022-02-12 21:58:33

对于图像分类任务，使用加权损失函数与使用加权采样之间有实际区别吗？（我会很感激理论论据、经验或发表的论文，任何东西。）

一些细节：

通过“加权抽样”，我的意思是为训练集中的每个样本分配不同的抽样概率。

通过“加权损失函数”，我的意思是根据所考虑的样本对误差项进行不同的加权。

1个回答

首先，我要指出这两个概念可以很好地共存。让我们看下面的例子：

图像分类包括 2 个类别和覆盖 2 个域的样本。这些类是不平衡的，一个域比另一个域“更难”。您可以使用加权采样从“较难”域中采样更多示例，同时使用加权损失来应对类不平衡。

现在让我们看看一些优点和缺点：

称量每个样本意味着您了解所有样本并对其进行评分。从实践的角度来看，这并不总是可能或可行的。确实，在流式传输训练样本的情况下，您无法控制哪些样本来自您的方式，并且加权采样是不可能的。或者在您不断更新每个样本的权重的情况下。

另一方面，更新样本的权重比在整个训练过程中修改损失要实用得多。

从好的方面来说，加权损失不依赖于实例的采样方式，这可能更实用。不利的一面是，如果您以大多数实例的权重较低的方式对数据进行采样，您的模型将不会快速更新。

其它你可能感兴趣的问题