假设我正在使用最大似然方法,并且我的输出单元计算一个 softmax 函数。我的训练集分布如下,分为 6 个类:
class_samples[0]=23, class_samples[1]=5, class_samples[2]=44,
class_samples[3]=14, class_samples[4]=19, class_samples[5]=31
我该怎么办?
使用上面给出的训练集和归一化权重平衡(例如使用
sklearn.utils.class_weight.compute_class_weight)。还是我应该简单地使用一个类中的最小样本数(即 5 个)来提取样本的平衡分布?
为什么我应该选择一个而不是另一个?直觉上,我认为使用尽可能多的训练示例是更好的选择。但是,我尝试进行一些计算,但我未能证明使用所有具有标准化权重平衡的示例会更好。
我当然试图做一些繁重的研究,但由于某种原因我找不到答案。如果您知道一篇好文章,我会接受参考作为答案,就像我会接受“自制”答案一样!