模型偏向于低频数据?

数据挖掘 训练 偏见
2022-03-12 10:33:43

通常模型偏向于训练数据集中频率较高的 data_samples/target。在训练过程中,模型是否有可能偏向低频训练数据集。

1个回答

对于结构化数据,您通常面临 4 个挑战:

(1) 缺失数据

(2) 异常值

(3) 基数

(4) 稀有值(根据经验,<5%)

分类变量中的稀有值往往会导致过度拟合,尤其是在基于树的方法中。博士 数据科学家 Soledad Galli 有一个关于这个主题的精彩课程(Udemy:“特征工程”。下面是她课程的截图,但为了公平起见,我不会发布解决方案。

在此处输入图像描述