如何处理机器模型训练中的数据收集偏差

数据挖掘 机器学习 预测建模 数据清理 推荐系统
2022-02-24 18:44:15

在许多 ML 问题中,我们收集数据并使用收集的数据训练模型。以推荐为例,收集的数据可能由于各种原因而存在偏差:

  1. 呈现偏差。例如,在网页上可能有分页;对于移动设备,可能需要向下滚动才能看到几个项目之外的项目。

  2. 来自现有推荐系统的偏差:通常数据是在正在运行的生产推荐系统上收集的,这会引入偏差。例如,由于个性化,男性消费者可能很少有机会看到女性产品等。

训练模型时有什么方法来处理这个问题?

1个回答

在大数据的世界中,数据已经存在,目前有足够多的 ML 模型,但不断有改进和应用,主要原因是如何从原始数据中定义特征。

在您的情况下,引入一个新功能作为数据中存在的偏差的惩罚。例如。在呈现偏差中,对最靠前的项目给予高惩罚,对更靠后的项目给予低惩罚。同样,当大多数产品是男性产品时,为男性产品引入重量较小的重量特征,反之亦然。

机器学习仍然需要以特征形式的人类直觉;-)