在许多 ML 问题中,我们收集数据并使用收集的数据训练模型。以推荐为例,收集的数据可能由于各种原因而存在偏差:
呈现偏差。例如,在网页上可能有分页;对于移动设备,可能需要向下滚动才能看到几个项目之外的项目。
来自现有推荐系统的偏差:通常数据是在正在运行的生产推荐系统上收集的,这会引入偏差。例如,由于个性化,男性消费者可能很少有机会看到女性产品等。
训练模型时有什么方法来处理这个问题?
在许多 ML 问题中,我们收集数据并使用收集的数据训练模型。以推荐为例,收集的数据可能由于各种原因而存在偏差:
呈现偏差。例如,在网页上可能有分页;对于移动设备,可能需要向下滚动才能看到几个项目之外的项目。
来自现有推荐系统的偏差:通常数据是在正在运行的生产推荐系统上收集的,这会引入偏差。例如,由于个性化,男性消费者可能很少有机会看到女性产品等。
训练模型时有什么方法来处理这个问题?
在大数据的世界中,数据已经存在,目前有足够多的 ML 模型,但不断有改进和应用,主要原因是如何从原始数据中定义特征。
在您的情况下,引入一个新功能作为数据中存在的偏差的惩罚。例如。在呈现偏差中,对最靠前的项目给予高惩罚,对更靠后的项目给予低惩罚。同样,当大多数产品是男性产品时,为男性产品引入重量较小的重量特征,反之亦然。
机器学习仍然需要以特征形式的人类直觉;-)