我正在尝试基于产品评论和其他输入功能创建一个多类产品评级网络。其他两个输入特征是“产品类别”和“性别”。但是,我想避免在男性/女性之间的分类任务中出现不公平的偏见。由于某些产品类别更有可能被男性或女性评论(因此,不平衡),我正在寻找一种方法来解决这种“不平衡”之类的问题。
我目前考虑的选项和事情是:
- 对每个产品类别中的训练示例进行下采样以平衡性别
- 为性别的训练示例添加权重,或
- 向损失函数添加权重(对数似然或交叉熵)
尽管下采样可能是最简单的选择,但我想探索以某种方式在网络中添加权重的选项。然而,大多数文献只讨论向损失函数添加权重,以解决与目标值相关的不平衡数据(这不是我要解决的问题)。
有人可以帮助我或指出正确的方向来解决这个挑战吗?