我正在尝试训练一个模型来检测 CEO 演讲数据集中的性别。这是我拥有的数据集:
- 最终数据集:分析了 20K CEO 的声音(约 95% 为男性)
- 测试数据集(?):从最终数据集中分析出的 1K CEO 声音,由于我故意添加了更多女性(80% 男性),因此不平衡较少
- 训练数据集:从有声读物和 TED 演讲中分析的 6K 声音(55% 男性)。
目前,我一直在通过训练和拆分数据集#3(70%、30%)来尝试不同的模型。使用这种方法我得到了很好的准确率(95%)。然而,当我将训练好的模型应用到数据集 #2 时,我得到了 85% 的准确率。
我不知道该怎么办。我是否应该在训练数据集中对女性进行欠采样,以使其分布与最终数据集更相似?