我正在研究二进制分类问题。我的数据包含来自两个不同来源的 100K 样本。当我对来自第一个来源的数据进行训练和测试时,我可以达到高达 98% 的分类准确率,而在对来自第二个来源的数据进行训练和测试时,我可以达到高达 99% 的分类准确率。问题是当两者混合时,分类准确率下降到 89%。知道如何进行训练以达到高精度。知道我的一项功能与来源有关
来自不同来源的训练数据
数据挖掘
机器学习
分类
数据挖掘
大数据
领域适应
2022-01-31 10:11:24
2个回答
看来您有域适应问题。来自两个来源的样本表现不同。
我建议阅读令人沮丧的容易域适应。顾名思义,这个解决方案很简单,很受欢迎(到目前为止引用了 800 次)并且对其他方向进行了很好的调查。
我知道您在整个数据集上运行的分类器是在它上面训练的。在单一来源上训练的分类器在其他来源上的表现如何?有多少样本属于第一个来源?您是否会在生产样品的来源时注明?这些问题的答案可能会打开更多的方向。
这可能有几个原因。
两个样本的特征分布存在差异。
两个样本的标签分布存在差异。
另一个问题是样本量。如果一个样本比另一个样本大得多,并且分布之间也存在差异,这可能会影响分类器的最终性能。
最后,根据辛普森悖论,趋势有可能出现在不同的数据组中,但当这些组组合在一起时就会消失。这可能是您在组合数据时观察到更差性能的原因。
其它你可能感兴趣的问题