非高斯分布 - 源数据分类器在目标数据上失败

数据挖掘 分类 统计数据 特征选择 分配 特征
2022-02-24 21:16:35

我在分类问题上向您寻求帮助(类别由数字 0,1 和 2 表示)。所有特征都是从时间序列数据中提取的(基本是窦形)。

我有一个包含不遵循高斯分布的特征的源数据集:

在此处输入图像描述

我可以用更少的努力训练具有高精度的分类器。但是:我的验证数据(目标域)的特征分布也不是高斯分布,但与训练分类器的分布不同。

例如,我们比较源域和目标域中类 0 的相同特征的分布:

在此处输入图像描述

对于分类模型,我使用了几种不同类型的模型,它们不假设特征是高斯分布的(Trees、KnearestN、...),我还尝试了一个神经网络(具有 3 个隐藏密集层的 MLP)。


我的问题是什么

我面临的问题是相同的:在源数据上训练的模型(约 98% 有效。acc)在目标数据上失败,空精度如(约 30%)。为了验证问题不仅是由特征集(上面显示的一些特征)引起的,我尝试了一种神经网络方法。如果我在原始时间序列数据上训练神经网络,我会遇到同样的问题,训练/测试还可以,但在未见实例上的性能仅与空精度有关。

我目前试图解决的问题

  • 使用例如分位数和 box-cox 变换将特征转换为类似高斯的分布 -> 问题是,由于模型不收敛,我无法在转换后的数据上拟合一个性能良好的分类器
  • 不同的最优传输策略将源分布转换为目标形状,并使用转换后的源数据训练监督模型,然后对目标数据进行评估。会计。也在零精度范围内
  • 域适应模型使用损失函数的非参数距离度量,如 MMD(最大平均差异)和 CORAL(相关对齐)。问题是,在源精度下降之前,我只能将目标精度提高到 ~50%
0个回答
没有发现任何回复~