我在分类问题上向您寻求帮助(类别由数字 0,1 和 2 表示)。所有特征都是从时间序列数据中提取的(基本是窦形)。
我有一个包含不遵循高斯分布的特征的源数据集:
我可以用更少的努力训练具有高精度的分类器。但是:我的验证数据(目标域)的特征分布也不是高斯分布,但与训练分类器的分布不同。
例如,我们比较源域和目标域中类 0 的相同特征的分布:
对于分类模型,我使用了几种不同类型的模型,它们不假设特征是高斯分布的(Trees、KnearestN、...),我还尝试了一个神经网络(具有 3 个隐藏密集层的 MLP)。
我的问题是什么
我面临的问题是相同的:在源数据上训练的模型(约 98% 有效。acc)在目标数据上失败,空精度如(约 30%)。为了验证问题不仅是由特征集(上面显示的一些特征)引起的,我尝试了一种神经网络方法。如果我在原始时间序列数据上训练神经网络,我会遇到同样的问题,训练/测试还可以,但在未见实例上的性能仅与空精度有关。我目前试图解决的问题
- 使用例如分位数和 box-cox 变换将特征转换为类似高斯的分布 -> 问题是,由于模型不收敛,我无法在转换后的数据上拟合一个性能良好的分类器
- 不同的最优传输策略将源分布转换为目标形状,并使用转换后的源数据训练监督模型,然后对目标数据进行评估。会计。也在零精度范围内
- 域适应模型使用损失函数的非参数距离度量,如 MMD(最大平均差异)和 CORAL(相关对齐)。问题是,在源精度下降之前,我只能将目标精度提高到 ~50%

