数据挖掘 - 两个独立数据集的特征选择 - 吾爱随笔录

目前，我正在使用实验数据进行研究。数据来自两个实验，两个任务略有不同，但在 VR 环境中设置相同。两项实验都是针对不同的人群进行的，但有两组相同的参与者：健康对照组和某种类型的患者。

从实验数据中，为两个数据集构建和提取了相同的特征集（超过 200 个特征）。本研究的目标是应用机器学习，以便根据这些特征区分患者与对照组。

由于任务略有不同，两个数据集无法合并。因此，我使用特征选择方法分别为两个数据集选择最重要的特征，然后运行两个单独的模型。现在，这两种模型在分类任务中的表现都相当不错，但是它们依赖于非常不同的特征。

最终，我想在两个数据集中找到具有共同判别属性的特征。并为这两个数据集构建两个模型，但具有相同的特征集。

我已经能够很好地做到这一点，只考虑与两个数据集中的标签具有相同相关方向的那些特征，然后从两个数据集的前 30 个最有贡献的特征中选择共同特征。模型的性能不如单独的功能，但仍然可以接受，令人惊讶的是它甚至看起来更一致。

但是，我这种方法不是基于我在文献中可以找到的任何东西，它似乎是一个合乎逻辑的选择，但我怀疑这样做是否完全有效......奇怪的是，我找不到文献中讨论不同数据集中特征一致性的任何内容。或者我只是不知道在哪里看......

如果我不进行相关方向检查（我最不确定），我最终会得到一些在两个数据集中以相反方式分布的特征。这并不是真正想要的，因为我想找到以相同方式对分类任务做出贡献的特征。

所以基本上整个故事的结论归结为一个问题：是否有人知道在两个数据集中选择具有共同判别属性的特征的有效方法？或者，是否有人对如何以不同的方式处理他的问题有任何建议？