不相关数据的降维方法?

机器算法验证 分类 降维
2022-04-09 07:16:28

在神经科学中,测量受试者的反应时间(RT)是很常见的。基于 RT 可以得出关于个人工作记忆能力、智商等的结论。

所以我有这样的数据,来自一些神经科学实验。在这个数据中,为了简单起见,我有来自两组的 180 名受试者(每组 90 名受试者),比如说男孩和女孩,每个受试者有一组 500 个 RT。每组平均 RT 之间的差异具有统计学意义(t 检验)。现在,我想构建一个分类器来学习这两组之间的差异。我希望分类器仅根据他们的 RT 对新主题进行分类 - 我正在专门谈论 RT 的分类。

(A)我正在寻找适合这种情况的降维方法。(我已经尝试过 PCA,但效果不佳)。不确定 PCA 是否在这里是正确的,因为第 100 个和第 200 个 RT 之间没有区别。每个 RT 都是独立的,没有特定的排序 - 所以这里没有任何 PCA 可以捕获的协方差。(正确的 ?)

(B) 在这种情况下推荐使用哪种分类器?

有没有人知道这种一般的和特定于 RT 的工作?任何有关这方面的信息将不胜感激。

2个回答

这个描述更接近OK,但你仍然需要更详细地描述很多东西。

既然你想分类,看起来你想要的是LDA(线性判别分析)而不是 PCA。你想要“降维”,可能是因为你需要能够描述你获得的规则,但更重要的是不要忘记你想要一些可以帮助你区分男孩和女孩的东西。

最重要的关键步骤是您必须为有助于实现此目标的数据考虑合理的表示。取决于此:

  • 500 RT 是什么意思?它们是同一实验的重复吗?或者
  • 他们是在执行不同的实验吗?为什么会“自立”、“秩序没有意义”?

表示会有很大不同。

另外,当您说 PCA 无法正常工作时,您到底是什么意思?这可能是很多事情:它是否会在新数据上提供不可接受的准确性?还是它工作得相当好,只是没有你希望的那么好?

您在问题 (A) 中所说的是不正确的,您可能会看到数据表现不佳的影响。

在这种大小的数据集上调整 l1 和 l2 正则化参数后,一个简单的判别分类器应该能在几秒钟内训练并很好地泛化。无需进行降维。

如果出于某种原因仍需要进行降维,则可以使用随机投影、独立分量分析、自动编码器或任何数量的非线性技术,这些技术在数据上没有明显线性关系的情况下效果很好。