即使在 PCA 之后,有哪些可能的方法来处理不可分离的数据?

数据挖掘 分类 数据集 特征选择 预言 主成分分析
2022-02-23 19:59:26

问候数据科学家,

我正在处理一个复杂的分类/预测问题,我发现很难区分这些类。即使在 PCA 之后,我的数据(通过两台 PC)看起来像这样:

PC1 和 PC2 绘图

鉴于此数据集,哪种方法可以最好地准确预测类别?

背景:我正在尝试通过解决问题的最佳方法/算法对建模问题进行分类。

非常感谢,

2个回答

你的问题是无人监督的吗?如果不是,数据不需要在二维中“视觉上”可分离,您可以使用多个维度的分类器为您创建分离(线性或非线性,仅取决于分类器)。

如果您的问题是无监督的,请尝试其他方法对数据进行聚类,例如 K-Means 或基于树的聚类(即分层)。

数据在二维中是否可分离并不重要。您可以尝试使用 PCA + SVM 组合来检查数据在哪个点(维数)最好分离。您可以使用 Grid Search 对 PCA 的参数执行此操作。

如果您只是将数据可视化,您也可以尝试 T-SNE 嵌入。