PCA 显示重叠的边界,那么为什么 SVM 表现最好

数据挖掘 随机森林 逻辑回归 支持向量机 主成分分析
2022-02-26 16:08:12

在尝试模型之前,我试图了解哪种模型可能适用于给定问题,但我发现这种情况不符合我的知识。请指导我所缺少的。我是数据科学的新手。

这是我通过 PCA 得到的图表: 在此处输入图像描述

现在您可以看到边界非常重叠。SVM 的理论表明,该模型可能最适用于重叠的非线性数据,但似乎并非如此。

但它仍然能够识别测试集中的所有数据。那么你能否提供一些关于为什么 SVM 在这方面表现良好的说明。

所以我的最终结果如下:

  • 逻辑回归和 SVM 相同(准确度得分:1.0)
  • 随机森林(准确度得分:0.9680851063829787)
  • KNN(准确度得分:0.925531914893617)

其他详情 :

  • 功能集:40
  • 样本数据:约 500
1个回答

我假设您将 SVM 应用于初始数据并且仅将 PCA 用于可视化。我这种情况:

我猜你通过 PCA 的投影没有显示真实的画面。

您应该首先检查有多少数据是用 PCA 的前两个主要组件解释的。您的投影可能会改变您的数据结构,使其不再可分离。如果对所选主成分的投影没有过多地改变您的数据,则可能是您保持了可分离性。

最后,请注意:如果投影是线性可分的,那么您的数据也是如此。如果投影不是线性可分离的,则无法得出数据可分离性的结论。