从散点图中提取特征

数据挖掘 机器学习 神经网络 特征提取
2021-10-04 13:21:35

假设我有一个像这样的散点图:

在此处输入图像描述

因为我有很多这样的散点图,所以我想做特征转换,即(x,y)在一个术语中压缩以输入到 NN。在这种类型的图中,哪种转换x/y(x/y)^2任何其他转换最有效,即更多地增加分离,同时将其压缩为单个项。

4个回答

正如@David Masip 提到的,主成分分析将是在这里使用的好方法。本质上,PCA 是一种在高维空间到低维空间之间找到映射的方法,同时尽可能多地保持数据的变化——非常适合高维数据的降维。

但是,您提到您想使用这些减少的数据来训练神经网络模型。最好先训练神经网络模型,看看它的性能如何,因为神经网络通常非常擅长识别特征之间的交互以及数据中的其他隐藏结构。如果它表现不佳,那么提高性能的一种方法可能是使用 PCA——尽管这在很大程度上取决于您的用例、内容/类型/数据量、神经网络架构等。

ps PCA 也可以很好地可视化高维数据(将维数减少到 2 或 3 维,然后绘制它。这比你上面所做的一次只绘制 2 个特征要好)。

看看线性判别分析本指南应该让您了解为什么它比 PCA 更适合您的任务。

我认为您正在寻找的是PCA(主成分分析)。在您的情况下,您必须采用第一个主成分。PCA 允许自动化决定哪些是解释大部分数据的变量的线性组合的过程。在您展示的图片中,第一个组件将大致是您的绘图的垂直轴。如果您不知道 PCA 是什么,请参阅交叉验证的这个精彩答案。

接受您的评论:

好吧我不想使用 pca ..它只是一个二维数据..所以我想到了一些手动特征提取

您可以做的非常简单的事情就是使用y直接地。看起来像y23 分离散点图中的红色和绿色组做得很好。

可以将这种方法推广到其他变量配对 (i,j)通过拟合深度为 1 的决策树,产生最佳的单变量拆分,以将每对的两组分开。这些规则可用于选择要使用的单个变量,i 或者 j,或要制作的二进制变量/标志,例如 y23 上面的建议。