如何可视化多维数据集的数据 (TIMIT)

数据挖掘 机器学习 神经网络 特征选择 可视化 预处理
2022-03-03 19:49:00

我已经使用timit dataset为语音识别任务构建了一个神经网络。我使用感知线性预测(PLP_ 方法)提取了特征。我的特征空间有 39 个维度(13 个 PLP 值,13 个关于一阶导数,13 个关于二阶导数)。

我想改进我的数据集。到目前为止,我唯一尝试过的是使用标准缩放器对数据集进行归一化(使用均值 0 和方差 1 标准化特征)。

我的问题是:

  • 由于我的数据集具有高维度,有没有办法可视化?现在,我刚刚使用热图绘制了数据集值。
  • 是否有任何方法可以进一步分离我的样本,从而更容易区分类别?

我的热图如下,代表 20 个样本。在这个热图中,有 5 个不同的音素,与元音相关,特别是uh、oy、aw、ixey。 如您所见,每个音素并不能真正与其他音素区分开来。有谁知道我该如何改进它?

在此处输入图像描述

1个回答

就像我在评论中说的那样,您需要执行降维,否则您将无法可视化Rn向量空间,这就是为什么:

高维数据集的可视化是PCA(主成分分析)等降维方法的传统应用之一。

在高维数据中,例如每个维度对应不同测量变量的实验数据,不同维度之间的依赖关系往往将数据点限制在一个维度远低于数据空间维度的流形上。

许多方法都是为流形学习而设计的,即寻找和展开低维流形。自 2000 年以来,流形学习出现了研究热潮,现在存在许多已知可以成功展开至少某些类型流形的方法。

最常用的降维方法之一称为 PCA 或主成分分析。PCA 是一种统计过程,它使用正交变换将一组可能相关变量的观察值转换为一组称为主成分的线性不相关变量值。您可以在此处阅读有关此主题的更多信息

所以一旦你把你的高维空间减少到一个R3或者R2空间,您将能够使用适当的可视化方法对其进行投影。参考 :

编辑: 为了避免一些关于 PCA 和 Dimension Reduction的混淆,我添加了以下详细信息:

PCA 将允许您计算矢量模型的主成分,因此信息不会丢失,而是“合成”。

不幸的是,没有其他可以想象的方式在 2/3 维屏幕上显示 39 维。如果您想分析 39 个特征之间的相关性,也许您应该考虑另一种可视化技术。

在这种情况下,我会推荐一个散点图矩阵。