我已经使用timit dataset为语音识别任务构建了一个神经网络。我使用感知线性预测(PLP_ 方法)提取了特征。我的特征空间有 39 个维度(13 个 PLP 值,13 个关于一阶导数,13 个关于二阶导数)。
我想改进我的数据集。到目前为止,我唯一尝试过的是使用标准缩放器对数据集进行归一化(使用均值 0 和方差 1 标准化特征)。
我的问题是:
- 由于我的数据集具有高维度,有没有办法可视化?现在,我刚刚使用热图绘制了数据集值。
- 是否有任何方法可以进一步分离我的样本,从而更容易区分类别?
我的热图如下,代表 20 个样本。在这个热图中,有 5 个不同的音素,与元音相关,特别是uh、oy、aw、ix和ey。 如您所见,每个音素并不能真正与其他音素区分开来。有谁知道我该如何改进它?
