我能够获得具有 MFCC 系数的数据集。但是,根据我的声音文件的长度,我会得到一个不同大小的矩阵。如 XXX 的 13 个(13 个 MFCC 系数),其中 XXX 将根据声音文件的长度而变化。“规范化”以保持 XXX 一致是否有意义?如果是这样,怎么做?就像在这个例子中一样,矩阵的大小总是变化的:https ://archive.ics.uci.edu/ml/machine-learning-databases/00195/Test_Arabic_Digit.txt
另外,我将如何将其输入机器学习算法?(即k-NN、HMM 等)如果每个声音文件只有一行(例如每个声音1 x 13),我有点想通了怎么做。如果是MFCC,步骤是什么?我在这里有点迷路。
感谢您的帮助。