我有一堆简短的(每个约 1 秒)波形文件,其中一些包含大约 3900-4500 Hz 之间的调频声音。我想我可能会对这些声音文件运行 MFCC 计算,并使用结果在包含感兴趣声音的文件和不包含感兴趣声音的文件之间进行聚类/分离。
由于我对其他频段不感兴趣,因此我将计算范围限制在上述范围内。但是,我的 MFCC 矩阵输出为一堆 NaN,大概是因为范围太窄了。这要么意味着 MFCC 通常不适用于如此窄的频率范围,要么意味着我尚未利用此计算中涉及的众多其他参数(例如窗口大小、DCT 类型等)。这里可能发生了什么?可能我应该为此研究其他声学特性而不是 MFCC,但我是一个完全的音频新手,不知道从哪里开始。
(我只是在寻找这个问题的一般/大图答案,但如果它有助于提供上下文,我正在使用 R 的 melfcc() 函数来计算这些。我相信它基于与MATLAB。)
编辑:更多背景。
我通过频谱图互相关模板检测到来自真实现场录音的动物声音事件的一堆“检测”。这些检测中有些是真阳性,有些是假阳性。我想找到可以帮助我预测哪些是真的哪些是假的声学特征。(除了声学特征,我可以使用其他东西,例如检测到的时间等。)最终追求贝叶斯系统,其中模型可以随着时间的推移学习新的检测数据。没有特别附加任何声学特性,但不确定要尝试什么,MFCC 似乎是从某个地方开始的。