我有一个 wav 文件,我想将其拆分为多个帧,以便将其输入机器学习模型。问题是音频在某些时候有一些噪音。
我的问题是我不想在我的数据集中包含没有声音(或只有噪音)的帧。
我相信的一种解决方案是使用语音识别模型或类似的东西进行分类,看看一帧是否只包含静音或噪音。
但是,我正在寻找一种不依赖于机器学习而主要依赖于信号处理技术或其他一些预处理方法的解决方案。
那么,我怎样才能排除这些只有静音或噪音的帧呢?
我有一个 wav 文件,我想将其拆分为多个帧,以便将其输入机器学习模型。问题是音频在某些时候有一些噪音。
我的问题是我不想在我的数据集中包含没有声音(或只有噪音)的帧。
我相信的一种解决方案是使用语音识别模型或类似的东西进行分类,看看一帧是否只包含静音或噪音。
但是,我正在寻找一种不依赖于机器学习而主要依赖于信号处理技术或其他一些预处理方法的解决方案。
那么,我怎样才能排除这些只有静音或噪音的帧呢?
首先,您应该应用语音增强算法来消除语音中的噪音。然后,您应该使用 VAD(语音活动检测器)来消除语音中的静音。