人工智能 - 扬声器识别/识别较小的音频文件 - 吾爱随笔录

我正在使用 GMM（高斯混合模型）解决说话人识别问题。我只需要识别给定音频中存在的一个用户，因此对于第二类噪声或无声音频可以使用或不使用，就像我们创建非对象类的对象的图像分类一样。

我使用了一个静默类，总是显示用户存在（不是）。

如果任何其他模型可以提供更好的准确性，则满足特定用户的音频只有 30 秒可用并且给定的测试音频可能具有较长大小的条件。