自动重音检测

信息处理 声音的
2022-02-01 22:27:50

我如何将单词的发音方式与样本进行比较?例如,大多数字典都记录了样本单词的发音。目标是向用户提供反馈,以便他或她可以改进发音。

我想知道是否有可用于此类任务的 API 或能够执行此任务的现有程序。

我在这里发现了类似的问题How do I compare 2 audio files, return a percent of Difference,但我提供了一个定义,实际差异是什么。

问候,尤金

2个回答

那是我毕业项目的同一主题,我还不确定最好的方法,因为这仍然是一个研究问题,但我和我的团队所做的如下:

1- 提供一个代表每个单词正确发音特征的数据库。该数据库包含每个单词的大约 10 个不同特征,供 10 个不同的人阅读该单词。

2-获取输入单词的特征,即。代表单词的 .wav 文件

3-将输入单词的特征与代表单词正确发音的10个特征进行比较

要获得这些功能,您需要获取 MFCC 文件 包含单词发音的 .wav 文件 MFCC 是一个数字矩阵,因此要比较 2 个 MFCC,您将需要使用动态规划算法,在我们的例子中,我们已经使用动态时间包装算法。您可能还需要对输入单词进行过滤以将它们从噪音中过滤掉。您可能还需要检查以下程序:Praat >> 如果需要进行过滤,也可用于制作 MFCC 文件 SPPAS >> 获取 .wav 文件(MFCC)的特征 Matlab >> 进行比较2个MFCC文件

希望这可以帮助

您已经将一个与说话者无关的孤立语音识别大致类似的问题描述为一个单词的字典,而不是在字典中搜索最接近的单词,您只需要多维距离向量和/或匹配统计信息。这是一项涉及数千篇研究论文和书籍的重要技术。您可能想尝试一本关于计算机语音识别的基本教科书来开始。

似乎确实存在用于自动口音分析和改进的商业软件,但我不熟悉它们,也不熟悉它们是否提供公共 API。