作为我之前问题的后续,我想知道是否存在任何语音检测库。通过语音检测,我的意思是传入音频缓冲区并获取语音开始和停止位置的索引。因此,如果我在 44kHz 处进行 10 秒的音频采样,我会期望一个数字数组,例如:
44000
88000
123000
190334
...
例如,这将表明语音从一秒开始,然后在两秒结束,等等。
我不寻找的是从口语中写出文本的语音识别。不幸的是,这是我在谷歌“语音检测”时看到的很多内容。
当我正在为 iPhone 编写应用程序时,如果库是 C、C++ 甚至是 Objective-C 语言,那就太好了。
谢谢!