检测某人何时停止说话

信息处理 算法 信号检测 演讲
2022-02-21 14:57:05

检测用户何时停止对着麦克风讲话的一种极其有效的方法是什么?当我使用像 Siri 这样的系统时,它几乎可以立即检测到我何时停止说话,即使有背景噪音也是如此。我最初的猜测是首先获得背景噪音的平均音量,但似乎没有太多时间,因为 Siri 在按下按钮后立即开始收听。该方法不必在所说的内容中准确无误,只需识别正在说的内容即可。我应该研究什么算法?

1个回答

假设噪音在您的问题中不是一个严重的问题。我想你可以得到非常清晰的语音信号。如果您的系统中实现了语音识别部分,我认为您应该能够利用识别系统中的语言模型。根据转移概率,你应该有信心说出某人何时停止说话。

如果您不知道语言模型。这是一个简单的例子。假设我想自我介绍。我会说“大家好[动词] [宾语]。我的名字 [主语] 是 [动词] Bob [宾语]。我 [宾语] 来自 [宾语] [动词]”。某人在主语或动词之后立即停止说话的概率比在宾语之后要低得多。如果您可以识别语音,那么您将能够利用这些语言模型。

另一件值得尝试的事情是看看你是否可以在有人说话时找到一些停止模式。我的意思是,从一个词到另一个词,从一个句子到另一个句子,每个人都可能有他/她的停止模式。如果您可以成功检索一些模式,例如持续时间,那么它们将帮助您区分当前停止是否与之前的停止相同。