我正在尝试训练和使用神经网络来检测音频文件中的特定单词。神经网络的输入是持续时间为 2-3 秒的音频,神经网络必须判断输入音频(人的声音)是否包含“你好”这个词。
我不知道使用什么样的网络。我使用了 SOM 网络,但没有得到想要的结果。我的训练数据包含大量包含“你好”这个词的声音。
有没有针对dis问题的python代码?
我正在尝试训练和使用神经网络来检测音频文件中的特定单词。神经网络的输入是持续时间为 2-3 秒的音频,神经网络必须判断输入音频(人的声音)是否包含“你好”这个词。
我不知道使用什么样的网络。我使用了 SOM 网络,但没有得到想要的结果。我的训练数据包含大量包含“你好”这个词的声音。
有没有针对dis问题的python代码?
在互联网上进行了一些研究后,我意识到在 python 中使用 VOSK 工具包,可以找到(检测)音频文件或实时音频流中的任何特定单词。