我正在开发一个需要音频指纹的应用程序。我一直在阅读很多文章和 PDF,现在我想我让自己感到困惑。根据我目前的理解,我有一些问题
将音频解码为其原始格式后,重新采样并提取单声道。我是否将字节转换为整数或浮点数?
什么是卷积以及为什么需要对音频样本进行卷积
什么是窗户及其长度
FFT 将信号从时域变换到频域。我对么?如果是,音频的频率分量是否决定内容/声音/噪音/音量?
可以对两个内容相同但码率不同的音频进行什么操作来归一化码率并得到它们共享的数据
什么是低通和高通滤波器以及如何派生。它们与音频指纹操作有关的用途是什么
在文本中用于音乐识别的计算机视觉。用低通滤波器对信号进行卷积并每 8 个样本提取一次。然后,窗口大小为 2048 个样本的短期傅立叶变换,连续窗口偏移 64 个样本。还将 300Hz 和 2000Hz 之间的功率分成 33 个对数间隔的频带。
- 这些操作是否会应用于卷积过程后检索到的每个样本?我能得到一个更简单的解释吗?
应用 32 个学习的过滤器和阈值来为信号的每个时间步(11.6 毫秒)获取一个 32 位描述符。这一系列信号称为签名。
- 这些学习的过滤器和阈值是什么?
哇:),这是很多问题。我相信很多初学者会发现答案很有帮助。
谢谢