信息处理 - 使用音频进行帧查找 - 吾爱随笔录

我是一名动画师，试图获得一个使用机器学习来自动化唇形同步过程的程序。我需要制作的程序将有两个文件：种子和音频文件。种子将是在另一个程序中制作的视频，它将是几分钟到几个小时的手动同步音频，在不同的程序中完成。种子将为任何新演讲者单独制作，以便为每个人训练程序。如果有帮助，可以添加视频的文字记录，但如果您认为不会，我可以删除它。然后将添加音频，这是需要同步的音频。然后它需要通过，逐帧收听并将声音与种子视频进行比较。当它找到匹配项时，它将将该帧的视频中的任何图像保存到一个序列中。最终输出将是一个 png 图像序列，可以在视频编辑器中以每秒 30 帧的速度与音频一起播放。为了质量，我希望种子也是我上传到种子音频的图像序列，这样导出的图像序列将具有透明度，如果可能的话。此外，在录制音频时，还会录制扬声器的视频，如果添加某种面部跟踪也有帮助，我也希望如此。最后，我希望它尽快运行。所以不是实时运行，因为正在同步的音频有时可能长达几个小时。我会像能够实时进行口型同步（可能有 5 秒延迟）一样，它只是显示在一个窗口中并同步到选定的麦克风或音频设备。

因此，例如，当程序正在收听需要同步的音频时，假设它听到“啊”的声音。然后它将搜索种子音频以找到与该声音的最佳匹配，假设这是第一次说出“and”这个词。它听到匹配的“啊”声音，然后查看视频以查看当前正在显示的图像。它复制该图像，然后移动到下一帧/声音。最后它应该产生一个可以播放的图像序列在音频旁边的编辑器中以每秒 30 帧的速度返回。

那么，哪些程序或 AI \ DSP \ ML 技术将对此有所帮助？