我正在尝试使用openl3包从音频 WAV 文件中提取特征。到目前为止它工作正常,但由于 openl3 与 windows 一起工作,我现在为每个 WAV 文件有两个 numpy 文件,一个带有嵌入(特征值),一个带有时间戳值。
例如,一个带有 3 个窗口/时间戳的 WAV 文件的输出如下所示:
时间戳:
[0. 1. 2.]
嵌入(每个列表长 6144 个值/特征):
[[ 2.430837 1.1149534 1.8192575 ... -0.42393693 2.429424
2.069307 ]
[ 1.8306035 0.93579465 2.0597208 ... -0.41671506 2.2733474
1.8177178 ]
[ 4.8046613 1.4510491 3.1910005 ... -0.3726427 2.195802
0.5922224 ]]
现在我还没有弄清楚如何将这些值正确地传递给 ML 模型作为训练数据。我研究过时间序列,但我不确定这是否是正确的方法,因为时间序列在技术上是 WAV 文件本身,而 openl3-tool 已经从中提取了特征。
我发现另一个建议只是连接所有(在这种情况下)3个列表并作为数据传递,但由于WAV文件的长度不同,它们也有不同数量的时间戳/窗口,因此或多或少是“嵌入列表” '
所以我认为简单地连接列表是行不通的,还是我错了?如果有人能指出我正确的方向,您的帮助将不胜感激!