我正在开发 keras 中的 LSTM 自动编码器。这里的目的是获得我打算用于聚类的时间序列的潜在空间表示。
我的输入序列(每个特征)之间的差异非常小。标准化之前的输入如下所示:
这是序列之一,它有 4 个特征(列)和可变长度(在本例中为 11 行数)。
其他序列的长度范围从 11 到 200。特征的数量显然保持不变。在对整个特征空间进行归一化(分别对每个特征进行归一化)之后,输入序列中的这些细微差异变得更小。而且我认为自动编码器假设这是噪声并且没有学习它(或者更像是去噪自动编码器)。
关于如何更好地扩展数据的任何想法?我应该对我处理问题陈述的方式进行任何更改吗?
PS:
代码没有问题,因为我能够在特征分布更均匀的玩具数据集上生成非常好的潜在表示。
我已经尝试过标准化(z 分数减去均值并除以标准差),但问题仍然存在。
