数据挖掘 - 一维序列分类 - 吾爱随笔录

来自https://stackoverflow.com/questions/71752744/1d-sequence-classification的交叉帖子

我正在处理具有连续输入域的长序列（约 60 000 个时间步）分类任务。输入的形状(B, L, C)是B批量大小，L是序列长度（即时间步长），C是每个特征连续的特征数（即，0.6、0.2、0.5、1.3 等值）。

由于序列很长，我不能在不超过内存限制的情况下直接应用 RNN 或 Transformer Encoder 层。一些提出的方法在将序列长度输入 RNN 模型之前使用几个 CNN 层来“下采样”序列长度。一个成功的例子包括 CNN-LSTM 模型。通过引入几个后续的卷积块，然后进行最大池化，可以通过给定因子“下采样”序列长度。例如，采样序列将具有 60 个时间步长的序列长度，这对于LSTM模型来说更易于管理。

直接用Transformer 编码器代替LSTM模型有意义吗？我读过transformer attention机制可以补充LSTM层并连续使用。

还存在许多 Transformer 变体和其他设计用于处理长序列的架构。最新的例子包括 Performer、Linformer、Reformer、Nyströmformer、BigBird、FNet、S4、CDIL-CNN。是否存在类似于torchvision在 pytorch 中实现这些模型的库，而无需从相应的存储库中复制粘贴大量代码？