我的数据集由向量序列组成。每个向量有 50 个实值维度。序列中的向量数量范围从 3-5 到 10-15。换句话说,序列的长度不是固定的。
一些相当数量的序列(不是向量!)用类标签注释。我的任务是学习一个给定向量序列的分类器,计算整个序列的类标签。
我无法说出数据的确切性质,但序列的性质不是时间的。然而,一个向量 不能与向量互换 不改变标签()。换句话说,向量的顺序很重要。向量本身是可比较的,例如计算点积并使用此相似度值是有意义的。
我的问题是:有哪些工具/算法可以帮助对此类数据进行分类?
更新:数据具有这样一个属性,即一个或很少的向量会强烈影响类标签。
可能的解决方案:经过一些研究,看起来循环神经网络 (RNN) 很自然地符合要求。总体思路是选择上下文大小,连接词向量,进行最大池化并通过经典 NN 输入。在句子中每个可能的上下文窗口位置,都会构建一个特征向量。例如,最终的特征向量是使用最大池化构建的。反向传播是为了调整网络的参数。我已经得到了一些积极的结果(GPU 是必须的)。