高度依赖前缀的数据集上的机器学习

数据挖掘 机器学习
2022-03-12 09:37:47

我有一个目标函数,它在很大程度上取决于向量前缀:

( 1, 2 , 0, 0, 1, 2, 4) -> A

( 1, 2 , 0, 55, 1, 99, 1) -> A

( 1, 2 , 124, 55, 1, 99, 71) -> A

( 1, 3 , -5, 0, 1, 2, 4) -> B

( 1, 3 , 12, 55, 1, 99, 1) -> B

( 1, 3, 124 , 55, 1, 99, 71) -> C

( 1, 3, 124 , 21, 10, 195, 11) -> C

...

前缀长度可能会有所不同。

前置条件:一组训练向量及其目标值

目标:能够评估任意向量上的目标值

我已经尝试过 HMM,但在这种情况下似乎效果不佳。我应该改用什么算法?

1个回答

考虑 LSTM。它们是一种循环神经网络,通常非常擅长序列预测任务,并且能够像您描述的那样学习非常长的依赖关系。

Andrej Karpathy 在他的博客上对 RNN/LSTM 进行了非常精彩的介绍。

尽管神经网络会带来一系列全新的问题,例如训练时间长、找到正确的架构和梯度下降参数。如果您的问题非常依赖于少数几个术语,那么您可以使用表格多项回归方法和序列的一些智能编码获得足够的结果。就像是:

y prefix1 prefix2 prefix3 has1 has2 has3  ...
A       1       2       0    1    1    0  ...
B       1       3      -5    1    0    1  ...