我在两个类别中有 20k 个样本,positive
即negative
. 样本由 10 位数字组成,在每个样本中,一个数字仅使用一次。例如; 0123456789
并且9876543102
是正确的样本,因为每个数字都使用一次。数字的顺序是产生样本positive
或的原因negative
。例如,分类语句,positive
样本可以有2
after 5
,但negatives
不能。或者更复杂的是,90% 的正样本都有前导 0,而没有一个negatives
有这个。对于剩余的 10%,512
并且315
是使样本呈阳性的模式。
总共有10!=3.6m
可能的样本。那么,为了进行二元分类,正确的 ML 方法应该是什么?LSTM 可以处理这个吗?也许是一个具有 10 个输入和二进制分类的原始神经网络?或者我应该寻找不同的机器学习方法?谢谢。