我对为以下问题选择 ML 方法一无所知。这是一个分类问题,有 2 个类别是positive和negative。大约有 100k 个样本,样本的结构如下:
Period = 1min Pattern = M1>S1>T1>B2>M2>S2>S3>T3>M3>B3
Period = 5min Pattern = S1>M1>T1>B2>S2>M2>S3>T3>M3>B3
Period = 10min Pattern = M1>T1>S1>M2>B2>S2>S3>T3>M3>B3
Period = 15min Pattern = M1>T1>S1>B2>S3>M2>S2>T3>M3>B3
Period = 20min Pattern = S1>M1>S3>T1>B2>M2>S2>T3>M3>B3
Period = 30min Pattern = S1>S3>B2>M1>T1>S2>M2>T3>M3>B3
Period = 60min Pattern = S1>B2>M1>T1>S2>M2>S3>T3>B3>M3
Period = 120min Pattern = S1>M1>T1>B2>S2>M2>T3>S3>M3>B3
该样本被归类为negative。一个样本由 组成8 periods。在每个时期内都有一个pattern如M1>S1>T1>B2>M2>S2>S3>T3>M3>B3。每个图案都有10 elements,它们的位置也随之变化samples and periods。我们需要想出一个解决方案,可以分辨出哪些period or lineup of elements负责分类。
假设我们有这样的p1, p2, p3正面例子和n1, n2, n3负面例子1min Periods:
p1: M1>S1>T1>B2>M2>S2>S3>T3>M3>B3
p2: M1>S1>T1>B2>S2>M2>S3>T3>M3>B3
p3: M1>S1>T1>B2>M2>S2>S3>T3>M3>B3
n1: M1>S1>T1>B2>S2>M2>S3>T3>B3>M3
n2: M1>S1>T1>B2>M2>S2>S3>T3>B3>M3
n3: M1>S1>T1>B2>M2>S2>S3>T3>B3>M3
可以推断出前 4 个元素M1,S1,T1, B2与分类无关,因为它们在所有样本中都是相同的。第 5 和第 6 个元素也无关紧要,因为它们在同一类样本中没有显示相同的模式。但是,对于正样本和负样本,元素B3, M3都是可靠的正样本。M3>B3B3>M3
谢谢。