确定正确的机器学习方法

数据挖掘 分类
2022-03-07 09:40:58

我对为以下问题选择 ML 方法一无所知。这是一个分类问题,有 2 个类别是positivenegative大约有 100k 个样本,样本的结构如下:

Period = 1min   Pattern = M1>S1>T1>B2>M2>S2>S3>T3>M3>B3
Period = 5min   Pattern = S1>M1>T1>B2>S2>M2>S3>T3>M3>B3
Period = 10min  Pattern = M1>T1>S1>M2>B2>S2>S3>T3>M3>B3
Period = 15min  Pattern = M1>T1>S1>B2>S3>M2>S2>T3>M3>B3
Period = 20min  Pattern = S1>M1>S3>T1>B2>M2>S2>T3>M3>B3
Period = 30min  Pattern = S1>S3>B2>M1>T1>S2>M2>T3>M3>B3
Period = 60min  Pattern = S1>B2>M1>T1>S2>M2>S3>T3>B3>M3
Period = 120min Pattern = S1>M1>T1>B2>S2>M2>T3>S3>M3>B3 

该样本被归类为negative一个样本由 组成8 periods在每个时期内都有一个patternM1>S1>T1>B2>M2>S2>S3>T3>M3>B3每个图案都有10 elements,它们的位置也随之变化samples and periods我们需要想出一个解决方案,可以分辨出哪些period or lineup of elements负责分类。

假设我们有这样的p1, p2, p3正面例子和n1, n2, n3负面例子1min Periods

p1: M1>S1>T1>B2>M2>S2>S3>T3>M3>B3
p2: M1>S1>T1>B2>S2>M2>S3>T3>M3>B3
p3: M1>S1>T1>B2>M2>S2>S3>T3>M3>B3

n1: M1>S1>T1>B2>S2>M2>S3>T3>B3>M3
n2: M1>S1>T1>B2>M2>S2>S3>T3>B3>M3
n3: M1>S1>T1>B2>M2>S2>S3>T3>B3>M3

可以推断出前 4 个元素M1,S1,T1, B2与分类无关,因为它们在所有样本中都是相同的。第 5 和第 6 个元素也无关紧要,因为它们在同一类样本中没有显示相同的模式。但是,对于正样本和负样本,元素B3, M3都是可靠的正样本。M3>B3B3>M3

谢谢。

1个回答

我认为您所需要的只是构建适当的功能。

对于每个时期和元素,我会建立一个分类特征。那是80个分类特征。看起来每个特征的可能值并不多,假设每个特征有 3 或 4 个可能的值,通过一次热编码,你最终会得到 240-320 个特征。

然后您可以进行某种特征选择,例如 Lasso,并使用所选特征训练您的模型。