首先,对不起,如果这是一个新手问题!对所有这些东西都比较陌生。在 Stack Overflow 上发布了这个,有人把我送到了这里!希望是对的地方。
无论如何,我正在使用 22 个数据集,每个数据集都有 180 个“Oddball”数据观察值和 720 个“标准”数据观察值。我正在尝试使用随机森林进行分类(即,oddball=1,standard=0)。我知道这两个因素应该有大致相等的试验/观察,但如果我使用 75% 的古怪数据,那么我几乎不会使用超过 18% 的标准数据。这些数据变化很大,我认为这可能是有问题的。
如果我制作了四个模型,每个模型仍然使用相同的训练数据,我是否过度拟合了我的模型?我写的还有很多,但这基本上是我想要做的:
jj = sample(1:180,(180*75),replace = F #Take 75% of all oddball data
kk = sample(181:900,(720*.75),replace = F) #Take 75% of all standard data
jj = sample(jj); kk = sample(kk) #Mix them up
kk = matrix(kk,4) #Divide the standard data so there are 4 sets of equal numbers for jj
samp1 = c(jj,kk[1,])
samp2 = c(jj,kk[2,])
samp3 = c(jj,kk[3,])
samp4 = c(jj,kk[4,])
然后,我将使用这些样本集中的每一个创建四个模型(同时不涉及样本外数据),并对它们的所有预测进行平均,从而给我一个“主”概率(即,0.8 的平均值将被视为怪人)。
这是过度拟合数据吗?使用随机森林时甚至可能过度拟合数据吗?这种直觉有问题吗?
感谢任何帮助的人!非常感谢您的时间和专业知识。