背景:作为预测分析的一部分,我得到了一个训练和测试数据集。训练数据和测试数据都具有数值和分类预测变量,此外,训练数据具有数值目标变量。目标是预测测试中的目标。
训练 = [c1,c2,x3,x4, y] = [Xc,X, y]
测试 = [c1,c2,x3,x4] = [Xc,X]
Xc,X 表示分类和数值预测变量。我正在尝试从分类变量 Xc 中生成其他特征,例如计数特征、count_mean、count_variance 以及来自分类变量和数值变量(均值、方差等)的组合的类似特征。
问题:在组合数据集训练+测试上生成特征更好,还是在训练和测试数据集上分别生成特征更好?
当分类变量的分布在训练和测试中不同时会产生什么影响,当它们相似时会发生什么?