为判别分析选择变量

机器算法验证 特征选择 判别分析
2022-03-25 13:11:50

我有 110 个变量和 200 个数据点。在这 110 个变量中,一个是组变量(比如“棕色眼睛”、“蓝眼睛”)。我想使用判别分析根据剩余的 119 个变量对组进行分类。由于变量很大,为了获得有意义的结果,我需要减少变量的数量。所以,对我来说有3个选择:

1)逐步判别分析:我不想使用这种方法,因为我对它有偏见。

2)分类树方法:该方法将了解哪些变量会影响眼睛的颜色。由于数据集很小,我很担心使用这种方法。

3)主成分法:这个方法我可以用。但我更喜欢保留原始变量。

我的问题是任何人都可以建议我一些其他方法来选择变量进行判别分析。

1个回答

您可以通过寻找高度相关的对并随机删除其中一个来摆脱一些。

然后您可以查看偏最小二乘,并选择在 PLS 解决方案中重要的变量。

我用类似的问题做了这个,它工作得很好(也就是说,产生的判别函数做得很好)