R中的线性判别分析:如何选择最合适的模型?

数据挖掘 r 判别分析 lda-分类器
2022-02-25 15:49:55

robustbase 库中的数据集 vaso 总结了受试者手指的血管收缩(或不收缩)以及他们的呼吸量和频率。

> head(vaso)
 Volume  Rate Y
1   3.70 0.825 1
2   3.50 1.090 1
3   1.25 2.500 1
4   0.75 1.500 1
5   0.80 3.200 1
6   0.70 3.500 1

我想在 R 中执行线性判别分析,看看它们在两组之间的区别。我考虑两种情况:

ld <- lda(Y ~ ., data=vaso)
ld1 <- lda(Y ~ log(Volume)+log(Rate), data=vaso)

请帮助我了解哪种型号更好?看什么特点?

1个回答

我不熟悉 LDA,但据我所知,您并没有真正改变两个版本之间的“模型”(即衡量影响的方式),您要改变的是功能:在第二个版本中,而不是看特征的值是否影响 Y,而是看特征值的对数是否影响 Y。第一个版本当然是查看特征的最自然的方式,第二个很常见但通常当我们已经知道特征的分布(或特征与响应变量之间的关系)使其相关时使用。