在判别分析中,因变量是分类变量,但我可以在线性判别分析中使用分类变量(例如居住状况:农村、城市)和其他一些连续变量作为自变量吗?
我们可以在判别分析中使用分类自变量吗?
判别分析假设多元正态分布,因为我们通常认为的预测变量实际上是多元因变量,而分组变量被认为是预测变量。这意味着在您希望的意义上被视为预测变量的分类变量没有得到很好的处理。这是包括我自己在内的许多人认为判别分析已被逻辑回归淘汰的原因之一。Logistic 回归在模型的左侧或右侧不做任何类型的分布假设。逻辑回归是一种直接概率模型,不需要像判别分析那样使用贝叶斯规则将结果转换为概率。
简短的回答是“不是”,而不是“是”。
一个初步说明。很难说自己产生判别函数的变量应该称为“独立”还是“依赖”。LDA 基本上是典型相关分析的一个特例,因此它是双向的。它可以被视为MANOVA(以类变量作为自变量),或者当类是二分法时,作为类的线性回归作为因变量。因此,总是用单向回归(例如逻辑一)来反对 LDA是不完全合法的。
LDA 假设变量(您称为“独立”的变量)来自多元正态分布,因此 - 它们都是连续的。这个假设对于 (1) LDA 的分类阶段和 (2) 测试在提取阶段产生的判别式的显着性很重要。判别式本身的提取不需要假设。
然而,LDA 对于违反有时被视为对二进制数据执行此操作的保证的假设非常稳健。事实上,有些人会这样做。典型相关(其中 LDA 是一个特定情况)可以在两个集合都由二进制甚至虚拟二进制变量组成的情况下进行。再一次,隐函数的提取没有问题;当调用 p 值或分类对象时,可能会出现此类应用程序的问题。
从二元/有序变量中,可以计算四分/多分相关并将其提交给 LDA(如果程序允许输入相关矩阵代替数据);但是在案例级别上计算判别分数将是有问题的。
一种更灵活的方法是通过优化缩放/量化将分类(有序、名义)变量转换为连续变量。非线性典型相关分析(OVERALS)。它将在最大化两侧(类变量和分类“预测变量”)之间的典型相关性的任务下完成。然后,您可以尝试使用转换后的变量进行 LDA。
(多项或二元)逻辑回归可能是 LDA 的另一种选择。