分类预测变量和分类响应

机器算法验证 分类 分类数据 规模效应
2022-04-08 13:32:26

我有一个由 5 个分类预测变量和一个分类响应(类)组成的数据集。我想找出哪个预测变量对响应有影响。此外,我无法保证预测变量是否彼此不相关。

我知道在以下情况下:
连续预测变量和连续响应-> 我会使用多元线性回归
连续预测变量和分类响应-> LDA 或逻辑回归
分类预测变量和连续响应-> ANOVA

但是在以下情况下我该怎么办:
分类预测变量和分类响应 -> ???

我应该使用什么方法,这种方法的假设是什么?

2个回答

您使用逻辑回归。所有这些形式的回归/方差分析仅取决于因变量的性质。方差分析与线性回归相同。所以,这里是各种DV的起点

具有正常误差的连续无界响应:线性回归/ANOVA

二元、分类或有序响应:一种或另一种类型的逻辑回归

计数响应:泊松或负二项式回归

事件响应时间:生存方法,可能是 Cox 模型开始

第一:独立于预测变量,如果你的反应有

  • 2 类(二进制),我们通常会使用逻辑回归
  • 2类,我们正在谈论多项式回归

第二:无论您使用什么回归模型(线性、逻辑、多项式),如果您有分类预测变量,大多数软件包都提供显示之间的选择

  • 回归表(包括对单个预测变量的测试,即对具有 n 个类别的分类预测变量的 n-1 测试),以及
  • ANOVA,用于测试预测变量的整体显着性(即同时测试所有类别的预测变量的影响)。

因此,回归表和方差分析具有相同的基础模型,但应用不同的测试。你总是可以做到这两点。你想要什么是你的选择。

在 R 中,如果您要进行逻辑回归,则可以像对线性模型一样进行 ANOVA(此处讨论的问题是Choice between Type-I, Type-II, or Type-III ANOVA)。您必须检查 R 中的各种多项回归选项在多大程度上实现了 ANOVA 函数。如果 ANOVA 不可用,特定假设的简单替代品将是似然比检验。