我有一个数据集,其中仅包含每个预测变量的分类数据A,B,C,D(如因子)。有 10 个预测变量,因变量是二元的0,1。
更新:我的预测变量是问卷选择题的答案。所以每个预测变量只取分类值,即X_1can be A,B,Cor D,X_2can be A,B,C,D,E,F,Gor H。
在这个数据集上拟合逻辑回归是否可行? 理想情况下,如果我可以对数据进行逻辑回归,然后我将使用它来预测一组测试数据,该测试数据同样只包含分类数据。
我应该注意哪些陷阱?
我有一个数据集,其中仅包含每个预测变量的分类数据A,B,C,D(如因子)。有 10 个预测变量,因变量是二元的0,1。
更新:我的预测变量是问卷选择题的答案。所以每个预测变量只取分类值,即X_1can be A,B,Cor D,X_2can be A,B,C,D,E,F,Gor H。
在这个数据集上拟合逻辑回归是否可行? 理想情况下,如果我可以对数据进行逻辑回归,然后我将使用它来预测一组测试数据,该测试数据同样只包含分类数据。
我应该注意哪些陷阱?
是的,当然可以。请注意分类数据的性质——它是有序的还是无序的?
如果是有序的(例如小、中、大),您可能需要一个特征 X1,其值类似于 (1, 1, 3, 2, 3, 1, ...),其中 1 代表小,2 代表中等。
如果无序(例如红色、蓝色、绿色),您将需要多个特征,例如 X1 = (0, 0, 1, 0) 表示“是红色的?”,X2 = (1, 0, 0, 1) 表示“是蓝色的?” 等等。
是的,这是可行的。
(可能)看不见的陷阱是您的模型可能需要比您预期的更多的数据。逻辑回归的一般经验法则是,对于模型中的每个变量,您至少需要在不太常见的类别(即秒或次观察(参见此处)。您可能认为您只有变量(即和),因此,只要您至少有“成功”和“失败”,就可以了。但是,我们如何解释您的变量与统计模型如何使用它们之间存在细微的不一致。你会很自然地想到X_1X_2X_1作为单个变量,但模型会将其视为。同样,该模型将视为 (!) 个附加变量,而不是一个。更具体地说,对于您添加的每个分类变量,您在模型中使用的级别数减一(和)。这样做的结果是,您希望数据集中至少有“成功”和“失败”()来拟合仅包含您的和变量的模型。 X_2X_1X_2
一个相关的问题是您希望确保每个级别都有足够的数据。显然,如果没有人选择X_2 = G,你将无法估计那个级别的效果X_2,但如果有人选择了,你也会有问题G,但每个人都有Y = 1。那会导致分离的问题。此外,如果您想适应交互,您将需要每个级别组合中的足够数据()。要阅读有关这些主题的更多信息,您可能需要仔细阅读我们分类下的一些主题哈克唐纳效应和多类.
当然这是可能的。
您只需要将分类变量转换为二元变量并每次删除一项。例如,如果变量 X 取两个值 A 和 B,则您需要创建一个变量,如果 X == A 则等于 1,否则等于 0。由于 X == A 意味着 X != B,如果你添加变量,如果 X == B 等于 1,否则你将在模型中存在共线性,否则为 0。