编码为分类变量还是连续变量?

机器算法验证 回归 分类编码
2022-04-17 03:07:50

我的研究中有一个问题/IV 已得到解答:

1- No
2- Do not know
3- Sometimes
4- Yes

有人建议我删除答案 2(所有人都不知道答案)并将这些视为缺失数据,因为该问题的答案没有太大价值。

因此,我最终重新编码

1- No
2- Sometimes 
3- Yes

在二元逻辑回归中,这个变量会被认为是连续的还是分类的?

由于它是二元逻辑回归中的一个连续因素,因此将其输入表明这是一个显着的效果:得分较高 (3) 的人(这意味着是)更有可能进行 DV 行为。

但是,我非常怀疑这种统计的正确性。在我的回归中是否应该将此变量视为分类变量?

我应该保留不知道的回复吗?如果是这样,并且如果我认为它是连续的,那么这个响应的顺序(即从 1 到 4)最合适?

2个回答

鉴于这些类别是我无法控制的数据,我会编写代码

1 No 
2 Sometimes 
3 Yes 
4 Don't know 

基于这些理由:

  1. 有时听起来比 Yes 更弱,后者更强调。

  2. 不知道通常不属于有序序列。

然后有些分析会要求忽略 4 而有些则不会。一切都取决于所问的问题:例如,您是在描述数据还是建模?

但我认为说“不知道”失踪是错误的。我们也都回答问卷。如果允许我说“不知道”作为各种可能的答案之一,那根本不等于我拒绝或拒绝回答这个问题。作为一个偶尔的调查参与者以及一个有统计头脑的人,我反对这样分析数据。

没有理由将此变量称为连续变量。它是离散的。1 到 3 单独是有序的,1 到 4 只是名义上的或无序的。

逻辑回归的上下文不会改变您对变量的看法,除非它被视为响应并且您在序数和多项逻辑之间进行选择。

编辑

仔细想想,很难看出“有时”和“是”是相互排斥的!有哪些问题?你吃肉、喝酒、抽烟吗?

如果按照以下顺序向人们提供这些答案,则会出现一个单独的问题:

1- No
2- Do not know
3- Sometimes
4- Yes

那么完全有可能,无论理性与否,有些人可能会认为这是一个有序的规模。例如,“你赞成杰出政治家的行为吗?”。说“不知道”介于两个极端之间是有一定道理的,例如“我知道的不够多,或者不想对这个话题做出判断”。但是人们期望知道“不知道”和“有时”之间的区别。这可能发生:我不知道轻微的医疗状况涉及什么,直到它发生在我身上并被命名和解释。

如果没有关于如何收到或理解问卷的定性证据,除了推测之外很难做更多的事情。

(假设为简单起见,我们将“不知道”视为缺失:)三种简单的方法是:

  1. 将其编码为分类协变量。例如,如果您使用“否”作为参考水平,那么您会从回归中得到两个系数:a) 回答“有时”的受访者的结果的对数几率(其他条件大致相同)与回答“不”的人相比;b) 回答“是”的受访者与回答“否”的受访者的结果的对数几率。缺点是,你没有得到回答“是”与“有时”的价值。

  2. 将其用作连续变量。缺点是假设“否”和“有时”之间的差异与“有时”和“是”之间的差异大小相同。

  3. 我想你可以决定你所关心的只是一个二元选择——“是”与“否”或“有时”,并将其重新编码为布尔变量。但这会抛出信息。

还有更复杂的选择。这个答案有一些想法;这个,以及它指向的链接,会给你更多。