机器算法验证 - 编码为分类变量还是连续变量？ - 吾爱随笔录

编码为分类变量还是连续变量？

机器算法验证回归分类编码

2022-04-17 03:07:50

我的研究中有一个问题/IV 已得到解答：

1- No
2- Do not know
3- Sometimes
4- Yes

有人建议我删除答案 2（所有人都不知道答案）并将这些视为缺失数据，因为该问题的答案没有太大价值。

因此，我最终重新编码

1- No
2- Sometimes 
3- Yes

在二元逻辑回归中，这个变量会被认为是连续的还是分类的？

由于它是二元逻辑回归中的一个连续因素，因此将其输入表明这是一个显着的效果：得分较高 (3) 的人（这意味着是）更有可能进行 DV 行为。

但是，我非常怀疑这种统计的正确性。在我的回归中是否应该将此变量视为分类变量？

我应该保留不知道的回复吗？如果是这样，并且如果我认为它是连续的，那么这个响应的顺序（即从 1 到 4）最合适？

2个回答

鉴于这些类别是我无法控制的数据，我会编写代码

1 No 
2 Sometimes 
3 Yes 
4 Don't know

基于这些理由：

有时听起来比 Yes 更弱，后者更强调。
不知道通常不属于有序序列。

然后有些分析会要求忽略 4 而有些则不会。一切都取决于所问的问题：例如，您是在描述数据还是建模？

但我认为说“不知道”失踪是错误的。我们也都回答问卷。如果允许我说“不知道”作为各种可能的答案之一，那根本不等于我拒绝或拒绝回答这个问题。作为一个偶尔的调查参与者以及一个有统计头脑的人，我反对这样分析数据。

没有理由将此变量称为连续变量。它是离散的。1 到 3 单独是有序的，1 到 4 只是名义上的或无序的。

逻辑回归的上下文不会改变您对变量的看法，除非它被视为响应并且您在序数和多项逻辑之间进行选择。

编辑

仔细想想，很难看出“有时”和“是”是相互排斥的！有哪些问题？你吃肉、喝酒、抽烟吗？

如果按照以下顺序向人们提供这些答案，则会出现一个单独的问题：

1- No
2- Do not know
3- Sometimes
4- Yes

那么完全有可能，无论理性与否，有些人可能会认为这是一个有序的规模。例如，“你赞成杰出政治家的行为吗？”。说“不知道”介于两个极端之间是有一定道理的，例如“我知道的不够多，或者不想对这个话题做出判断”。但是人们期望知道“不知道”和“有时”之间的区别。这可能发生：我不知道轻微的医疗状况涉及什么，直到它发生在我身上并被命名和解释。

如果没有关于如何收到或理解问卷的定性证据，除了推测之外很难做更多的事情。

（假设为简单起见，我们将“不知道”视为缺失：）三种简单的方法是：

将其编码为分类协变量。例如，如果您使用“否”作为参考水平，那么您会从回归中得到两个系数：a) 回答“有时”的受访者的结果的对数几率（其他条件大致相同）与回答“不”的人相比；b) 回答“是”的受访者与回答“否”的受访者的结果的对数几率。缺点是，你没有得到回答“是”与“有时”的价值。
将其用作连续变量。缺点是假设“否”和“有时”之间的差异与“有时”和“是”之间的差异大小相同。
我想你可以决定你所关心的只是一个二元选择——“是”与“否”或“有时”，并将其重新编码为布尔变量。但这会抛出信息。

还有更复杂的选择。这个答案有一些想法；而这个，以及它指向的链接，会给你更多。

其它你可能感兴趣的问题

上一篇这是毕晓普书中的错字/错误吗下一篇什么是汉明损失？我们会考虑将它用于不平衡二元分类器吗