我有数据,其中响应变量(对旅游的态度)在性质上从 -10 到 +10 (根据与旅游相关的几个问题的分数总和计算)。自变量本质上是连续的、分类的(3-4 个类别)和二元的(是/否)。我可以将响应(态度)分为负面、中性和正面,并运行序数逻辑回归(即使这是正确的方法也不太确定)。但是我遇到了一些与我的研究相关的文献,他们使用了多元线性回归,即使他们的自变量是分类的(负的、中性的和正的),并且在一些情况下,自变量像我的一样被缩放。在这种情况下我可以使用多元线性回归吗?如果不是,那么序数逻辑回归呢?
在序数逻辑回归和多元线性回归之间进行选择
机器算法验证
回归
物流
线性的
序数数据
2022-04-21 09:03:58
2个回答
响应变量的序数范围为 -10 到 +10,这是将其视为数字并运行标准多变量回归的正当理由。如果您要做出某些推论,您将需要检查残差图以评估它们是否合理地呈正态分布。
这可能比分为 3 个级别要好得多,因为这会导致大量信息丢失。
首先,对罗伯特的回答 +1。
特别是,他提出了一个很好的观点,即您不应该将您的数据分类为“负面”/“中性”/“正面”类别,因为这只会不必要地丢失太多信息。例如,如果您将分类为“负面”,分类为“中性”,分类为“正面”,那么此分类会将得分为的人与得分为的人完全相同- 但大概第一个受访者比第二个受访者更消极。所以我们丢失了信息。不要这样做。
正如 Robert 所写,对于 21 个有序类别,您可能足够使用普通最小二乘法 (OLS) 而不是有序逻辑回归,因为对于如此大量的类别,两种方法之间的差异将非常小。无论如何,模型中的这种差异将完全由这样一个事实决定,即您的测量只能不完美地测量您真正感兴趣的基础结构。
我不会过分强调残差的正态性,无论是通过图形评估还是通过正式测试。这很好,但回归参数对于偏离正态性非常稳健。我宁愿针对您的预测变量运行残差诊断图:如果此类图中存在模式,则表明存在一些未建模的非线性。(请注意,此类诊断会使您的 p 值产生偏差,因此,如果这些是您感兴趣的,请不要过度使用。)
如果您真的有兴趣在 OLS 和有序逻辑回归之间做出选择,并且如果您有足够的数据,那么请考虑对这两种方法进行交叉验证,看看哪一种产生的袋外均方误差较低。如果它们在一个标准误差范围内,则使用更简单的模型,这里是 OLS 模型。