我应该使用什么类型的回归

数据挖掘 数据集 回归 逻辑回归
2022-03-16 08:19:38

我有一个数据集,提供有关不孕症和原因的数据。数据集主要是0,1来表示“是”和“否”。但是,某些字段具有“有时”、“经常”,它们将由 -1 或 2 表示。我只学习了如何处理分类数据,即 1,0 和数字数据。所以我的问题是,因为除了 1 和 0 之外还有更多选项,我应该使用哪种类型的回归?逻辑回归还是线性回归?

3个回答

使用逻辑回归或线性回归取决于​​因变量 (DV)。根据您的问题,我相信您的 DV 将是不孕症(是/否),因此您应该使用逻辑回归,因为线性回归适用于连续变量(例如:考试分数),而逻辑回归适用于分类变量(例如 L 是/否)

嗯......首先有几点:逻辑回归用于分类,线性回归用于回归任务。它们在概念上是不同的,所以要小心你想做的事情。

分类变量可以使用encoding进行矢量化。如果有很多类别,您可以在将数据提供给算法之前应用降维。

该算法是根据模型选择过程选择的,因此,通常,您事先不知道哪个更好。

选择学习算法取决于问题类型:

  • 线性回归通常用于回归问题(即在连续输出中预测结果)
  • 逻辑回归通常用于分类问题(即在离散输出中预测结果)

在我们的场景中,我们想要预测具有某些原因(特征)的患者是否极有可能被诊断为不孕症(“是”),经常被诊断为不孕症(“经常”),有时被诊断为不孕症(“有时” ),或极有可能未被诊断为不孕症(“否”)。因此,因此,我们可以有四个离散输出之一:“是”、“经常”、“有时”、“否”。也就是说,我们有一个分类问题,因此我们应该选择逻辑回归而不是线性回归。

现在,逻辑回归进行二元分类(两个类别),我们有四个类别。尽管如此,我们仍然可以通过学习四种不同的模型来使用逻辑回归:

  1. 预测“是”或“其余”(“其余”包括“经常”、“有时”、“否”)
  2. 预测“经常”或“其余”(“其余”包括“是”、“有时”、“否”)
  3. 预测“有时”或“其余”
  4. 预测“否”或“其余”

对于给定的患者,然后评估所有四个模型。理想情况下,三个模型将预测“其余”,一个将预测患者的实际类别。这种策略称为one-vs.-rest 转换还有一对一的转换

或者,我们可以使用一种本机支持多类分类且不需要转换的学习算法:决策树、支持向量机、神经网络、多项逻辑回归等。