我有来自这里的葡萄酒数据,它由 11 个数字自变量组成,每个条目的相关评级与值在 0 到 10 之间。这使得使用回归模型来研究变量和相关变量之间的关系成为一个很好的数据集评分。但是,线性回归是否合适,还是使用多项/有序逻辑回归更好?
考虑到特定类别,逻辑回归似乎更好,即不是连续因变量,但(1)有 11 个类别(有点太多?)和(2)经过检查,这些类别中只有 6-7 个类别的数据,即其余5-4 个类别在数据集中没有示例。
另一方面,线性回归应该线性估计0-10之间的评级,这似乎更接近我想要找出的;然而,因变量在数据集中不是连续的。
哪种方法更好?注意:我使用 R 进行分析
编辑,解决答案中提到的一些要点:
- 没有商业目标,因为这实际上是针对大学课程的。任务是以我认为合适的方式分析选择的数据集。
- 评分的分布看起来很正常(直方图/qq-plot)。数据集中的实际值在 3-8 之间(即使技术上是 0-10)。