连续和分类变量数据分析

机器算法验证 分类数据 连续数据
2022-03-26 20:12:44

我有三个变量:

  • 距离(连续,可变范围负无穷到正无穷)
  • isLand(离散分类/布尔值,变量范围 1 或 0)
  • 居住者(离散分类,变量范围 0-7)

我想回答以下统计问题:

  • 如何比较具有分类变量和连续变量的分布。例如,我想确定距离与居住者的数据分布是否因 isLand 的值而异。
  • 给定三个变量中的两个,我可以使用某个方程预测第三个变量吗?
  • 如何确定具有两个以上变量的独立性?
2个回答

我建议特别阅读逻辑或对数线性模型,以及一般的分类数据分析方法。以下课程的笔记非常适合开始:离散数据分析Agresti的教科书非常好。您也可以考虑使用Kleinbaum作为快速入门。

  1. 要检查连续因素和分类因素之间的关系,一个好的开始是使用并排箱线图,左侧是连续的,底部是分类的。手段不同吗?使用 ANOVA 进行检查。

  2. 要检查分类因素之间的关系,一个好的开始是使用马赛克图以及列联表。您可以先分组,然后制作单独的图。

  3. 要预测居住者,序数逻辑回归可能是最好的方法。

  4. 要预测 isLand,(二项式)逻辑回归应该可以解决问题。

  5. 为了预测距离,OLS 回归将起作用。