基本数据:我有大约 1,000 人被标记为评估:“1”、[好]、“2”、[中] 或“3”[坏]——这些是我试图为人们预测的未来值. 除此之外,我还有一些人口统计信息:性别(分类:M / F)、年龄(数字:17-80)和种族(分类:黑人/白种人/拉丁裔)。
我主要有四个问题:
我最初试图将上述数据集作为多元回归分析运行。但我最近了解到,由于我的依赖是一个有序因子而不是一个连续变量,我应该使用序数逻辑回归来处理这样的事情。我最初使用的是类似的东西
mod <- lm(assessment ~ age + gender + race, data = dataset)
,有人能指出我正确的方向吗?从那里开始,假设我得到了我觉得很舒服的系数,我知道如何只为 x1、x2 等插入数值——但是我将如何处理种族,例如,有多个响应的地方:黑人/白种人/ 拉丁裔?因此,如果它告诉我高加索系数是 0.289,而我试图预测的某个人是高加索人,那么由于该值不是数字,我该如何将其重新插入?
我还缺少一些随机值——一些用于种族,一些用于性别等。我是否需要做任何额外的事情来确保这不会扭曲任何东西?(我注意到当我的数据集被加载到 R-Studio 时,当丢失的数据被加载为
NA
时,R 会说类似(162 observations deleted due to missingness)
- 但如果它们被加载为空白,它什么也不做。)假设所有这些都解决了,并且我有我想要预测的性别、年龄和种族的新数据——在 R 中是否有一种更简单的方法可以通过我的新系数公式来运行所有这些,而不是手动完成?(如果这个问题在这里不合适,我可以把它带回 R 论坛。)