我在一所大学工作,并且有一个项目可以根据申请者入学(转换)的可能性,使用他们对申请表问题的回答对他们进行评分。
申请包含姓名、出生日期、申请日期和时间、国家、性别、所选课程、英语水平、资金可用性和一些其他类似领域。还有各种自由文本字段,但我认为这些会使事情变得过于复杂。
我最初的想法是使用回归模型来做到这一点,使用 R。但我是一个完全的菜鸟——我 10 年前在 uni 学习回归......
我已经四处寻找,我想一旦我知道我走在正确的道路上,我就能弄清楚这个过程,但我不确定从哪里开始,也不想从错误的道路开始。我主要担心的是:
- 回归模型是正确的方法吗?如果不是,那是什么?
- 与连续字段相反,分类字段是一个问题吗?
- 还有一些仅适用于某些申请人的附加信息 - 是否可以包括在内,或者我们是否需要对所有申请人使用相同的信息?