Data Science Noob - 基于转化概率的客户评分

数据挖掘 r 预测建模 回归
2022-02-04 16:33:49

我在一所大学工作,并且有一个项目可以根据申请者入学(转换)的可能性,使用他们对申请表问题的回答对他们进行评分。

申请包含姓名、出生日期、申请日期和时间、国家、性别、所选课程、英语水平、资金可用性和一些其他类似领域。还有各种自由文本字段,但我认为这些会使事情变得过于复杂。

我最初的想法是使用回归模型来做到这一点,使用 R。但我是一个完全的菜鸟——我 10 年前在 uni 学习回归......

我已经四处寻找,我想一旦我知道我走在正确的道路上,我就能弄清楚这个过程,但我不确定从哪里开始,也不想从错误的道路开始。我主要担心的是:

  • 回归模型是正确的方法吗?如果不是,那是什么?
  • 与连续字段相反,分类字段是一个问题吗?
  • 还有一些仅适用于某些申请人的附加信息 - 是否可以包括在内,或者我们是否需要对所有申请人使用相同的信息?
3个回答

您的问题可能因过于宽泛而被关闭,但让我们试一试。你想要注册概率,这对我来说听起来像是一个逻辑回归。分类数据类型和连续数据类型都不应该出现问题。您可以对附加信息进行建模,为没有的应用程序简单地分配一个NA类别。您可以NA在模型中包含该类别。

我建议你阅读这本书Applied Predictive Modelling,我认为它有一个关于信用卡申请的部分,这与你正在做的很接近。你应该尝试从中学习。

让我们看看(前面的大招)

有监督学习和无监督学习两种方法。

对于监督学习,我们要么需要前几年的数据(最后的入学人数),要么需要计算一些应用程序的概率(足以使模型可以准确地预测新数据)。然后它变成了线性回归的问题(因为概率将是一个连续变量)。如果您决定某个截止(阈值)该概率(y = 0 下方和 y = 1 上方),那么它就成为逻辑回归的问题。一旦数据准备就绪,机器学习可以在半小时内完成。现在回答你的问题。

  • 是的,回归模型是一种正确的方法,但它是一个广义的术语。
  • 没问题,您需要as.factor()在 R 中使用分类字段因子。
  • 您应该为所有申请人使用相同的信息,但这并不意味着您不能使用该信息。如果信息可用这一事实对结果有影响,则制作一个变量并相应地将其设置为 1 或 0。如果该信息中可用的内容有影响,那么它会有点棘手,可能是计算常见相关单词的数量并将该数字放入变量中。

您要解决的问题称为二元分类。有很多算法,并且有大量的教程。实际上,研究得非常好,可以使用现成的工具来尝试所有算法并为您的任务选择最好的。https://github.com/paypal/autosklearn-zeroconf是其中之一,它使 auto-sklearn 二进制分类器能够在任意表格数据(如您所拥有的)上运行。