我正在为一家招聘公司工作,开发机器学习算法,以自动将求职者分类为接受面试或不接受面试。数据高度不平衡(即大多数申请人不会接受面试。)目前,为此我们使用每个工作的机器学习模型。我们向其提供申请人及其身份的示例。但是,由于训练数据集的大小,这通常具有较低的性能。
这种方法的一个潜在改进可能是创建一个单一模型,该模型将申请人的输入信息和工作要求的信息作为输入,然后预测是否进行面试。这种方法是否可能有效并且在任何情况下都使用/已经研究过的技术?
注意:我正在研究的实际问题是对出版物进行分类以包含在医学系统评价中。“不同的工作”代表不同的审查主题,“工作要求”是纳入标准,每个“申请人”实际上是一份医学出版物。我使用了这个例子,因为它具有可比性,并且需要较少的领域专业知识来理解。