将多个模型更改为 1 个模型

数据挖掘 机器学习 分类 文本 阶级失衡
2022-01-31 14:50:10

我正在为一家招聘公司工作,开发机器学习算法,以自动将求职者分类为接受面试或不接受面试。数据高度不平衡(即大多数申请人不会接受面试。)目前,为此我们使用每个工作的机器学习模型。我们向其提供申请人及其身份的示例。但是,由于训练数据集的大小,这通常具有较低的性能。

这种方法的一个潜在改进可能是创建一个单一模型,该模型将申请人的输入信息和工作要求的信息作为输入,然后预测是否进行面试。这种方法是否可能有效并且在任何情况下都使用/已经研究过的技术?

注意:我正在研究的实际问题是对出版物进行分类以包含在医学系统评价中。“不同的工作”代表不同的审查主题,“工作要求”是纳入标准,每个“申请人”实际上是一份医学出版物。我使用了这个例子,因为它具有可比性,并且需要较少的领域专业知识来理解。

1个回答

这个问题最好在其原始领域(即医学)中提出,因为它需要有关问题结构和数据性质的重要领域知识来推理单个模型的性能。我怀疑与工作申请的类比在这里是否完美。

现在,每个评论主题都有一个模型,可以推广到具有不同收录标准的不同出版物。您问的是单个模型是否也能够泛化到不同的评论主题。

当然,您可以构建模型并评估其准确性。如果这需要付出巨大的努力,那么可以公平地尝试并推理一下您可能首先做得如何,但这只会让您到目前为止。

同样,您必须在这里应用您自己的领域知识,但我至少可以尝试为您提供一个思考这个问题的框架。为了回答一个模型的泛化能力的主要问题,您需要调查:

  • 不同的评论主题是否以类似的方式与出版物/纳入标准相互作用?
  • 我现有的任何功能是否捕捉到评论主题和出版物/纳入标准之间的相互作用?
  • 我可以设计任何其他功能来以一般方式捕获这些交互吗?

举一个非常简单的例子,如果论文中的主题关键字 x 次足以包含论文 X、主题 Y、出版物 Z 以及审查标准 A、B、C、...,并且您认为这些数据帮助您预测包含完全不同的论文、主题等示例,那么您可能会认为一个模型会在这里泛化。