将业务问题转化为机器学习解决方案:工作添加网站

数据挖掘 机器学习 数据挖掘 推荐系统
2021-09-22 20:17:32

我有以下问题:

一家公司,我们称之为 X,有一个招聘网站。它作为一个市场,求职者和有职位空缺的公司可以见面。

他们的商业模式是求职者付费订阅,以便在试用期后访问该网站。另一方面,公司不支付任何费用来发布招聘信息。

为了吸引公司在网站上发布工作,他们打电话给他们并询问他们是否感兴趣。他们有一个数据库,里面有N家过去与他们有业务往来的公司。由于预算和人员限制,在这些“N”中,他们只能调用 20%。

他们从简单的启发式方法中选择了这 20%:在过去六个月内发布招聘信息的公司。

他们想要的是打电话给那些发布招聘信息的可能性很高的公司,这些招聘信息会产生匹配。他们认为基于代理的匹配已经发生:公司联系了 n 个不同的候选人以进行特定的工作添加。

我想找到一种数据驱动的方法来选择最好的公司给他们打电话。换句话说,为他们提供一个很可能产生与其当前用户数据库相匹配的添加的公司列表。

我遇到的问题是如何将这个业务问题转化为机器学习解决方案。

到目前为止我的想法是建立一个分类模型。每一行都是一个工作添加。这些特征是与公司(规模、位置)、用户(年龄、简历、上次登录时间)和工作添加本身(薪水、所需教育、职位、行业)相关的变量。目标变量是“工作是否有马赫”的二进制。

我的方法的问题在于,模型实际上并没有学习任何东西,因为我的目标变量对于每个职位发布都是已知的(我知道哪些职位添加匹配,哪些没有匹配)。

我正在寻找一些关于如何在数据驱动的框架中构造这个问题的想法。我应该继续我的分类模型吗?也许某种类型的协同过滤?我确信机器学习可以提供比他们简单的启发式更好的结果。谢谢!

我拥有的数据:

  • 用户数据,包括简历;
  • 谁申请了什么工作,什么时候申请;
  • 来自发布招聘信息的公司的数据;
  • 公司与求职者的联系方式(这只是告诉我公司是否点击了按钮查看用户的联系信息);
1个回答

对于这种普遍的问题,有很多可能的方法,我不能一一列举。通常,您希望使用最简单的模型,通过更天真的方法创造价值。所以我们可以看看不同的方法,按复杂性排序,看看你需要什么。这是我将尝试进行此分析的顺序:

(1) 最简单的方法是只接触一个平面的 20%,随机抽取。这很容易做到,但希望可以改进。

(2)接下来,你可以尝试一种基于手头问题的基本统计数据的方法。例如,您可以计算那些之前投放广告的雇主,他们获得了多少申请*。然后从获得最多的那些开始,然后逐步下降。

(3) 既然您已经从盲法和基本的描述性分析方法中获得了基线集,您可以尝试一些更复杂的方法。假设您有过去广告中的文字,您可以挖掘该文字以获得可能描述他们正在寻找的内容的功能。如果雇主放置了多个广告,您可以将这些广告结合起来并在汇总中查找功能。对简历数据执行相同操作后,您可以创建一个推荐引擎来匹配潜在雇主和员工。然后,您可以使用该数据来确定哪个可能的雇主最有可能在您的客户群中有潜在的匹配。作为副作用,该引擎还可以指导您的客户找到最适合的工作。您可以在此处使用许多变体。例如,对于推荐引擎,

*当你说你知道谁申请时,警报响了。你确定吗?或者您只是通过点击统计来了解他们是否启动了应用程序?你怎么知道他们申请了?现实世界数据分析的第一条规则是你需要对你的数据持怀疑态度,尤其是你认为你的数据代表什么。