潜在客户分类

数据挖掘 机器学习 分类 营销
2021-09-19 11:23:18

我有一张表,其中包含全球数千家公司的许多财务信息(收入、收入、员工人数、总资产等)以及表明该公司是否拥有特定高价值机器的额外信息(如果该公司拥有,则为“1”如果公司没有,则为“0”)。

我的目标是确定哪些公司没有这台机器,但它们是潜在客户。我的第一种方法是使用分类算法,例如 SVM、随机森林等,并将这些财务特征用作“有机器”/“没有机器”列的预测因子。“潜在客户”实际上是模型归类为“1”(有机器)的个人,但他们实际上是“0”(没有机器)。换句话说,这个模型的误报。

我对这种方法并不满意(毕竟,完美的模型并不代表一个潜在客户!),但我不知道有什么其他方法可以解决这个问题。我想知道是否有人可以给我一些指导!

谢谢

1个回答

您所描述的是或多或少的标准方法,但有一些警告。

泄密者

请记住,我们生活在一个随机世界中,因此完美模型会立即使用泄漏者,即与目标有因果关系的变量。例如,在您的情况下,这将是机器的服务合同的存在(这表明公司实际上拥有一台)。建立一个可解释的模型并检查此类因果关系的最强大变量(并消除它们)将是一个好主意。

更好的方法

但是,可以通过将公司的当前状态替换为机器购买时的历史状态来以一种非常有效的方式改进这种方法。这样可以自动消除泄密者并获得更好的模型,因为预测值更相关:毕竟,您试图预测哪家公司现在准备购买机器而不是哪家公司在过去购买机器时条件非常不同。

实际上,您的方法之所以有效,是因为它是这种方法的近似值(以当前状态近似购买机器时的公司状态),并且您提到的完美模型的荒谬/无用是您方法的产物是正确的事情的近似值