我有一张表,其中包含全球数千家公司的许多财务信息(收入、收入、员工人数、总资产等)以及表明该公司是否拥有特定高价值机器的额外信息(如果该公司拥有,则为“1”如果公司没有,则为“0”)。
我的目标是确定哪些公司没有这台机器,但它们是潜在客户。我的第一种方法是使用分类算法,例如 SVM、随机森林等,并将这些财务特征用作“有机器”/“没有机器”列的预测因子。“潜在客户”实际上是模型归类为“1”(有机器)的个人,但他们实际上是“0”(没有机器)。换句话说,这个模型的误报。
我对这种方法并不满意(毕竟,完美的模型并不代表一个潜在客户!),但我不知道有什么其他方法可以解决这个问题。我想知道是否有人可以给我一些指导!
谢谢