前景评分模型的想法

数据挖掘 机器学习 预测建模 监督学习 无监督学习
2021-10-06 11:51:04

我必须考虑一个模型来识别很有可能转化为客户的潜在客户(公司),我正在寻找关于哪种模型可以使用的建议。

我将拥有的数据库是,据我所知(我还没有),list of current clients(换句话说,converted prospects和它们的特征( ,,,,,,类似东西),和一个size我必须得分) 及其特点。但是,我认为我不会列出曾经是潜在客户但转换为客户失败的公司(如果有,我想我可以选择随机森林。当然我仍然可以使用随机森林,但我觉得在我的两个数据库的联合上运行随机森林将是一个坏主意,并将客户视为......)revenueagelocationlist of prospectsconvertednon-converted

所以我需要在潜在客户列表中找到那些看起来像现有客户的人。我可以使用什么样的模型来做到这一点?

(我也在考虑诸如“评估客户的价值并将其应用于类似的潜在客户”和“评估每个潜在客户倒闭的机会”之类的事情,以进一步完善我的评分价值,但是这有点超出我的问题范围)。

谢谢

1个回答

一年半前我遇到了几乎完全相同的情况——基本上你所拥有的是一类分类(OCC) 问题的变体,特别是PU 学习(从正数据和未标记数据中学习)。你有你已知的、标记为正面的数据集(客户)和一个未标记的潜在客户数据集(其中一些是类似客户的,一些不是类似客户的)。您的任务是确定潜在客户中最喜欢客户的对象并定位他们……这取决于这样一个假设,即看起来最像客户的潜在客户看起来不太像客户的潜在客户更有可能转换

我们确定的方法使用了一种称为Spy-technique的程序。基本思想是从已知的正类中抽取样本并将它们注入到未标记的集合中。然后,您在此组合数据上训练一个分类器,然后通过训练后的分类器运行未标记的集合,为每个实例分配一个成为正类成员的概率。直觉是注入的阳性(所谓的间谍) 的行为应该与正面实例相似(如它们的后验概率所反映的那样)。通过设置阈值,您可以从未标记的集合中提取可靠的否定实例。现在,拥有正负标记数据,您可以使用您选择的任何标准分类算法构建分类器。从本质上讲,使用间谍技术,您可以引导数据以为您提供正确训练所需的负面实例。

间谍技术

对于初学者,您应该查看 Li 和 Liu 的工作,他们有许多探讨 OCC 和 PU-learning 主题的论文。

OCC 和 PU 学习论文