我目前正在从事一个兼职项目,该项目涉及使用数据分析预测客户购买产品的可能性。我正在实习的公司给了我一个客户 CSV 文件,其中包含所有当前客户及其属性,并且需要建立一个预测模型来分类潜在客户是否可行。
然而,既然他们给了我一份他们所有成功客户或潜在客户的列表,用营销术语来说,是否有可能用 PCA(和 k 折交叉验证?)训练像 K-means 这样的模型并获得结果?我必须训练我的模型以适应一个值,比如 10,我将把它添加到 CSV 中,并进一步测试它。
我正在使用熊猫。另一个问题是有很多人口统计数据,但我设法使用get_dummies(). 但是,列的数量从大约 10 增加到 47。
我刚刚进入数据分析的世界,因此我对采取什么路径或我正在做的事情是否正确有点无能为力。
准确的分析在营销术语中称为预测潜在客户评分/分析。
编辑 1
我遵循@HonzaB 所做的,因此得到了一个决策树。但是,由于我有 40 列,它看起来像这样
我不得不对其进行截图,因为它超过 2 MB。
显然它真的很大,我必须以某种方式修剪树,但我不知道如何在熊猫上这样做。另外,有没有什么方法可以生成文本文件或无需数据科学家帮助就可以理解的最佳特征?
编辑 2
我已经阅读了一个与我需要做的非常相似的问题。基于 RFM 评分指标的预测建模。其中有一篇论文的链接([Data Mining using RFM Analysis][3]),该论文讨论了基于规则的分类。理想情况下,这是我需要做的,也是最适合公司需要的。
我想知道是否可以在 Python/pandas 上执行此操作。或者是否可以遍历决策树并生成规则?
编辑 3
我再次在python中找到了另一个网站Decision trees,cross-validation,它使用交叉验证和超参数优化来获得更好的解决方案。他们还包含 Python 代码以获得可读代码。这是一个可行的解决方案,但是它非常复杂,我无法理解它是如何工作的。它会起作用吗?
PS我通过减少最大深度解决了Edit 1中的“非常大的决策树”问题。我根本不知道。
