我对预测建模很陌生,但对生成信用卡账户支出的预测很感兴趣。这些是现有帐户。
我可用的数据是卡类型(即白金卡、黑卡、金卡)和去年的消费/交易数据。
我有两个问题:
我如何决定是使用线性回归还是决策树/随机森林?还是我尝试多种技术?
我预计不同卡类型的支出会有很大差异;这是否建议我应该按卡片类型构建单独的模型?如果我有另一组我认为可以细分客户但不确定的属性,我将如何评估它?
如果有在线指南可以回答上述问题,那也将不胜感激。还没有找到任何好的(或者至少我认为没有)
我对预测建模很陌生,但对生成信用卡账户支出的预测很感兴趣。这些是现有帐户。
我可用的数据是卡类型(即白金卡、黑卡、金卡)和去年的消费/交易数据。
我有两个问题:
我如何决定是使用线性回归还是决策树/随机森林?还是我尝试多种技术?
我预计不同卡类型的支出会有很大差异;这是否建议我应该按卡片类型构建单独的模型?如果我有另一组我认为可以细分客户但不确定的属性,我将如何评估它?
如果有在线指南可以回答上述问题,那也将不胜感激。还没有找到任何好的(或者至少我认为没有)
简短回答:首先评估简单模型,然后在必要时构建更复杂的模型。
对于路线图,我会这样:
这有帮助吗?
你犯了一些人们第一次进入数据科学世界时犯的经典错误。您的问题不应该是“我使用什么型号?”。问题应该是“我可以从我的数据中学到什么? ”
你犯的第一个错误是直接跳到建模——永远不要那样做。您需要经历一段时间的探索性数据分析 (EDA) 来帮助您了解数据。EDA 阶段的全部意义在于使您能够就项目提出更聪明的问题,当您提出这些问题时,您将处于更好的位置来确定您需要哪些模型。另外,请记住,EDA 也可以用来回答分析问题。在您的示例中,您的按卡类型支出的问题可能可以在彻底的 EDA 阶段得到回答。
你犯的第二个错误是考虑你需要的模型类型而不考虑你想回答的问题。您要解决的业务案例是什么?你的假设是什么?当您将来进行预测时,您将获得哪些数据?你手上有一个无监督问题的监督吗?等等,等等等等。这些都是你需要得到一些答案的事情,然后你才能考虑将要使用的模型。
别忘了,这是数据科学。您需要以有条不紊、科学的方式处理您的问题,才能真正实现您所寻求的结果。