何时构建单独的模型

数据挖掘 预测建模 回归
2022-01-30 14:04:20

我对预测建模很陌生,但对生成信用卡账户支出的预测很感兴趣。这些是现有帐户。

我可用的数据是卡类型(即白金卡、黑卡、金卡)和去年的消费/交易数据。

我有两个问题:

  • 我如何决定是使用线性回归还是决策树/随机森林?还是我尝试多种技术?

  • 我预计不同卡类型的支出会有很大差异;这是否建议我应该按卡片类型构建单独的模型?如果我有另一组我认为可以细分客户但不确定的属性,我将如何评估它?

如果有在线指南可以回答上述问题,那也将不胜感激。还没有找到任何好的(或者至少我认为没有)

2个回答

简短回答:首先评估简单模型,然后在必要时构建更复杂的模型。

对于路线图,我会这样:

  • 熟悉不同类别的机器学习问题:分类与回归问题。您的问题属于回归类别(至少乍一看,如有必要,您也可以将其重新构建为分类问题)
  • 熟悉主要对应算法
  • 熟悉训练/测试模型性能的策略
  • 由于您明确要求在线资源,您可以查看Andrew Ng 的机器学习课程(尤其是课程的前几周)。它不是免费的,但您也可以在寻找他的机器学习向往书时进行总体概述。我想到的另一个资源是机器学习掌握网站(不记得那个人的名字),在那里你可以找到一些介绍性的电子书来回答这些问题。它写得很好,可以为您提供良好的提升

这有帮助吗?

你犯了一些人们第一次进入数据科学世界时犯的经典错误。您的问题应该是“我使用什么型号?”。问题应该是“我可以从我的数据中学到什么?

你犯的第一个错误是直接跳到建模——永远不要那样做。您需要经历一段时间的探索性数据分析 (EDA) 来帮助您了解数据。EDA 阶段的全部意义在于使您能够就项目提出更聪明的问题,当您提出这些问题时,您将处于更好的位置来确定您需要哪些模型。另外,请记住,EDA 也可以用来回答分析问题。在您的示例中,您的按卡类型支出的问题可能可以在彻底的 EDA 阶段得到回答。

你犯的第二个错误是考虑你需要的模型类型而不考虑你想回答的问题。您要解决的业务案例是什么?你的假设是什么?当您将来进行预测时,您将获得哪些数据?你手上有一个无监督问题的监督吗?等等,等等等等。这些都是你需要得到一些答案的事情,然后你才能考虑将要使用的模型。

别忘了,这是数据科学您需要以有条不紊、科学的方式处理您的问题,才能真正实现您所寻求的结果。