交易数据使用哪种算法

数据挖掘 数据集 算法
2022-02-23 15:50:30

我得到了一个交易数据集,并被要求为企业寻找见解。我对 ML / 数据科学非常陌生,并且只体验过 KMeans。该数据集具有以下特征

  • 商户编号
  • 交易日期
  • 军事时间
  • 数量
  • 支付的卡金额
  • 商户名称
  • 区号
  • 客户编号
  • 年龄段
  • 性别代码
  • 3个月平均收入
  • 卡值消费
  • 刷卡

忽略 NULL 数据,我可以对这些数据进行什么类型的分析?我已经对客户是否会花费过多(超过中位数)进行了 KMeans。

3个回答

在这些数据上,您可以执行大量的监督学习。如果您知道,监督学习是指机器使用带有标签的数据进行学习。在监督学习中,有两个子集。那些是regressionclassification分类是当您预测离散的事物时,例如男性或女性,或者幸存或未幸存。在回归的基础上,你可以预测非离散的东西,比如房子的价格,或者一个国家的 GDP。

根据您的数据集,我认为您可以通过分类进行很多 EDA(探索性数据分析)。也许你可以预测哪个性别购买更多。您可以使用数据集做很多事情,但这里是您可以使用的算法。

如果你有一个小数据集,逻辑回归和朴素贝叶斯是最好的算法。对于初学者来说,k-NN(k-最近邻)算法是最好的。如果您开始研究复杂的数据,那么决策树是最好的算法。

现在,在所有这些之后,有一个最复杂的算法(基本上是一堆混合在一起的决策树),那就是随机森林。如果您有一个非常庞大的数据集,其中包含许多标签,则此算法适用。

希望这可以帮助!

也许您可以使用客户 ID、商户 ID 等字段聚合数据,以便您也可以分别分析客户和商户数据。

例如,您可以汇总客户 ID 上的数据,以获得客户花费的金额的总和或平均值。您可以通过绘制箱线图、分布图来进一步分析数据,以找到各种见解。

我强烈建议您汇总此类交易数据。

您可能还想使用交易日期执行时间序列分析,以找到隐藏的趋势季节性。为此,您可能想看看 fbprophet ( https://facebook.github.io/prophet/docs/quick_start.html )。

你知道,当他们说业务团队需要洞察力时,并不总是意味着机器学习。

您还可以做大量的探索性分析和可视化消费趋势、人口支出中的季节性、白天客户最活跃的时间、突出收入增长率最高的城镇、哪个年龄段是您最大的客户群、您的在数量和收入方面最赚钱的商家。这些是业务团队可以用来制定业务战略的一些见解。

您还可以根据客户的消费模式、年龄组、位置等对客户进行聚类,以确定最有利可图的客户群。

最后,这基本上是时间序列数据,因此您可以应用一些传统的机器学习模型(如 SARIMA)或深度学习模型(如 LSTM 或 GRUs)来预测公司收益的时间序列。