数据挖掘 - 交易数据使用哪种算法 - 吾爱随笔录

交易数据使用哪种算法

数据挖掘数据集算法

2022-02-23 15:50:30

我得到了一个交易数据集，并被要求为企业寻找见解。我对 ML / 数据科学非常陌生，并且只体验过 KMeans。该数据集具有以下特征

商户编号
交易日期
军事时间
数量
支付的卡金额
商户名称
镇
区号
客户编号
年龄段
性别代码
省
3个月平均收入
卡值消费
刷卡

忽略 NULL 数据，我可以对这些数据进行什么类型的分析？我已经对客户是否会花费过多（超过中位数）进行了 KMeans。

3个回答

在这些数据上，您可以执行大量的监督学习。如果您知道，监督学习是指机器使用带有标签的数据进行学习。在监督学习中，有两个子集。那些是regression和classification。分类是当您预测离散的事物时，例如男性或女性，或者幸存或未幸存。在回归的基础上，你可以预测非离散的东西，比如房子的价格，或者一个国家的 GDP。

根据您的数据集，我认为您可以通过分类进行很多 EDA（探索性数据分析）。也许你可以预测哪个性别购买更多。您可以使用数据集做很多事情，但这里是您可以使用的算法。

如果你有一个小数据集，逻辑回归和朴素贝叶斯是最好的算法。对于初学者来说，k-NN（k-最近邻）算法是最好的。如果您开始研究复杂的数据，那么决策树是最好的算法。

现在，在所有这些之后，有一个最复杂的算法（基本上是一堆混合在一起的决策树），那就是随机森林。如果您有一个非常庞大的数据集，其中包含许多标签，则此算法适用。

希望这可以帮助！

也许您可以使用客户 ID、商户 ID 等字段聚合数据，以便您也可以分别分析客户和商户数据。

例如，您可以汇总客户 ID 上的数据，以获得客户花费的金额的总和或平均值。您可以通过绘制箱线图、分布图来进一步分析数据，以找到各种见解。

我强烈建议您汇总此类交易数据。

您可能还想使用交易日期执行时间序列分析，以找到隐藏的趋势季节性。为此，您可能想看看 fbprophet ( https://facebook.github.io/prophet/docs/quick_start.html )。

你知道，当他们说业务团队需要洞察力时，并不总是意味着机器学习。

您还可以做大量的探索性分析和可视化消费趋势、人口支出中的季节性、白天客户最活跃的时间、突出收入增长率最高的城镇、哪个年龄段是您最大的客户群、您的在数量和收入方面最赚钱的商家。这些是业务团队可以用来制定业务战略的一些见解。

您还可以根据客户的消费模式、年龄组、位置等对客户进行聚类，以确定最有利可图的客户群。

最后，这基本上是时间序列数据，因此您可以应用一些传统的机器学习模型（如 SARIMA）或深度学习模型（如 LSTM 或 GRUs）来预测公司收益的时间序列。

其它你可能感兴趣的问题

上一篇我们如何对管道中的 y 变量执行预拟合的标准标量逆变换下一篇ICR 和 OCR 有什么区别？