我得到了一个交易数据集,并被要求为企业寻找见解。我对 ML / 数据科学非常陌生,并且只体验过 KMeans。该数据集具有以下特征
- 商户编号
- 交易日期
- 军事时间
- 数量
- 支付的卡金额
- 商户名称
- 镇
- 区号
- 客户编号
- 年龄段
- 性别代码
- 省
- 3个月平均收入
- 卡值消费
- 刷卡
忽略 NULL 数据,我可以对这些数据进行什么类型的分析?我已经对客户是否会花费过多(超过中位数)进行了 KMeans。
我得到了一个交易数据集,并被要求为企业寻找见解。我对 ML / 数据科学非常陌生,并且只体验过 KMeans。该数据集具有以下特征
忽略 NULL 数据,我可以对这些数据进行什么类型的分析?我已经对客户是否会花费过多(超过中位数)进行了 KMeans。
在这些数据上,您可以执行大量的监督学习。如果您知道,监督学习是指机器使用带有标签的数据进行学习。在监督学习中,有两个子集。那些是regression和classification。分类是当您预测离散的事物时,例如男性或女性,或者幸存或未幸存。在回归的基础上,你可以预测非离散的东西,比如房子的价格,或者一个国家的 GDP。
根据您的数据集,我认为您可以通过分类进行很多 EDA(探索性数据分析)。也许你可以预测哪个性别购买更多。您可以使用数据集做很多事情,但这里是您可以使用的算法。
如果你有一个小数据集,逻辑回归和朴素贝叶斯是最好的算法。对于初学者来说,k-NN(k-最近邻)算法是最好的。如果您开始研究复杂的数据,那么决策树是最好的算法。
现在,在所有这些之后,有一个最复杂的算法(基本上是一堆混合在一起的决策树),那就是随机森林。如果您有一个非常庞大的数据集,其中包含许多标签,则此算法适用。
希望这可以帮助!
也许您可以使用客户 ID、商户 ID 等字段聚合数据,以便您也可以分别分析客户和商户数据。
例如,您可以汇总客户 ID 上的数据,以获得客户花费的金额的总和或平均值。您可以通过绘制箱线图、分布图来进一步分析数据,以找到各种见解。
我强烈建议您汇总此类交易数据。
您可能还想使用交易日期执行时间序列分析,以找到隐藏的趋势季节性。为此,您可能想看看 fbprophet ( https://facebook.github.io/prophet/docs/quick_start.html )。
你知道,当他们说业务团队需要洞察力时,并不总是意味着机器学习。
您还可以做大量的探索性分析和可视化消费趋势、人口支出中的季节性、白天客户最活跃的时间、突出收入增长率最高的城镇、哪个年龄段是您最大的客户群、您的在数量和收入方面最赚钱的商家。这些是业务团队可以用来制定业务战略的一些见解。
您还可以根据客户的消费模式、年龄组、位置等对客户进行聚类,以确定最有利可图的客户群。
最后,这基本上是时间序列数据,因此您可以应用一些传统的机器学习模型(如 SARIMA)或深度学习模型(如 LSTM 或 GRUs)来预测公司收益的时间序列。