我可以在这个数据集中做什么样的分析?

数据挖掘 数据挖掘 分类 聚类
2022-03-04 08:49:31

我有一个客户数据集(他们的城市、姓名、年龄、性别、孩子数量)和另一个关于他们购买的产品的数据集。我被要求做:

提取有关客户资料的知识。

我不知道我应该提取什么知识。

我们正在研究聚类和分类,因此它们应该与问题相关联。我想到的是制作客户端集群。但我不知道我应该依赖什么标准。

我应该只使用像 k 手段这样的聚类算法,让它给我聚类吗?

任何建议将不胜感激

更新

这些是我拥有的数据集:

  1. 卡片:CardID、城市、地区、邮政编码、CardStartDate、Gender、DateOfBirth、MaritalStatus、HasChildren、NumChildren、YoungestChild
  2. 项目:ItemCode、ItemDescription、CategoryCode、SubCategoryCode、BrandCode、UpmarketFlag
  3. 交易:商店、日期、时间、TransactionID、CardID、PaymentMethod
  4. 类别:CategoryCode、CategDescription
  5. Transaction_Item:商店、日期、时间、TransactionID、ItemNumber、ItemCode、金额
  6. 子类别:子类别代码、子类别描述

老师说我们应该对客户进行分类,然后指出哪些产品最适合每个客户。

1个回答

您可以通过两种不同的方法:

无监督学习(聚类)

您可以选择制作某人个人资料的属性并尝试对其进行聚类(例如使用k-means)。如果您根据不同的属性查看集群,它可能会让您对数据有所了解。不要忘记排除名称,因为它们对分析没有意义。

监督学习(分类)

您可以使用可能影响输出的相关属性,例如年龄和城市可能会影响性别或儿童人数,因此如果您将这些作为目标,您可以根据他们的年龄和城市对不同的用户进行分类。

关键是您的数据不适合进行更复杂的分析,因为您的特征并不多且过于复杂(即回答某个性别之间的年龄分布或城市之间的关系、年龄和儿童数量等问题)唯一可以回答的问题)

我希望它有所帮助,如果还有更多问题,请在此处发表评论。

更新 1

您可以从不同的角度查看数据,因此首先尝试选择一个。例如,客户可以通过他们的交易(何时购买、购买什么、购买的价格等)或个人信息(性别、年龄、付款方式等)进行聚类。它让您对客户数据有第一印象。然后使用所有这些信息进行聚类,即将个人和交易特征放在一起。它为您提供一般客户的概览,并可能导致一些重要的集群(类别)。

之后,您可以从产品的角度查看问题,这意味着您查看事务特征并尝试查看不同的分布和直方图,以了解产品发生的情况,例如,您可以将时间设置为 x 轴并尝试提取不同的时间序列,比如在这个时间点销售了多少产品?在这个时间点购买了什么样的人(年龄、性别等)?等等。

对于一般分析,降维(例如 PCA)可能会揭示一些信息并为您提供洞察力。请注意,对于任何类型的分析,仅使用相关功能,例如 ID 不是信息,而是类别。

向客户推荐产品(或预测他们购买什么)最重要的一点是正确使用您的输入/输出对,以便客户信息(年龄、城市、他/她通常什么时候买东西?等)是输入和产品(他们的类别,他们的类型,无论你对他们了解多少)都是输出。

祝你好运!

PS1:根据做完全相同项目的工业版的经验,我会说付款方式没有太多信息。

PS2:StackExchange 提供了一个赞成和一个接受按钮以获得好的答案!