我有一个客户数据集(他们的城市、姓名、年龄、性别、孩子数量)和另一个关于他们购买的产品的数据集。我被要求做:
提取有关客户资料的知识。
我不知道我应该提取什么知识。
我们正在研究聚类和分类,因此它们应该与问题相关联。我想到的是制作客户端集群。但我不知道我应该依赖什么标准。
我应该只使用像 k 手段这样的聚类算法,让它给我聚类吗?
任何建议将不胜感激
更新
这些是我拥有的数据集:
- 卡片:CardID、城市、地区、邮政编码、CardStartDate、Gender、DateOfBirth、MaritalStatus、HasChildren、NumChildren、YoungestChild
- 项目:ItemCode、ItemDescription、CategoryCode、SubCategoryCode、BrandCode、UpmarketFlag
- 交易:商店、日期、时间、TransactionID、CardID、PaymentMethod
- 类别:CategoryCode、CategDescription
- Transaction_Item:商店、日期、时间、TransactionID、ItemNumber、ItemCode、金额
- 子类别:子类别代码、子类别描述
老师说我们应该对客户进行分类,然后指出哪些产品最适合每个客户。