决策树:如何在没有标签的模型中确定目标?

数据挖掘 机器学习 Python 决策树 算法
2021-10-09 05:36:03

我正在使用 Python 中的决策树方法研究分类算法。我会对这个主题有一些疑问,特别是关于我数据集中的目标(y)。

我有一个由 20000 个观察值和几个字段组成的日期集:

  • 顾客
  • 记录日期
  • 数量
  • 身份(如果已婚或未婚)
  • 孩子(如果家里有孩子)
  • 国籍(如果美国人或不是)

等等。

大多数这些字段是二进制的(是/否)。基于此,我想确定该客户是否值得信赖。如您所见,我没有关于信任的标签,但我有一些初始信息:例如金额。如果金额为 0 或 < 0,则客户没有钱,因此可以认为他/她不信任。然后,我可以考虑身份:如果他/她已婚,那么可以认为是值得信赖的,因为可能还有其他薪水需要考虑。等等。我的疑问在于拆分我的数据集,因为它询问 y 变量。在这种情况下会是什么?我没有明确的目标..

2个回答

在无监督学习下使用聚类。这将根据类似的参数对客户进行分类。您可以定义需要形成的集群的数量,在您的情况下它是两个(可信赖的和不可信的)。如果有更多的特征,它将对算法更有帮助。

这可能会有所帮助。

https://towardsdatascience.com/an-introduction-to-clustering-algorithms-in-python-123438574097

当您没有任何目标,并且想将他们标记为值得信赖或不值得信赖时,因此您在这里使用您的心理,即当客户不赚钱或未结婚时,那么他/她就是一个坏客户。但是用这种心理手动标记数据集可能正确也可能不正确。因为您没有任何目标变量来验证您的标签。

因此,正如@Kappil C 所建议的那样,首先您需要使用一些聚类算法对数据进行分类,以了解您的人口是如何划分的。它可以是可信赖的与不可信赖的(2 类)。或者它可以是超级值得信赖的、值得信赖的、不值得信赖的(3 个或更多类)。

一旦标记了这些类,您就可以继续使用任何监督学习算法。

在此处输入图像描述

与这种方法相反,您可以继续使用简单的基于规则的技术,也可以使用基本统计数据,您将单独了解每个变量,并独立创建多个规则。但是同样,您需要有目标才能明智地找到混淆矩阵

例子:

50岁以上的人 -> 超级值得信赖的人

年龄 < 18 -> 不值得信赖的人

这些规则将有助于简化您的业务。