数据挖掘 - 决策树：如何在没有标签的模型中确定目标？ - 吾爱随笔录

决策树：如何在没有标签的模型中确定目标？

数据挖掘机器学习 Python 决策树算法

2021-10-09 05:36:03

我正在使用 Python 中的决策树方法研究分类算法。我会对这个主题有一些疑问，特别是关于我数据集中的目标（y）。

我有一个由 20000 个观察值和几个字段组成的日期集：

顾客
记录日期
数量
身份（如果已婚或未婚）
孩子（如果家里有孩子）
国籍（如果美国人或不是）

等等。

大多数这些字段是二进制的（是/否）。基于此，我想确定该客户是否值得信赖。如您所见，我没有关于信任的标签，但我有一些初始信息：例如金额。如果金额为 0 或 < 0，则客户没有钱，因此可以认为他/她不信任。然后，我可以考虑身份：如果他/她已婚，那么可以认为是值得信赖的，因为可能还有其他薪水需要考虑。等等。我的疑问在于拆分我的数据集，因为它询问 y 变量。在这种情况下会是什么？我没有明确的目标..

2个回答

在无监督学习下使用聚类。这将根据类似的参数对客户进行分类。您可以定义需要形成的集群的数量，在您的情况下它是两个（可信赖的和不可信的）。如果有更多的特征，它将对算法更有帮助。

这可能会有所帮助。

https://towardsdatascience.com/an-introduction-to-clustering-algorithms-in-python-123438574097

当您没有任何目标，并且想将他们标记为值得信赖或不值得信赖时，因此您在这里使用您的心理，即当客户不赚钱或未结婚时，那么他/她就是一个坏客户。但是用这种心理手动标记数据集可能正确也可能不正确。因为您没有任何目标变量来验证您的标签。

因此，正如@Kappil C 所建议的那样，首先您需要使用一些聚类算法对数据进行分类，以了解您的人口是如何划分的。它可以是可信赖的与不可信赖的（2 类）。或者它可以是超级值得信赖的、值得信赖的、不值得信赖的（3 个或更多类）。

一旦标记了这些类，您就可以继续使用任何监督学习算法。

与这种方法相反，您可以继续使用简单的基于规则的技术，也可以使用基本统计数据，您将单独了解每个变量，并独立创建多个规则。但是同样，您需要有目标才能明智地找到混淆矩阵

例子：

50岁以上的人 -> 超级值得信赖的人

年龄 < 18 -> 不值得信赖的人

这些规则将有助于简化您的业务。

其它你可能感兴趣的问题

上一篇拆分数据前后规范化步骤的正确顺序是什么下一篇从头开始构建情感模型