我正在使用 Python 中的决策树方法研究分类算法。我会对这个主题有一些疑问,特别是关于我数据集中的目标(y)。
我有一个由 20000 个观察值和几个字段组成的日期集:
- 顾客
- 记录日期
- 数量
- 身份(如果已婚或未婚)
- 孩子(如果家里有孩子)
- 国籍(如果美国人或不是)
等等。
大多数这些字段是二进制的(是/否)。基于此,我想确定该客户是否值得信赖。如您所见,我没有关于信任的标签,但我有一些初始信息:例如金额。如果金额为 0 或 < 0,则客户没有钱,因此可以认为他/她不信任。然后,我可以考虑身份:如果他/她已婚,那么可以认为是值得信赖的,因为可能还有其他薪水需要考虑。等等。我的疑问在于拆分我的数据集,因为它询问 y 变量。在这种情况下会是什么?我没有明确的目标..
