聚类加线性模型与非线性(树)模型

数据挖掘 聚类 线性回归 决策树 集成建模
2021-09-29 20:36:10

一个团队必须创建模型来预测随着时间的推移部署机器的成本。这是一个回归问题。

该团队进一步分为两组,A和B。

A 组非常关注选择属性和寻找将训练集分割成或多或少同质的集群的规则,然后使用线性模型在集群内创建预测。

B 组不首先进行聚类,而是包含 A 组用于聚类成非线性模型的相同属性(假设是随机森林或梯度提升机的集合)。

结果是相似的(或者使用非线性模型稍微好一点)。

结果如何衡量?保持集上的均方误差。

解释似乎是,根据定义,树模型使用属性对人口进行细分,以便在给定属性的情况下,这些细分尽可能同质或纯粹。

所以工作团队 A 正在对实例进行聚类,树模型本身也在做——因为分割嵌入在树模型中。

这个解释有意义吗?

推断 B 组的方法对时间要求不高是否正确?(即模型找到属性来分割数据,而不是手动选择属性)

2个回答

关于你的问题的结尾:

所以工作团队 A 正在对实例进行聚类,树模型本身也在做——因为分割嵌入在树模型中。这个解释有意义吗?

是的,我相信这是一个合理的总结。我不会说分割是“嵌入”模型中的,而是这些模型如何运行的必要步骤,因为它们试图在变量中找到我们可以在数据跟随树到给定之后创建“纯集群”的点分裂。

推断 B 组的方法对时间要求不高是否正确?(即模型找到属性来分割数据,而不是手动选择属性)

我想依靠树实现来派生你的规则会比手动测试更快,更不容易出错,是的。

集群变量可能与响应无关,并且每个集群中的观察数量少于完整数据集中的数量。