一个团队必须创建模型来预测随着时间的推移部署机器的成本。这是一个回归问题。
该团队进一步分为两组,A和B。
A 组非常关注选择属性和寻找将训练集分割成或多或少同质的集群的规则,然后使用线性模型在集群内创建预测。
B 组不首先进行聚类,而是包含 A 组用于聚类成非线性模型的相同属性(假设是随机森林或梯度提升机的集合)。
结果是相似的(或者使用非线性模型稍微好一点)。
结果如何衡量?保持集上的均方误差。
解释似乎是,根据定义,树模型使用属性对人口进行细分,以便在给定属性的情况下,这些细分尽可能同质或纯粹。
所以工作团队 A 正在对实例进行聚类,树模型本身也在做——因为分割嵌入在树模型中。
这个解释有意义吗?
推断 B 组的方法对时间要求不高是否正确?(即模型找到属性来分割数据,而不是手动选择属性)