在回归中处理不同的群体

数据挖掘 回归 线性回归 缺失数据
2022-02-17 03:40:58

如果某个数据集包含遵循不同线性模型的不同“组”,会发生什么?

例如,假设检查某个特征的散点图xi反对y我们可以看到一些点与一个系数呈线性关系βA<0而其他点显然有βB>0. 我们可以推断这些点属于两个不同的种群,种群A对特征的高值做出负面反应xi而人口B积极回应。然后我们创建一个分类特征(或一个热编码)来显示每行属于哪个群体。

拆分数据集是必需的还是常用的算法能够识别来自不同分类变量的特征之间的不同关系?

3个回答

你不能真正做到这一点,可能有一些因素将某些“组”数据绑定在一起,但这有很多原因。您的关系可能是非线性的,或者数据“组”可能代表存在更强相关性的主题/对象。除非您知道这些点属于不同的人群,否则您不应该这样做,否则请使用您必须对这些分组进行建模的数据。

对于不可观察组的情况,您可以使用混合模型,在您的情况下是线性回归模型的混合。混合模型识别数据中的潜在(=未观察到的)集群,以便每个集群在模型的后续部分中具有相同的参数。教科书示例是混合高斯,其中每个单独的观察来自正态分布,但每个组的平均值不同。在您的情况下,混合模型将推断出共享回归系数的个体集群,并一步估计每个集群的系数。

有关基本介绍,请参见 Grün, B. 和 Leisch, F. (2008)。广义线性回归模型的有限混合。线性模型和相关领域的最新进展(第 205-230 页)。Physica-Verlag HD (链接)

有限混合模型需要指定潜在组的数量(例如领域知识或交叉验证)。无限混合模型从数据中找到大量组。

这些模型通常不会为您提供关于个体为何属于集群的明确规则,因此不能用于未知个体,但可能会通过先验扩展,该先验基于观察到的数据显式建模集群概率。

选项包括分段回归决策树回归。这两种算法都能够根据特征值学习预测不同的目标值。