我应该使用坐标作为特征吗?

数据挖掘 机器学习 回归
2021-10-02 03:27:59

我正在建立一个回归模型。我的数据集中的每个样本/对象都有一些数字和分类特征。让我们称之为F1,F2,F3目前。我试图学习的输出是2D数值网格。有点像一个3×3带有值的图像。输出变量是相关的。

对于我第一次尝试解决这个问题,我想使用 F1,F2,F3 作为输入特征,然后将我的图像展平为 9 个输出特征 1,...,9. 有多种技术可以独立/联合优化这些变量,所以这很好。

我想到的另一个选择是使用输出网格坐标作为输入特征。所以我会5 输入功能: F1,F2,F3 (和以前一样)和 F4,F5 是我的 X,是的目标变量的坐标。在这种情况下,我会有更多样本,我的输出将只包含1 输出目标变量。

我的问题是我不确定任何选项是否从根本上是错误的或只是不好的做法。如果我继续采用任何一种方法,在培训和测试中我应该注意什么吗?

2个回答

我可以在这里确定几个单独的问题:一个是包含坐标特征是否合适,另一个是将多元回归(多个结果变量 - 在您的示例中为 9)转换为回归是否合适与单个因变量。

坐标特征

如果您认为网格中特定单元格中的因变量值在某种程度上受到网格中单元格位置的影响(换句话说,同一单元格中的值是相关的),那么您可能应该包括坐标特征(它可以是简单的单元格标识符或更复杂的东西,例如更具体地标识单元格在网格内相对于特定点的位置)。甚至可以使用基于目标的编码(即,使用同一单元格中因变量值的平均值作为新特征),但这会导致数据泄漏和过度拟合等问题(可以单独解决)。您可能还想创建交互项,允许非坐标特征的影响随坐标特征的级别而变化。

这不同于对跨不同单元格的值之间的相关性进行建模。如果您期望此二维网格中的单元格之间存在一些空间自相关,例如,单元格 (1,1) 中的值与其附近单元格中的值相关:(1,2), (2,1), (2,2),您可能应该通过包括一些空间特征(不仅仅是坐标标识符)来模拟这种关系,比如空间聚类协变量,或者使用空间滞后的因变量模型。

如果您不确定是否存在空间相关性,您可以估计一个没有任何空间特征的模型,然后使用Moran's I测试空间自相关(回归残差之间的空间依赖性) (正 Moran's I 暗示数据是聚集的,负Moran's I 暗示数据是分散的。)

多个与单个因变量

如果您按照您的描述使用选项 2,使用一个输出变量,您将建模一个完全不同的变量,而不是您建模 9 个(在您的示例中)单独的变量。最初的 9 个变量中的每一个都可能有自己的统计属性,但是如果将它们组合成一个,您将拥有一个具有自己属性的新变量(9 个的某种组合)。因此,如果您认为网格是 9 个单独的变量,您应该坚持对 9 个单独的变量进行建模。

如果您正在执行回归,您可能会有一个非常多模态分布。即,如果有多个位置被聚集并且您将其作为数字变量包含在内,则将存在高度非线性关系。

也许尝试将最近的邮政编码作为分类变量。这将更有效地拾取集群。

如果您要确定聚类,坐标会很有用。集群本质上是分类变量,例如通过非结构化数据算法获得的邮政编码。唯一的区别是邮政编码是通过手动分类确定的,而集群可能会考虑其他特征并通过 k-means 或其他算法获得。

通过某些特征确定集群后,您可以将它们作为分类变量包含在回归中。