处理具有可变数量特征的数据集

机器算法验证 机器学习 缺失数据
2022-01-18 03:42:05

有哪些方法可以对具有可变数量特征的数据进行分类?

例如,考虑一个问题,其中每个数据点都是 x 和 y 点的向量,并且每个实例的点数不同。我们可以将每对 x 和 y 点视为一个特征吗?或者我们应该以某种方式总结这些点,以便每个数据点都有固定数量的特征?

2个回答

根据我对您问题的理解,数据中的点是可以互换的,并且没有任何顺序,即每个示例都有一组点。此设置不同于 jb.xml 的“缺失值”设置。描述。

我知道解决这个问题的两种常用方法,实际上是基于您的想法。一个好的基线可能只是平均一个示例中的所有点,但这通常效果不佳。

  • 为了将多个点聚合为单个特征,词袋(或特征袋)表示非常常用,例如在计算机视觉中。这个想法是对训练集中的所有点进行聚类(例如使用 k-means),然后通过其聚类来描述每个点。然后,对于每个示例,您将获得一个关于哪些集群出现频率的直方图。

  • 要使用所有点对,您可以使用集合内核。这可能最适合使用 SVM,但也可能适用于任何可以内核化或利用输入之间的兼容性函数的学习算法。集合内核基本上是一种计算两组特征相似性的方法,就像您的设置一样。

您可以将这些点视为缺失——即。假设向量最多有 20 个 (x, y) 对,特定点有 5 个 (x, y) 对,在这种情况下,将其余对视为缺失,然后对缺失参数应用标准程序:

这些标准程序可能是:

  • 使用以自然方式处理缺失参数的模型,例如决策树模型应该能够应对这种情况。
  • 用适当列的平均值替换缺失值。
  • 使用一些简单的模型来“预测”缺失值。

但是正如@jonsca 指出的那样——如果缺少给定点有助于对数据进行分类,例如,您应该构建几个模型,每个模型都对具有特定点数的实例进行建模。