作为特征的分布形状

数据挖掘 机器学习 数据挖掘 统计数据 算法
2022-02-27 08:33:12

如何将分布的形状用作机器学习中的特征?我是否使用标准偏差之类的东西?

2个回答

如果此分布是特定于行的(每个样本具有不同的关联分布)或特定于类别,那么在特征中编码更多信息并不是一个坏方法。目前尚不清楚您是如何获得这些分布的,是否有经验样本或者您是否有参数化分布?您可以采取的几种编码方法可能是:

  • 拟合分布族(或者如果您已经有一个)并使用位置/形状/比例参数作为特征
  • 添加一些矩和其他分布统计信息
  • 或者类似地取几个百分位

根据分布的参数化,第一个可能不太直接,但应该很容易测试。

当您的记录(即表格的每一行)包含许多构成总体的同质值时,您可以将分布形状用作增强特征(额外的列)。否则,整个训练数据集的形状无助于区分数据点。

您可以使用均值和标准差以及定义统计分布的其他参数(取决于您尝试拟合数据的分布)。