如何将分布的形状用作机器学习中的特征?我是否使用标准偏差之类的东西?
作为特征的分布形状
数据挖掘
机器学习
数据挖掘
统计数据
算法
2022-02-27 08:33:12
2个回答
如果此分布是特定于行的(每个样本具有不同的关联分布)或特定于类别,那么在特征中编码更多信息并不是一个坏方法。目前尚不清楚您是如何获得这些分布的,是否有经验样本或者您是否有参数化分布?您可以采取的几种编码方法可能是:
- 拟合分布族(或者如果您已经有一个)并使用位置/形状/比例参数作为特征
- 添加一些矩和其他分布统计信息
- 或者类似地取几个百分位
根据分布的参数化,第一个可能不太直接,但应该很容易测试。
当您的记录(即表格的每一行)包含许多构成总体的同质值时,您可以将分布形状用作增强特征(额外的列)。否则,整个训练数据集的形状无助于区分数据点。
您可以使用均值和标准差以及定义统计分布的其他参数(取决于您尝试拟合数据的分布)。