特征和高斯分布(分类)

数据挖掘 机器学习 特征选择 可视化
2022-02-22 03:58:17

我有一个关于变量跟随或不是随机分布的问题。我选择了 4 个与标签负相关的特征(欺诈/无欺诈)。我从中获得灵感的笔记本绘制了关于标签的这些特征的分布。结果是我的功能 1(仅限欺诈)遵循正态分布。

这是我的问题:

  1. 为什么知道我的特征是否遵循正态分布很重要?-> 我的猜测:有些模型需要它来加快收敛或获得更好的结果
  2. 是否有兴趣将我的功能可视化为非欺诈与欺诈并比较分布?
  3. 如果我的特征不遵循正态分布但被缩放,我是否仍应将它们强制为类似高斯的形状?

非常感谢你 !

1个回答
  1. 这完全取决于模型的类型。有些模型需要用参数来表示特征:例如带有数值特征的朴素贝叶斯需要有一种方法来根据值计算概率,最常见的情况是假设特征服从正态分布。另一方面,一个特征是否正态分布对于决策树来说根本不重要。
  2. 是的,为了知道这个特征是否是一个好的指标,它可以提供非常丰富的信息:分布越不同,算法就越容易使用这个特征来区分类别。
  3. 不,不要更改特征的分布(除非您有特定的理由这样做,例如基于此特定数据的专家知识)。你这样做的任何方式肯定会改变数据的整体分布和/或特征在实例中的相关方式,因此模型不会从真实分布中学习,因此它对真实数据的预测可能会出错。