可以从变量转换中受益的算法?

数据挖掘 机器学习 数据集 分配
2022-02-18 08:14:32

1- 哪些算法将从已转换的数据中受益,从而使连续变量的分布类似于正态分布?

2-以这种方式转换变量有什么好处?

2个回答
  1. 并非所有特征都需要,但大多数算法都会受益于使高度偏斜或重尾特征更像高斯。
  2. 转换为高斯使数据对称并去除重尾和长尾。这做了类似的标准化工作[0,1],而不是积极地将数据粉碎到有界区间。

旁注:转换为标准高斯意味着每个特征的中心比例是相同的。这对于确保您的模型“公平地”学习非常有帮助,而不是对具有更大方差的特征施加不当影响。有关非标准化数据如何损害 K-means 结果的示例,请参见此处。另请参阅其他答案中关于正则化的评论。

对其权重进行直接正则化的模型将从中受益。这些正则化为模型添加了先验并惩罚了高权重。如果您的变量不在同一范围内,则每个输入的正则化都不相同。搜索权重正则化。

另一种形式是在神经网络中,权重以它们期望输入呈正态分布的方式初始化。如果它们远非如此,则对后面几层的影响可能会相当大,极大地影响收敛性和数值稳定性。

另一方面,基于树的方法通常根本不关心。