数据挖掘 - 可以从变量转换中受益的算法？ - 吾爱随笔录

数据挖掘机器学习数据集分配

2022-02-18 08:14:32

1- 哪些算法将从已转换的数据中受益，从而使连续变量的分布类似于正态分布？

2-以这种方式转换变量有什么好处？

2个回答

旁注：转换为标准高斯意味着每个特征的中心比例是相同的。这对于确保您的模型“公平地”学习非常有帮助，而不是对具有更大方差的特征施加不当影响。有关非标准化数据如何损害 K-means 结果的示例，请参见此处。另请参阅其他答案中关于正则化的评论。

对其权重进行直接正则化的模型将从中受益。这些正则化为模型添加了先验并惩罚了高权重。如果您的变量不在同一范围内，则每个输入的正则化都不相同。搜索权重正则化。

另一种形式是在神经网络中，权重以它们期望输入呈正态分布的方式初始化。如果它们远非如此，则对后面几层的影响可能会相当大，极大地影响收敛性和数值稳定性。

另一方面，基于树的方法通常根本不关心。

其它你可能感兴趣的问题