最近,有很多关于标准化的问题
在哪些情况下您永远不应该对数据进行规范化,还有哪些替代方案?
最近,有很多关于标准化的问题
在哪些情况下您永远不应该对数据进行规范化,还有哪些替代方案?
当然,如果数据不遵循(单一)正态分布,则永远不应盲目地对数据进行标准化。
例如,人们可能希望重新缩放为正常,但这只有在数据正常并且和对于所有数据点都相同的情况下才有效(例如不依赖于特定)。
是否可以对非正态数据集进行归一化取决于应用程序。例如,许多统计测试都需要数据标准化(即计算 z 分数、t 分数等)。有些测试在标准化非正态数据时更容易失败,而有些则更具抵抗力(“稳健”测试)。
一个不太可靠的统计数据是平均值,它对异常值(即非正态数据)很敏感。或者,中位数对异常值不太敏感(因此更稳健)。
当许多统计数据失败时,非正态数据的一个很好的例子是双模态分布数据。正因为如此,将数据可视化为频率分布(或者更好的是,测试正态性!)始终是一种很好的做法。
我认为这太明显了,直到我看到这个问题!
规范化数据时,请确保在规范化后始终可以访问原始数据。当然,如果你有充分的理由,你可以打破这条规则,例如存储。