为什么标准化(标准化)值应该小于?11

机器算法验证 标准差 正常化 标准化
2022-03-22 23:29:08

这些书给出了一些关于基于内容的推荐的例子。我理解的一个例子如下。

电影的属性是之间的值。持续时间属性的值介于之间。如果我们使用这些原始值来计算距离,则持续时间将纯粹因为范围更广而占主导地位,因此我们应该对该值进行归一化。1101100

标准化公式通常会导致小于的值。它可能在之间。之间缩放值,那么这种标准化如何正确呢?我希望持续时间值应该代表持续时间值应该代表但正如您所知,标准化公式导致小于为什么会这样?11111011100101

我是否必须再次为范围重新调整结果?例如,如果结果是那么应该代表1100.434

2个回答

重新调整输入特征只是一个线性变换。在问题上下文之外重新缩放没有正确或错误的方法。如果你想将范围 1 - 100 线性映射到范围 1 - 10 你应该这样做: 这将 1 映射到 1 和 100 到 10 并且它将使持续时间与其他功能具有相同的范围。

xx199×9+1

上述方法的一个问题是,如果所有持续时间都聚集在 40 之间,只有极少数离群值接近 100,那么大部分范围都不会被使用。计算每个单独特征的z 分数可能更可取: 因为转换后的特征都将具有均值 0 和标准差 1 应该更具有可比性

xxmean(x)stddev(x)

标准化变量的一种方法是将每个值转换为 z 分数,通过取

xx¯sd

这样做,你只需要做一次;但是,这不会导致 -1 到 1 的范围,结果可以是任何数字。但大多数值将介于 -1 和 1 之间。