这些书给出了一些关于基于内容的推荐的例子。我理解的一个例子如下。
电影的属性是到之间的值。持续时间属性的值介于和之间。如果我们使用这些原始值来计算距离,则持续时间将纯粹因为范围更广而占主导地位,因此我们应该对该值进行归一化。
标准化公式通常会导致小于的值。它可能在和之间。和之间缩放值,那么这种标准化如何正确呢?我希望持续时间值应该代表和持续时间值应该代表。但正如您所知,标准化公式导致小于。为什么会这样?
我是否必须再次为范围重新调整结果?例如,如果结果是那么应该代表?
这些书给出了一些关于基于内容的推荐的例子。我理解的一个例子如下。
电影的属性是到之间的值。持续时间属性的值介于和之间。如果我们使用这些原始值来计算距离,则持续时间将纯粹因为范围更广而占主导地位,因此我们应该对该值进行归一化。
标准化公式通常会导致小于的值。它可能在和之间。和之间缩放值,那么这种标准化如何正确呢?我希望持续时间值应该代表和持续时间值应该代表。但正如您所知,标准化公式导致小于。为什么会这样?
我是否必须再次为范围重新调整结果?例如,如果结果是那么应该代表?
重新调整输入特征只是一个线性变换。在问题上下文之外重新缩放没有正确或错误的方法。如果你想将范围 1 - 100 线性映射到范围 1 - 10 你应该这样做: 这将 1 映射到 1 和 100 到 10 并且它将使持续时间与其他功能具有相同的范围。
上述方法的一个问题是,如果所有持续时间都聚集在 40 之间,只有极少数离群值接近 100,那么大部分范围都不会被使用。计算每个单独特征的z 分数可能更可取: 因为转换后的特征都将具有均值 0 和标准差 1 应该更具有可比性。
标准化变量的一种方法是将每个值转换为 z 分数,通过取
这样做,你只需要做一次;但是,这不会导致 -1 到 1 的范围,结果可以是任何数字。但大多数值将介于 -1 和 1 之间。