我的数据由几个连续测量和一些代表测量年份的虚拟变量组成。现在,我想用数据学习神经网络。因此,我正在对所有变量进行 zScore 标准化,包括虚拟变量。但是,我想知道这是否是一种合理的方法,因为对虚拟变量进行归一化会改变它们的范围,如果它们的分布不同,我猜这会使它们的可比性降低。另一方面,不对虚拟变量进行归一化也可能是有问题的,因为如果没有归一化,它们对网络输出的影响可能是次优的。
处理虚拟变量的最佳方法是什么,将它们归一化(zScore)还是让它们保持原样?
我的数据由几个连续测量和一些代表测量年份的虚拟变量组成。现在,我想用数据学习神经网络。因此,我正在对所有变量进行 zScore 标准化,包括虚拟变量。但是,我想知道这是否是一种合理的方法,因为对虚拟变量进行归一化会改变它们的范围,如果它们的分布不同,我猜这会使它们的可比性降低。另一方面,不对虚拟变量进行归一化也可能是有问题的,因为如果没有归一化,它们对网络输出的影响可能是次优的。
处理虚拟变量的最佳方法是什么,将它们归一化(zScore)还是让它们保持原样?
如果您正在进行某种形式的相似性测量,则需要进行标准化。
虚拟变量本质上充当二进制开关。如果您尝试做的是某种形式或回归或分类,将其编码为 (0,1) 或 (-.5,.5) 应该不会影响它与因变量的关系。
如果您正在执行集群,这将很重要,因为它会依赖于规模。
规范化虚拟变量没有意义。通常,当在不同尺度上测量变量以致无法进行适当比较时,会使用归一化。然而,对于虚拟变量,模型中只放置了一个二元信息,如果将其归一化,例如一年的影响信息就会丢失。