这可能是一个初学者的问题,但我不确定如何标准化我的数据。
假设我有一个 NxM 矩阵,每个矩阵有 N 个 M 维样本。如果我想标准化我的数据,我可以通过两种方式做到这一点:
Samplewise:我获取每个样本并对其特征进行归一化,例如最终成为单位向量 (L2) 或者它们只是求和 1 (L1)
Featurewise:我采用每个特征并在所有样本中标准化它的值。
我看到的问题是,在这两种情况下,我最终都会丢失一些关系信息。
让我们看一个例子:
Height Arm_length
Subject_1 180 20
Subject_2 190 40
如果我按行标准化:
Height Arm_length
Subject_1 180/200 = 0.9 20/200 = 0.1
Subject_2 190/250 = 0.76 40/250 = 0.16
在这里您可以看到,即使 Subject_1 比 subject_2 短,当归一化 subject_2 时最终会更高(因为我的归一化在样本之间是独立的)
如果我按列标准化:
Height Age
Subject_1 180/370 = 0.49 20/60 = 0.33
Subject_2 190/370 = 0.51 40/60 = 0.67
在这里我可以看到,即使 subject_2 的 arm_length 值比 height 低,它最终的 arm_length 值也比 height 高(0.67 对 0.51)
同样规范化我失去了绝对值,最终只得到关系。
想象一个系统,它不仅取决于绝对高度和 arm_length,还取决于它们之间的关系。
所以基本上我的问题是:我应该标准化吗?如果是,按列还是按行?
此外,将两种方式都归一化并将两者附加到新的 2*M 维特征向量中是否是一个好主意?
编辑:
特征之间的关系非常重要。想象一个系统,其中不同的体型表现不同,在这种情况下,胸部特征和腰部特征之间的关系将非常重要。
通过规范化特征,我将失去这种关系。
谢谢