我正在阅读这个OTTO Kaggle 挑战的解决方案,第一个解决方案似乎对输入数据 X 使用了几种转换,例如 Log(X+1)、sqrt(X + 3/8) 等。有没有关于何时将哪种转换应用于各种分类器的一般准则?
我确实理解 mean-var 和 min-max 归一化的概念。不过,对于上面的变换,我的猜测是Log和Sqrt是用来压缩数据的动态范围的。而 x 轴偏移只是为了重新定位数据。然而,作者在输入不同的分类器时选择对相同的输入 X 使用不同的归一化方法。有任何想法吗?
我正在阅读这个OTTO Kaggle 挑战的解决方案,第一个解决方案似乎对输入数据 X 使用了几种转换,例如 Log(X+1)、sqrt(X + 3/8) 等。有没有关于何时将哪种转换应用于各种分类器的一般准则?
我确实理解 mean-var 和 min-max 归一化的概念。不过,对于上面的变换,我的猜测是Log和Sqrt是用来压缩数据的动态范围的。而 x 轴偏移只是为了重新定位数据。然而,作者在输入不同的分类器时选择对相同的输入 X 使用不同的归一化方法。有任何想法吗?
我们喜欢正常的形式
在大多数情况下,我们试图让它们表现得像平常一样。它不是分类器的观点,而是它的特征提取观点!
哪个转型?
选择转换的主要标准是:什么适用于数据?如上例所示,重要的是还要考虑两个问题。
什么使物理(生物、经济等)有意义,例如在值变得非常小或非常大时限制行为?这个问题经常导致使用对数。
我们可以保持尺寸和单位简单方便吗?如果可能,我们更喜欢易于考虑的测量尺度。
体积的立方根和面积的平方根都具有长度的量纲,因此这些变换不会使事情复杂化,而是可以简化它们。如前所述,倒数通常有简单的单位。然而,通常情况下,有些复杂的单位是必须做出的牺牲。
什么时候使用什么?
介绍性数据分析中最有用的转换是倒数、对数、立方根、平方根和平方。在下文中,即使没有强调,也假定变换仅在它们产生(有限)实数作为结果的范围内使用。
(在实践中,我们可能希望将取倒数的结果乘以或除以某个常数,例如 1000 或 10000,以获得易于管理的数字,但其本身对偏度或线性没有影响。)
倒数反转相同符号值之间的顺序:最大变为最小,等等。负倒数保留相同符号值之间的顺序。
对数:对数 x log 10 x 或 x log ex 或 ln x 或 x log 2 x 是对分布形状有重大影响的强变换。它通常用于减少右偏度,并且通常适用于测量变量。它不能应用于零值或负值。对数刻度上的一个单位表示乘以所使用的对数的底数。指数增长或下降。
是线性的 - 以便记录响应变量 y。(这里的 exp() 表示提高到 e 次方,大约 2.71828,这是自然对数的底)。关于这个指数增长或下降方程的旁白: , 和 因此 a 是 x = 0 时的数量或计数。如果 a 和 b > 0,则 y 以越来越快的速度增长(例如复利或未经检查的人口增长),而如果 a > 0 和 b < 0,则 y以越来越慢的速度下降(例如放射性衰变)。
由线性制成
这样变量 y 和 x 都应该被记录。关于此类幂
函数的旁白:把,并且对于 ,
因此正 b 的幂函数通过原点,这通常具有物理或生物或经济意义。想一想:x 的零是否意味着 y 的零?这种
幂函数是一种非常适合许多数据集的形状
。
例子是:
那么 y 介于 0 和无穷大之间,或者在最后一种情况下,介于 1 和无穷大之间。如果 p = q,则 y = 1。这样的定义往往会导致数据倾斜,因为有明确的下限,没有明确的上限。然而,对数,即
log y = log p / q = log p - log q,介于 -infinity 和 infinity 之间,p = q 表示 log y = 0。因此,这种比率的对数可能更对称地分布。
立方根:立方根,x 1/3。这是一个相当强的变换,对分布形状有很大影响:它比对数弱。它还用于减少右偏度,并具有可以应用于零值和负值的优点。请注意,体积的立方根具有长度单位。它通常应用于降雨数据。
适用于负值需要特别注意。考虑
(2)(2)(2) = 8 和 (-2)(-2)(-2) = -8。这些例子表明负数的
立方根具有负号,并且与
等效正数的立方根具有相同的绝对值。任何其他根具有类似的属性,其幂是
奇正整数的倒数(幂 1/3、1/5、1/7 等)
这个属性有点微妙。例如,将功率从 1/3 改变一点点,我们就不能再将结果定义为恰好三个项的乘积。但是,如果有用,该属性就可以被利用。
这些特定的可能是纯粹的启发式的。对于图像,尽管它是非常标准的:将 RGB 更改为 BGR 并从每个像素中减去平均值。这用于所有竞赛/数据集,如 Imagenet、Pascal VOC、MS COCO。原因是网络呈现的是标准化数据集,因为所有图像都可能非常不同。