想象一下,您有许多要运行分类算法的观察结果。每个观察都由一个非负值矩阵表征。对于所有观察值,90-98% 的值为 0。
为了确保机器学习算法表现最佳,通常建议进行特征标准化(参见例如http://ufldl.stanford.edu/wiki/index.php/Data_Preprocessing)。然而,通过正常的特征标准化,稀疏单元的值大约为 -0.25。我对让所有 0 的单元格保持为 0 的好处(无论是在学习方面还是在计算方面)都很感兴趣,因此矩阵仍然是稀疏的。实现此目的的一种缩放方法是 0-1 缩放。但是,如果数据中有一些极端异常值,那就有问题了。
数据使用卷积神经网络建模,我正在使用随机梯度下降算法对其进行训练。从经验和理论的角度来看,哪种特征缩放最有意义?