数据挖掘 - 小批量梯度下降前的非线性数据预处理 - 吾爱随笔录

我发现了一些非常有趣的 ML 算法的实现。https://github.com/EderSantana/DeepEEG我们有数据集 X、空间滤波器 W 的矩阵、时间滤波器 V 的矩阵以及矩阵 U 和 B - classyfier 的参数。 $Xfilt_i=ln(W*(X_i*v)^2))$

$Z=(Xfilt)^T * U+B$

$Y\_pred = argmax(softmax(Z))$

因此，非常简单的逻辑回归分类。但最令人震惊的是作者调整 W、V、U 和 B 矩阵的方式。W由CSP算法初始化。V 由 1 初始化，U 和 B 由 0 初始化。然后针对此参数优化交叉熵成本函数（小批量梯度下降）。和准确性，通过这种方式达到相当高。我的问题是，为什么我们在这里需要非线性（平方和对数）

$Xfilt_i=ln(W*(X_i*v)^2))$ ?

PS 在实验中，如果没有这种非线性，优化算法不会收敛。