小批量梯度下降前的非线性数据预处理

数据挖掘 机器学习 分类 梯度下降
2022-02-12 10:54:14

我发现了一些非常有趣的 ML 算法的实现。https://github.com/EderSantana/DeepEEG我们有数据集 X、空间滤波器 W 的矩阵、时间滤波器 V 的矩阵以及矩阵 U 和 B - classyfier 的参数。 Xfilti=ln(W(Xiv)2))

Z=(Xfilt)TU+B

Y_pred=argmax(softmax(Z))

因此,非常简单的逻辑回归分类。但最令人震惊的是作者调整 W、V、U 和 B 矩阵的方式。W由CSP算法初始化。V 由 1 初始化,U 和 B 由 0 初始化。然后针对此参数优化交叉熵成本函数(小批量梯度下降)。和准确性,通过这种方式达到相当高。我的问题是,为什么我们在这里需要非线性(平方和对数)

Xfilti=ln(W(Xiv)2)) ?

PS 在实验中,如果没有这种非线性,优化算法不会收敛。

0个回答
没有发现任何回复~