我发现了一些非常有趣的 ML 算法的实现。https://github.com/EderSantana/DeepEEG我们有数据集 X、空间滤波器 W 的矩阵、时间滤波器 V 的矩阵以及矩阵 U 和 B - classyfier 的参数。
因此,非常简单的逻辑回归分类。但最令人震惊的是作者调整 W、V、U 和 B 矩阵的方式。W由CSP算法初始化。V 由 1 初始化,U 和 B 由 0 初始化。然后针对此参数优化交叉熵成本函数(小批量梯度下降)。和准确性,通过这种方式达到相当高。我的问题是,为什么我们在这里需要非线性(平方和对数)
?
PS 在实验中,如果没有这种非线性,优化算法不会收敛。