我目前正在自学如何进行分类,具体来说,我正在研究三种方法:支持向量机、神经网络和逻辑回归。我想了解的是为什么逻辑回归会比其他两个表现更好。
根据我对逻辑回归的理解,这个想法是将逻辑函数拟合到整个数据。因此,如果我的数据是二进制的,那么我所有带有标签 0 的数据都应该映射到值 0(或接近它),而我所有带有值 1 的数据都应该映射到值 1(或接近它)。现在,由于逻辑函数是连续且平滑的,因此执行此回归需要我的所有数据来拟合曲线;决策边界附近的数据点没有更大的重要性,并且所有数据点对损失的贡献不同。
然而,对于支持向量机和神经网络,只有靠近决策边界的那些数据点才是重要的;只要数据点保持在决策边界的同一侧,它就会产生相同的损失。
因此,为什么逻辑回归会比支持向量机或神经网络更好,因为它“浪费资源”试图将曲线拟合到许多不重要(易于分类)的数据,而不是只关注决策周围的困难数据边界?