我试图获得关于为什么增加功能数量会降低性能的直觉。我目前正在使用一个 LDA 分类器,它在某些特征中的双变量表现更好,但在查看更多特征时更差。我的分类准确度是使用分层的 10 倍 xval 执行的。
有没有一个简单的例子,当分类器单变量比双变量更好地获得对这些更高维度中正在发生的事情的某种物理或空间直觉?
我试图获得关于为什么增加功能数量会降低性能的直觉。我目前正在使用一个 LDA 分类器,它在某些特征中的双变量表现更好,但在查看更多特征时更差。我的分类准确度是使用分层的 10 倍 xval 执行的。
有没有一个简单的例子,当分类器单变量比双变量更好地获得对这些更高维度中正在发生的事情的某种物理或空间直觉?
请参阅“维数问题:一个简单的示例”——GV Trunk 的一篇非常简短且非常古老的文章。他考虑了一个两类问题,即高斯类条件分布,其中特征都相关但相关性降低。他表明,在有限样本上训练的分类器的错误率收敛到 0.5,而随着特征数量的增加,贝叶斯错误接近 0。
这被称为“维度诅咒”。我不知道 LDA 是否有任何具体原因,但通常在特征向量结果上有很多维度,需要更复杂的决策边界。拥有复杂的边界也会带来一个问题“在什么程度上?” 因为我们也考虑过拟合。另外一点,随着维度的增加,学习算法的复杂性也在增加。因此,使用具有巨大特征向量的相对较慢的学习算法会使您的工作事件变得更糟。除了维度之外,您可能有越来越多的可能性 ti 具有相关特征,这些特征对于神经网络或其他一些学习算法等许多学习算法都不利。
您可能会计算“维度诅咒”下的其他原因,但事实是有足够数量的具有简洁特征向量的实例,这些实例由一些特征选择例程处理。