在文本分类的实验中,我发现岭分类器生成的结果在那些更常被提及并应用于文本挖掘任务的分类器中,例如 SVM、NB、kNN 等,其生成的结果一直在测试中名列前茅。不过,我没有详细说明关于优化这个特定文本分类任务的每个分类器,除了一些关于参数的简单调整。
迪克兰有袋动物也提到了这样的结果。
不是统计学背景,网上看了一些资料,还是想不通其中的主要原因。任何人都可以就这种结果提供一些见解吗?
在文本分类的实验中,我发现岭分类器生成的结果在那些更常被提及并应用于文本挖掘任务的分类器中,例如 SVM、NB、kNN 等,其生成的结果一直在测试中名列前茅。不过,我没有详细说明关于优化这个特定文本分类任务的每个分类器,除了一些关于参数的简单调整。
迪克兰有袋动物也提到了这样的结果。
不是统计学背景,网上看了一些资料,还是想不通其中的主要原因。任何人都可以就这种结果提供一些见解吗?
文本分类问题往往是相当高维的(许多特征),并且高维问题可能是线性可分的(因为您可以使用线性分类器将 d 维空间中的任何 d+1 个点分开,而不管这些点如何被标记)。因此线性分类器,无论是岭回归还是带有线性核的 SVM,都可能表现良好。在这两种情况下,SVM 的脊参数或 C(如 tdc 提到的 +1)控制分类器的复杂性,并通过将每个类的模式大间距分离来帮助避免过度拟合(即决策表面向下传递两个点集合之间的间隙的中间)。然而,为了获得良好的性能,需要适当调整岭/正则化参数(我使用留一法交叉验证,因为它很便宜)。
然而,岭回归之所以效果很好,是因为非线性方法太强大,难以避免过拟合。可能有一个非线性分类器可以提供比最佳线性模型更好的泛化性能,但是使用我们拥有的有限训练数据样本来估计这些参数太难了。在实践中,模型越简单,我们在估计参数时遇到的问题就越少,因此过度拟合的趋势就越小,因此我们在实践中得到了更好的结果。
另一个问题是特征选择,岭回归通过正则化权重以保持较小的值来避免过度拟合,并且模型选择很简单,因为您只需选择单个回归参数的值。如果您试图通过选择最佳特征集来避免过度拟合,那么模型选择就会变得困难,因为每个特征都有一定的自由度(某种程度),这使得可能过度拟合特征选择标准并且您最终得到一组特征,这些特征对于这个特定的数据样本是最优的,但泛化性能很差。因此,不执行特征选择并使用正则化通常可以提供更好的预测性能。
我经常将 Bagging(由训练集中的自举样本训练的模型委员会)与岭回归模型一起使用,这通常会提高性能,并且由于所有模型都是线性的,您可以将它们组合成一个线性模型,因此在操作中没有性能损失。
岭回归,顾名思义,是一种回归而不是分类的方法。大概您正在使用阈值将其变成分类器。无论如何,您只是在学习一个由超平面定义的线性分类器。它工作的原因是因为手头的任务本质上是线性可分的——即只需要一个简单的超平面来分离类。“ridge”参数允许它在不完全线性可分或秩不足的问题(在这种情况下优化会退化)的情况下工作。
在这种情况下,假设其他分类器已正确实现,没有理由不应该表现良好。例如,SVM 找到“最佳分离超平面”(即最大化类之间的边距或间隙的超平面)。SVM的C
参数是类似于岭参数的容量控制参数,它允许一些错误分类(异常值)。假设参数选择过程已经认真执行,我希望这两种方法在这样的数据集上产生几乎完全相同的结果。