关于分类和回归中预测的样本量

机器算法验证 分类 样本量 预言
2022-04-01 16:25:26

关于假设检验,估计样本大小是通过幂来完成的,很直观的是,增加相同的大小会增加估计效果的精度。但是分类和回归的预测呢?除了估计回归的泛化误差或 RMSE 之外,预测问题的哪些方面受样本大小的影响。

总之,在假设检验设置中有助于功率的属性与那些通过惩罚回归/数据挖掘/算法建模实现成功预测的属性不同。样本量如何影响这些技术的成功?

描述这个想法的一篇论文就是这篇

任何人都可以为他们的评论提供参考吗?谢谢。

2个回答

基本上,我认为您会直观地问样本量如何影响机器学习技术。因此,影响所需样本量的真正因素是数据所在空间的维度及其稀疏性。我给你举两个例子,因为我发现很难把所有的东西都概括在一起……

  • 假设您有一些密集的数据,并且您尝试使用一些回归来拟合模型。次多项式,那么您需要更多的数据,以便您的算法可以找到正确的曲线否则,它会做出一个过于简单化的模型,与现实不同。当然在现实中会有噪音,所以你需要更多的数据来制作更好的模型。nn

  • 假设您有一些稀疏数据,即大多数维度为零。这样的示例是文本,例如推文或 SMS(暂时忘记书籍),其中每个单词的频率是一个维度,当然文档中没有字典中的大部分单词(稀疏空间)。您尝试根据主题对推文进行分类。算法,如 kNN、SVM 等,处理样本之间的相似性,例如 1-NN 会在训练集中找到最接近您尝试分类的推文,并分配相应的标签。但是,由于稀疏性……猜猜看……大多数相似性为零!仅仅是因为文档没有共享足够的单词。为了能够做出预测,您需要足够的数据,以便您的训练集中的某些内容类似于您尝试分类的未知文档。

我不完全理解这个问题。通常,更大的样本将产生(例如)更好的分类。除非更大意味着观察质量差。一个小样本会使很多模型无用。例如,由于基于树的模型是一种“分而治之”的方法,它们的效率很大程度上取决于训练样本的大小。

另一方面,如果您对高维度的统计学习感兴趣,我认为您的关注更多与维度灾难有关。如果您的样本量“小”并且您的特征空间具有“高”维度,那么您的数据将表现得好像它是稀疏的,并且大多数算法将很难理解它。在遥感数字图像分析中引用 John A. Richards:

特征减少和可分离性

分类成本随着用于描述多光谱空间中像素向量的特征数量的增加而增加——即随着与像素相关的光谱带的数量增加。对于平行六面体和最小距离程序等分类器,这是随特征线性增加的;然而,对于最大似然分类,通常首选的过程,特征的成本增加是二次方的。因此,确保在执行分类时不使用比必要更多的特征在经济上是明智的。第 8.2.6 节提请注意确保可以获得可靠的类签名估计所需的训练像素数。特别是,所需的训练像素数量随着数据中波段或通道的数量而增加。对于高维数据,例如来自成像光谱仪的要求,该要求在实践中提出了相当大的挑战,因此,如果要从负担得起的训练像素数量中获得可靠的结果,则将分类中使用的特征数量保持在尽可能少是很重要的。应该丢弃那些对光谱类别的可分离性贡献很小而无助于区分的特征。去除最不有效的特征被称为特征选择,这是特征减少的一种形式。另一种是将像素向量转换为一组新的坐标,其中可以去除的特征更加明显。本章将详细讨论这两个过程。因此,如果要从负担得起的训练像素数量中获得可靠的结果,那么将分类中使用的特征数量保持在尽可能少的范围内是很重要的。应该丢弃那些对光谱类别的可分离性贡献很小而无助于区分的特征。去除最不有效的特征被称为特征选择,这是特征减少的一种形式。另一种是将像素向量转换为一组新的坐标,其中可以去除的特征更加明显。本章将详细讨论这两个过程。因此,如果要从负担得起的训练像素数量中获得可靠的结果,那么将分类中使用的特征数量保持在尽可能少的范围内是很重要的。应该丢弃那些对光谱类别的可分离性贡献很小而无助于区分的特征。去除最不有效的特征被称为特征选择,这是特征减少的一种形式。另一种是将像素向量转换为一组新的坐标,其中可以去除的特征更加明显。本章将详细讨论这两个过程。去除最不有效的特征被称为特征选择,这是特征减少的一种形式。另一种是将像素向量转换为一组新的坐标,其中可以去除的特征更加明显。本章将详细讨论这两个过程。去除最不有效的特征被称为特征选择,这是特征减少的一种形式。另一种是将像素向量转换为一组新的坐标,其中可以去除的特征更加明显。本章将详细讨论这两个过程。

这意味着问题有两个方面,即找到相关特征和您提到的样本大小。到目前为止,如果你在谷歌上搜索,你可以免费下载这本书。

另一种阅读我特别感兴趣的问题的方法是:在监督学习中,你只能通过交叉验证来真正验证你的模型在测试数据上,而不是什么。如果您从中获取训练/测试样本的标记样本不能很好地代表您的宇宙,则验证结果可能不适用于您的宇宙。您如何衡量标记样本的代表性?