特征数量与样本数量:如果小样本量足够,为什么要取大量样本?

数据挖掘 分类 数据集 特征选择
2021-09-18 15:08:33

作为一个新手,我有点困惑。我有一个包含 11 个特征和 102 个样本数据的二进制分类数据集。我在大多数地方(例如,kaggle 比赛)都看到,数据集可能有数十万个数据样本,用于数十个特征。另一方面,本文说(至少对于 LDA 分类器)对于样本大小 n,最佳特征数是 n-1。我的问题是,如果很小的话。样本就足够了(甚至是最佳的),为什么要关心更大的样本?我在这里想念什么?

2个回答

所需样本量的界限在PAC 学习中非常常见。当您定义一个概念类时,您可以计算一个最小大小的样本集,以支持学习。然而,

  • 更多样本将提高准确性
  • 更多样本将有助于学习更复杂的概念,这可能更适合您的数据。
  • 正如@Emre 所写,现实生活中的数据集通常不像 PAC 学习那样干净。概念类没有给你,数据有噪音,给定的分布不能保证。

表明可以用少量数据学习分类器是很好的。这是学习者的一大优势。但是,更多的数据通常会有所帮助,如果它对此类分类器的帮助超出预期,则分类器要求可能不成立。

只是为了放大@Dal 的出色答案,您当然可以拟合样本量较小的模型。这正是古典统计学试图做的事情,而且通常是成功的。但是在数据质量、模型的简单性和实验设计方面是有代价的。例如,为了有效且可靠地估计交互作用项,您希望随机应用处理效果。机器学习通常发生在这些假设都不正确的观察数据中。

也就是说,在一个有 11 个变量和二元结果的问题中,102 个样本太小了。分类通常比回归问题(连续结果)需要更多的数据。这就是为什么您经常听到民意测验专家使用 1000 名受访者根据一两个特征(问题)来预测分类结果。

有一个乐观的经验法则是,每个想要估计的参数都需要 10 个变量。我一直认为这有点薄,但即使按照这个标准,你的样本也太小了。