“抽样”和“二次抽样”的区别?

机器算法验证 机器学习 数理统计 聚类 采样
2022-03-24 05:17:09

我刚想到这个问题,因为我在文献中看到很多次这两个词被交替使用,SamplingSubsampling

在与机器学习相关的文献中,这两个词之间的主要区别是什么,特别是聚类部分?它们实际上是相同的还是在特定领域存在一些重大偏差?

问候 ...

2个回答

样本总体的一部分样本是样本的一部分

@TinderForMidgets 给出了samplesubsample的确切定义。在聚类实践中,可以实施某种抽样来避免大量计算。通常其中一些算法需要起点,同样,为了减少计算时间,您在样本中抽取一个子样本并将它们指定为起点。因此,这两者在您的聚类算法中执行两种不同的功能。给出完全详尽的定义:

  • 数据集是要分析的数据的整个集合。出于推理的目的,这可以被视为从总体中抽样的。所有数据集项目都将按流程分类。

  • 超级样本是通过简单随机抽样选择的数据集的子集。在我们的示例中,它是整个数据集,但对于较大的数据集,它会小得多。最终分类之前的所有计算都在超样本上执行。对于中等维度(最多 50 个)的问题,超级样本永远不需要大于 100,000–1,000,000 个点,因为这种大小的样本中的估计误差已经太小了,不重要。

  • 样本是从超样本中通过简单随机抽样选择的大小为所有密集搜索操作都在样本中进行,因此超级样本仅用于从样本中找到的最佳解决方案中进行一次迭代。样本大小应选择得足够大以反映数据的基本结构,同时又要足够小以保持计算可行。RsNsNs
  • 的几个 ( ) 之一,通过简单随机抽样从样本中选择,用于开始对样本进行迭代。这个数字应该很小,因为起点的巨大差异会产生解决方案的多样性,并增加找到最佳局部最大值的机会。RrNr

资源