我刚想到这个问题,因为我在文献中看到很多次这两个词被交替使用,Sampling和Subsampling。
在与机器学习相关的文献中,这两个词之间的主要区别是什么,特别是聚类部分?它们实际上是相同的还是在特定领域存在一些重大偏差?
问候 ...
我刚想到这个问题,因为我在文献中看到很多次这两个词被交替使用,Sampling和Subsampling。
在与机器学习相关的文献中,这两个词之间的主要区别是什么,特别是聚类部分?它们实际上是相同的还是在特定领域存在一些重大偏差?
问候 ...
样本是总体的一部分。子样本是样本的一部分。
@TinderForMidgets 给出了sample和subsample的确切定义。在聚类实践中,可以实施某种抽样来避免大量计算。通常其中一些算法需要起点,同样,为了减少计算时间,您在样本中抽取一个子样本并将它们指定为起点。因此,这两者在您的聚类算法中执行两种不同的功能。给出完全详尽的定义:
数据集是要分析的数据的整个集合。出于推理的目的,这可以被视为从总体中抽样的。所有数据集项目都将按流程分类。
超级样本是通过简单随机抽样选择的数据集的子集。在我们的示例中,它是整个数据集,但对于较大的数据集,它会小得多。最终分类之前的所有计算都在超样本上执行。对于中等维度(最多 50 个)的问题,超级样本永远不需要大于 100,000–1,000,000 个点,因为这种大小的样本中的估计误差已经太小了,不重要。