数据挖掘 - 什么是“好”样本量 - 吾爱随笔录

数据挖掘数据挖掘采样

2022-03-12 15:07:28

假设我有 2 TB 的数据，那么选择的最佳样本量是多少？我知道我拥有多少 RAM/处理能力是有限的，因此我应该围绕它做出抽样决定。但是，假设处理能力现在不是我关心的问题。什么是处理我的样本量的好方法？

1个回答

如果没有更多信息，这是一个很难回答的问题。我将假设这是用于模型构建，但如果没有更多细节，很难推荐一些东西。

但是，有些事情通常应该知道：

人口规模

人口有多大？您的 2TB 数据是否包含总人口，或者这是给定时间范围的样本？您正在查看什么数据框架 - 这 2 天的数据是否仅代表给定的人口子集，还是这一切？你需要知道这一点才能知道你可以从这个数据集中得出什么结论。

方差

样本的方差是多少？如果是分类数据，有多少个唯一值？围绕这一点制定指标将有助于确定您需要的样本数量。如果这是一个低方差集，您可能只需要几百/千次观察。

分层/分组

您的数据是否以有意义的方式分组？如果是这样，您需要将其纳入您的样本中。根据您所做的工作，您将需要对人口进行有意义的表示。如果数据未分组，但其中包含您关心的不同组，您可能需要对数据进行分层或预处理。

模型和目标

所有这些最终都归结为您正在尝试做的事情。如果您尝试分类或解析一组独特的实体，您最好流式传输大量数据，而不是尝试对其进行采样。如果您尝试根据行为对图像或客户进行分类，则可能只需要一小部分，具体取决于这些组的不同之处。

其它你可能感兴趣的问题