假设我有 2 TB 的数据,那么选择的最佳样本量是多少?我知道我拥有多少 RAM/处理能力是有限的,因此我应该围绕它做出抽样决定。但是,假设处理能力现在不是我关心的问题。什么是处理我的样本量的好方法?
什么是“好”样本量
数据挖掘
数据挖掘
采样
2022-03-12 15:07:28
1个回答
如果没有更多信息,这是一个很难回答的问题。我将假设这是用于模型构建,但如果没有更多细节,很难推荐一些东西。
但是,有些事情通常应该知道:
人口规模
人口有多大?您的 2TB 数据是否包含总人口,或者这是给定时间范围的样本?您正在查看什么数据框架 - 这 2 天的数据是否仅代表给定的人口子集,还是这一切?你需要知道这一点才能知道你可以从这个数据集中得出什么结论。
方差
样本的方差是多少?如果是分类数据,有多少个唯一值?围绕这一点制定指标将有助于确定您需要的样本数量。如果这是一个低方差集,您可能只需要几百/千次观察。
分层/分组
您的数据是否以有意义的方式分组?如果是这样,您需要将其纳入您的样本中。根据您所做的工作,您将需要对人口进行有意义的表示。如果数据未分组,但其中包含您关心的不同组,您可能需要对数据进行分层或预处理。
模型和目标
所有这些最终都归结为您正在尝试做的事情。如果您尝试分类或解析一组独特的实体,您最好流式传输大量数据,而不是尝试对其进行采样。如果您尝试根据行为对图像或客户进行分类,则可能只需要一小部分,具体取决于这些组的不同之处。