就“样本”进行清晰的沟通

数据挖掘 统计数据 采样
2022-02-24 16:45:30

人们经常指出,样本是统计学中的一个重载术语,而统计学支持的科学。在我的领域(地质科学)和大多数其他科学领域一样,收集有意义的数据的过程至关重要,关于该过程中的陷阱和陷阱的讨论涉及抽样离那不远了,特别是当实验室结果回来时,涉及统计学家、数据科学家、地理数学家、GIS 分析师甚至普通地质学家的对话可能会尝试在同一个句子中包含样本的多种含义!

问:是否有任何数据科学家(或统计学家)找到了传达这些不同含义的实用方法?

一种方法是在采样前始终添加土壤、岩石、统计数据等。但我很好奇是否还有其他有效沟通方法正在使用中。

1个回答

“样本”作为名词通常指的是单个数据点。“样本”作为动词是从较大的主体(现实或较大的数据集)中提取数据点子集的行为。减少歧义的唯一方法是使用比“数据”或“样本”更具体的词。

例子:

假设您从现场的四个不同传感器收集 1MM 数据点,为您提供四组 250k 数据点。假设此数据对于您正在测试的模型或正在运行的分析的某些演示来说太大了,因此您选择了 100k 数据点,平均分布在四个传感器上(给出四组 25k 数据点)。

在此示例中,您进行了两次采样。首先,从现实中收集您的 1MM 数据点采样。其次,您再次采样以将数据集的大小减小到更易于管理的程度。“数据”或“样本”可以指现实、1MM 数据集、100k 数据集或任何特定于传感器的子集。为了减少歧义,请尽快为您将使用的每个可能的定义建立一个唯一的名称。(对于所有可能观察到的样本集的“现实”。“完整数据集”,从数据集的源派生的东西,或者甚至是完整的 1MM 数据集的 X。“我们的试验数据集”,或者甚至是小 100k 的 Y数据集。

您实际所做的取决于上下文以及适合您的目标受众的内容,但一般的答案是使用更具体的词。