我认为“汇集数据”只是意味着将以前分成类别的数据组合起来……本质上,忽略类别并使数据集成为一个巨大的数据“池”。我想这是一个关于术语而不是统计应用的问题。
例如:我想比较 2 个站点,在每个站点中我有两种年份类型(好和差)。如果我想“整体”比较 2 个站点(即忽略年份类型),说我在每个站点内汇集数据是否正确?此外,由于几年的数据包括好年份和差年份类型,是否可以说我在年份之间汇集数据以实现每个站点内的“好年份”和“差年份”数据集?谢谢你的帮助!猫
我认为“汇集数据”只是意味着将以前分成类别的数据组合起来……本质上,忽略类别并使数据集成为一个巨大的数据“池”。我想这是一个关于术语而不是统计应用的问题。
例如:我想比较 2 个站点,在每个站点中我有两种年份类型(好和差)。如果我想“整体”比较 2 个站点(即忽略年份类型),说我在每个站点内汇集数据是否正确?此外,由于几年的数据包括好年份和差年份类型,是否可以说我在年份之间汇集数据以实现每个站点内的“好年份”和“差年份”数据集?谢谢你的帮助!猫
是的,你的例子是正确的。
牛津英语词典将pool定义为:
池湾
(puːl)
1.1 反式。投入普通股或基金按协议分配;为共同利益而合并(资本或利益);规格。竞争的铁路公司等:分享或分割(交通或收入)。
另一个例子是:
你测量男性和女性血液中物质 X 的含量。您看不到两组之间的统计差异,因此您将数据集中在一起,忽略了实验对象的性别。
这样做在统计上是否正确在很大程度上取决于具体情况。
池化可以指组合数据,但也可以指组合信息而不是原始数据。池化最常见的用途之一是估计方差。如果我们认为 2 个总体具有相同的方差,但不一定具有相同的均值,那么我们可以从 2 个组的样本中计算方差的 2 个估计值,然后将它们合并(取加权平均值)以获得单个估计值共同方差。我们不会从组合数据中计算方差的单个估计值,因为如果均值不相等,则会夸大方差估计值。