我有大量申请获奖的人的数据。每个申请的人都必须填写一份调查表并注明他们的性别(尽管他们可以选择“宁愿不说”)。我的问题:考虑到调查不是人口样本,而是整个人口,在这些数据上加上“误差线”是否合适?(任何引用都会有所帮助。)
当您拥有全部人口时,是否适合在数据上放置“误差线”?
误差线显示间隔;这些间隔必须代表什么
图中的误差线显示特定数量的区间,并且与图中的任何元素一样,这些区间必须实际代表某些东西。图中的区间通常在两种情况下有用:当您想要显示未知量的区间估计时,或者当您想要显示代表样本数据的某些描述性方面的区间时。
误差线最常见的用途是当您使用数据估计未知数量时。通常,当我们对某个未知量(即单个点)进行估计时会发生这种情况,然后使用误差线对包含点估计的量进行区间估计。在您的情况下,您有一个完整的值群体,因此您没有未知数量的兴趣。有时人们可能希望使用完整的人口数据来推断假设的“超级人口”(以及人口的无限扩展)的某些未知方面,在这种情况下,可能会有一些未知数量的兴趣。
有时使用误差线的另一种情况是,当您想要显示与已知描述性数量相关的区间范围时,而不是作为未知数量的区间估计。例如,在盒须图中使用了一个有点类似于“误差线”的图形元素. 更一般地说,如果您有一组具有连续测量值的样本数据,分为几类,通常会给出一个均值条形图,其中条形图显示每个类别中连续值的子样本的一些描述性范围(例如,四分位数范围,或与样本均值的一定数量的样本标准偏差等)。在这种情况下,条形用于指示与样本有关的某种描述范围。严格来说,这些条不代表“错误”,但它们在图形上与表示考虑“错误”的区间估计的条在图形上相同。
通常这两种情况之间存在交叉,当与数据有关的描述性区间也用作数据外对象的某个未知量的区间估计时。在任何情况下,每当您生成带有误差线的图时,您必须确保您的误差线的含义是清晰的。对于某些图,如盒须图,条形图的含义是按照惯例固定的(因此不需要解释),但在其他情况下,您应该告诉读者您的图上的误差线代表什么。
如果您认为您可能需要使用误差线或其他与误差线在图形上相同的线,您需要退后一步问自己:我建议用这些线显示的间隔的目的是什么?它是对未知量的区间估计吗?(如果是,未知量是多少?您使用的是什么类型的区间估计器?)它是代表数据某些方面的区间吗?(如果是,它代表数据的哪个方面?)如果您对这些问题没有满意的答案,那么您不需要在数据图中使用误差线。
@Ben 当然是正确的,如果您拥有全部人口,就没有“错误”。但至少通俗地说,“误差条”并不总是指来自不完整样本的不确定性。即使是“精确的”,只有一个数字也很少有用。两个例子:
如果你说“ % 的申请人是男性”,那么这个数字是准确的,不应该有错误栏。但是:例如,如果您的目标是谈论性别偏见,那么确切的数字本身是不够的。您需要添加一行,例如“考虑到我们拥有的申请人总数,在统计上预期这个数字不是您的数据的错误栏。但它可以达到相同的目的:它告诉读者你引用的第一个数字在多大程度上是有意义的。
如果您说“平均而言,申请人的年龄为岁”,那么它对读者的帮助可能会再次降低。说“申请人的平均年龄为岁,标准差为 ”更有用。第二个数字当然不是误差线,但它具有相同的目的,因为它告诉读者一系列预期结果,这通常比单独的一个中心结果更有帮助。
(经过思考,案例(1)本质上等同于@Ben所说的“超级人口”)