从分类数据中得出平均值是否有效?

机器算法验证 分类数据 意思是 分箱 间隔审查
2022-03-23 21:12:59

我正在进行一项研究,以量化医生的平均工作时间。但是,当我将其留空以供受访者填写时,它仍然未填写。

将其更改为上述类别会产生更好的响应。(工作时间类别;1 到 10、11 到 20、21 到 30)

现在我有可能从这些分类数据中得出一个平均值吗?

n1 x 类别 1 的中点 + n2 x 类别 2 的中点 ..... 除以总数 n

3个回答

将其与序数数据混为一谈有点误导。我将其称为“分箱数据”,尽管它正式是间隔删失数据(并且可能使用多种其他术语)。

您当然可以谈论总体均值(因为基础规模确实有均值)以及如何估计它,引入对基础变量的理解,以帮助找出从 bin-counts 和 bin 中很好地估计它的方法-边界。

虽然在这种情况下使用中点很常见,但它并不总是最好的选择。但是,人们可以对在某些假设下可能存在的偏差有所了解,因此可以了解它是否真的那么重要。

在底层密度减小的情况下,使用的正确“中点”将位于一半的左侧,如果底层密度增加,则使用的正确“中点”将位于一半的右侧。

如果您可以为基础变量提出一个合理的分布模型,则可以通过最大似然(例如)从分箱数据中估计平均值。

即使完全没有任何模型,也可以对平均值设置限制,因为当所有值都处于每个区间的低端时,平均值可以是最低的,而当它们都处于高端时,平均值是最高的每个区间的。[即使上限似乎是开放式的,但工作时间仍然可能有一个有效的上限。例如,一天工作 25 小时或一周工作 169 小时是根本不可能的,即使你从不需要吃饭或睡觉。可能还有其他一些实质上的下限,由于某种原因,没有人可以超越该下限。]

不,我不认为这是有效的。问题是每个类别中真实值的平均值不太可能是中点。例如,回答 10 小时的人可能比回答 1 小时的人多得多——因此平均工作时间将超过 5.5,但您假设平均值为 5.5。因此,您的估计将有偏差。

您可以做的就是将其视为具有奇怪的非线性变换的尺度 - 说“在 1 = 1 到 10、2 = 11-20 的尺度上……平均得分为 1.8”。

但如果你只有三个类别,你可以说“22% 的人工作 1-10 小时,43% 的人工作 11-20 小时……”除非有充分的理由需要平均数,否则我会这样做.

可能的?是的,正如你所展示的。

有效的?取决于你的意思。这是一个估计,估计可能有偏差。

考虑这样一种情况,其中一半的受访者给你精确的测量值(例如 22 小时),然后一半的人给你一个合并的估计值(例如 21-30 小时)。如果您计算如上所示的平均分箱估计

n1 x 类别 1 的中点 + n2 x 类别 2 的中点 ..... 除以总数 n

然后您可以将该数字与平均精确测量值相加,除以 2,并获得平均工作时间的估计值。

或者,也许您想给平均精确测量更多的权重,因此您可以对这两种方法进行加权平均来估计平均工作时间。

第三个估计器可能如下所示:将精确测量分为三个类别,然后找到一个 bin 内的经验平均值与该 bin 中点的偏差。(例如,观察到的确切时间为 22、24 和 23,箱内的平均值为 23,与 25.5 相差 2.5)。然后,您可以选择使用箱内的经验平均值(而不是箱的中点),以便根据在类别/箱中测量的观察值计算平均工作时间:

n1 x bin 1 内的经验平均值(来自精确测量的观察结果)+ n2 x bin 1 内的经验平均值.....除以总 n

另一个估计器可以采用参数假设和/或贝叶斯框架来估计具有分箱测量的观测值的平均值。

有很多估算器。统计理论可以表明,有些人可能比其他人“工作得更好”。如果您是常客,您可能会想要一个具有 95% 渐近覆盖率的产品。这些估计器可能是“最有效的”。

正如另一个答案指出的那样,您提出的方法可能有偏见,因此可能不像您希望的那样“有效”。然而,报告每个 bin 中的观察百分比是解释数据的一种很好的方法。如果你觉得给出的总体平均值的估计值非常高,你可以这样做,但一定要清楚你使用了像你提出的方法一样的中点计算统计量,并且可能说明你的估计值不是很精确。