使用二项式数据与连续数据时的功率

机器算法验证 二项分布 统计能力
2022-04-08 13:32:22

我有一个关于统计学可能非常基础的问题,但我觉得我不完全理解

我发现通常用二项式数据(0,1s)获得高功率(较小)置信区间要困难得多

当我想计算两个比例之间的差异时,很难获得高 p 值和置信区间。但是,对于具有相同数量参与者的研究,我可以计算平均值(因为变量是连续测量的,而不是作为 0 或 1 选择),功效要高得多。我想我很清楚为什么会这样,但我希望有人以基本的方式向我解释,以便我检查我的理解。

在使用二项式与连续数据时,是否有任何人可以指出我的图表(或一些一般规则)将样本大小与功率联系起来。由于缺乏权力,我觉得我应该尽可能避免收集二元结果。这个对吗

附加评论添加 11.05.2014 12:04

澄清:我的问题是——如果我们测量的是完全相同的东西,但有两种不同的数据收集方式。一个是二元的(例如,您更喜欢 B 比 A“多”还是“少”),一个是连续的(您喜欢 A 还是 B。请在 0-1 的范围内对 A 的偏好进行评分,其中 B 为 0.5),然后使用连续测量方法可以获得更高的功率吗?如果是,为什么?我似乎是,因为我从连续方法而不是比例获得平均分数,并且当期望值相同时(例如,0.5 的平均值,比例0.5),并且参加测试的参与者数量是相同的。

1个回答

伯努利(二元)随机变量具有一位信息。这是完全没有信息的事物所能拥有的最低信息量。整数值 0-100 的连续响应具有 6 位(二进制数字)信息。假设不是所有的 6 位都是纯噪声,非二进制变量比二进制变量具有更多的信息。这会在进行推断时产生更好的统计能力和精度。