Z 分数的标准偏差

数据挖掘 统计数据 分配
2021-10-12 16:47:12

我有一组数据,我正在尝试生成 z 分数。我知道我需要标准偏差作为计算的一部分。我正在使用以下公式: σ=pn(1p)

我的数据是二进制的 - 值可以上升或下降。但是,通过历史数据,我知道它更有可能上涨而不是下跌。

那么,哪个值p我应该在上面使用吗?你使用二进制值吗0.50还是我应该使用我的数据的历史价值上升?

2个回答

我同意 Skiddles 回答的某些方面,但不是全部。

假设您的数据集包含 n 个观察值。根据您的问题,我看到了三种可能性:

如果您对 n 次试验中的成功次数 (1s) 感兴趣,那么您的标准差应该是 sqrt(np(1-p)),这是二项分布的标准差。

如果您对成功和失败的特定顺序感兴趣,那么您应该使用 sqrt(p(1-p)),它是伯努利分布的标准偏差。

如果您有兴趣估计如果您获得更多样本,成功的样本比例将如何变化,那么您应该 sqrt(p(1-p))/n),这是样本比例的抽样分布的标准差.

至于p取什么值,如果不知道,一般用最保守的值0.5,进行假设检验,判断实际比例与假设的比例0.5是否不同。那将是一个 Z 测试。

根据评论编辑:

问题是“p 的历史值是用于计算标准差的正确值吗”?

答:不,我认为您混淆了两个独立但相关的概念。你会经常看到二项分布类型的问题,比如“根据过去的研究,假设成功的概率是 0.4”或类似的东西。但是,据我所知,这不是“过去的研究”。看起来您只有一项研究,在这种情况下,您并不真正知道总体比例 (p),您只有样本比例 (p hat)。您应该为 p 使用 0.5 来计算标准偏差。

在您的示例中,您应该计算值上升的概率,并将其用作您的 p.

也就是说,我认为计算应该是 σ=p(1p) 否则,您的标准偏差会因与以下相关的因素而膨胀 n. 通过使用概率,您实际上是在接受n 考虑到,因为:

p=Number of "Up" instancesn
在哪里 n 是观察的总数。

鉴于数据的性质,即它是二进制的,我们期望 σ 介于 0 和 1 之间,并且对观测值的数量不是特别敏感。

也就是说,如果我们看一些计算,价值 n 在您的公式中显着影响 σ.

为简单起见假设 p为 0.5,即上升或下降的机会均等。如果你有三个不同的值n 你会得到三个截然不同的值 σ.

示例 1: n = 1(或不包括在内)

σ=0.5(10.5), σ=0.5

示例 2: n = 100

σ=0.5100(10.5), σ=5

示例 3: n = 1000

σ=0.51000(10.5), σ=15.8

在这三个中,只有示例 1 在直觉上真正有意义。所有实例的平均值为 0.5,您会期望观察到的值与平均值相差 0.5。