我有一组数据,我正在尝试生成 z 分数。我知道我需要标准偏差作为计算的一部分。我正在使用以下公式:
我的数据是二进制的 - 值可以上升或下降。但是,通过历史数据,我知道它更有可能上涨而不是下跌。
那么,哪个值我应该在上面使用吗?你使用二进制值吗还是我应该使用我的数据的历史价值上升?
我有一组数据,我正在尝试生成 z 分数。我知道我需要标准偏差作为计算的一部分。我正在使用以下公式:
我的数据是二进制的 - 值可以上升或下降。但是,通过历史数据,我知道它更有可能上涨而不是下跌。
那么,哪个值我应该在上面使用吗?你使用二进制值吗还是我应该使用我的数据的历史价值上升?
我同意 Skiddles 回答的某些方面,但不是全部。
假设您的数据集包含 n 个观察值。根据您的问题,我看到了三种可能性:
如果您对 n 次试验中的成功次数 (1s) 感兴趣,那么您的标准差应该是 sqrt(np(1-p)),这是二项分布的标准差。
如果您对成功和失败的特定顺序感兴趣,那么您应该使用 sqrt(p(1-p)),它是伯努利分布的标准偏差。
如果您有兴趣估计如果您获得更多样本,成功的样本比例将如何变化,那么您应该 sqrt(p(1-p))/n),这是样本比例的抽样分布的标准差.
至于p取什么值,如果不知道,一般用最保守的值0.5,进行假设检验,判断实际比例与假设的比例0.5是否不同。那将是一个 Z 测试。
根据评论编辑:
问题是“p 的历史值是用于计算标准差的正确值吗”?
答:不,我认为您混淆了两个独立但相关的概念。你会经常看到二项分布类型的问题,比如“根据过去的研究,假设成功的概率是 0.4”或类似的东西。但是,据我所知,这不是“过去的研究”。看起来您只有一项研究,在这种情况下,您并不真正知道总体比例 (p),您只有样本比例 (p hat)。您应该为 p 使用 0.5 来计算标准偏差。
在您的示例中,您应该计算值上升的概率,并将其用作您的 .
也就是说,我认为计算应该是 否则,您的标准偏差会因与以下相关的因素而膨胀 . 通过使用概率,您实际上是在接受 考虑到,因为:
鉴于数据的性质,即它是二进制的,我们期望 介于 0 和 1 之间,并且对观测值的数量不是特别敏感。
也就是说,如果我们看一些计算,价值 在您的公式中显着影响 .
为简单起见假设 为 0.5,即上升或下降的机会均等。如果你有三个不同的值 你会得到三个截然不同的值 .
示例 1: = 1(或不包括在内)
示例 2: = 100
示例 3: = 1000
在这三个中,只有示例 1 在直觉上真正有意义。所有实例的平均值为 0.5,您会期望观察到的值与平均值相差 0.5。