数据挖掘 - Z 分数的标准偏差 - 吾爱随笔录

Z 分数的标准偏差

数据挖掘统计数据分配

2021-10-12 16:47:12

我有一组数据，我正在尝试生成 z 分数。我知道我需要标准偏差作为计算的一部分。我正在使用以下公式： $\sigma = \sqrt{p * n * (1-p)}$

我的数据是二进制的 - 值可以上升或下降。但是，通过历史数据，我知道它更有可能上涨而不是下跌。

那么，哪个值 $p$ 我应该在上面使用吗？你使用二进制值吗 $0.50$ 还是我应该使用我的数据的历史价值上升？

2个回答

我同意 Skiddles 回答的某些方面，但不是全部。

假设您的数据集包含 n 个观察值。根据您的问题，我看到了三种可能性：

如果您对 n 次试验中的成功次数 (1s) 感兴趣，那么您的标准差应该是 sqrt(np(1-p))，这是二项分布的标准差。

如果您对成功和失败的特定顺序感兴趣，那么您应该使用 sqrt(p(1-p))，它是伯努利分布的标准偏差。

如果您有兴趣估计如果您获得更多样本，成功的样本比例将如何变化，那么您应该 sqrt(p(1-p))/n)，这是样本比例的抽样分布的标准差.

至于p取什么值，如果不知道，一般用最保守的值0.5，进行假设检验，判断实际比例与假设的比例0.5是否不同。那将是一个 Z 测试。

根据评论编辑：

问题是“p 的历史值是用于计算标准差的正确值吗”？

答：不，我认为您混淆了两个独立但相关的概念。你会经常看到二项分布类型的问题，比如“根据过去的研究，假设成功的概率是 0.4”或类似的东西。但是，据我所知，这不是“过去的研究”。看起来您只有一项研究，在这种情况下，您并不真正知道总体比例 (p)，您只有样本比例 (p hat)。您应该为 p 使用 0.5 来计算标准偏差。

在您的示例中，您应该计算值上升的概率，并将其用作您的 $p$ .

也就是说，我认为计算应该是 $\sigma = \sqrt{p(1-p)}$ 否则，您的标准偏差会因与以下相关的因素而膨胀 $n$ . 通过使用概率，您实际上是在接受 $n$ 考虑到，因为：

p = \frac{N u m b e r o f " U p " i n s t a n c e s}{n}

$p = {Number\ of\ "Up"\ instances \over n}$ 在哪里

n

$n$ 是观察的总数。

鉴于数据的性质，即它是二进制的，我们期望 $\sigma$ 介于 0 和 1 之间，并且对观测值的数量不是特别敏感。

也就是说，如果我们看一些计算，价值 $n$ 在您的公式中显着影响 $\sigma$ .

为简单起见假设 $p$ 为 0.5，即上升或下降的机会均等。如果你有三个不同的值 $n$ 你会得到三个截然不同的值 $\sigma$ .

示例 1： $n$ = 1（或不包括在内）

σ = \sqrt{0.5 * (1 - 0.5)}, ∴ σ = 0.5

$\sigma = \sqrt{0.5 * (1-0.5)},\ \therefore \sigma = 0.5$

示例 2： $n$ = 100

σ = \sqrt{0.5 * 100 * (1 - 0.5)}, ∴ σ = 5

$\sigma = \sqrt{0.5 * 100 * (1-0.5)},\ \therefore \sigma = 5$

示例 3： $n$ = 1000

σ = \sqrt{0.5 * 1000 * (1 - 0.5)}, ∴ σ = 15.8

$\sigma = \sqrt{0.5 * 1000 * (1-0.5)},\ \therefore \sigma = 15.8$

在这三个中，只有示例 1 在直觉上真正有意义。所有实例的平均值为 0.5，您会期望观察到的值与平均值相差 0.5。

其它你可能感兴趣的问题

上一篇CNN 是否受益于 HDR 图像？下一篇TF-IDF 特征与嵌入层