机器算法验证 - 哪个分布用于概率问题？ - 吾爱随笔录

哪个分布用于概率问题？

机器算法验证可能性自习二项分布泊松分布

2022-04-12 11:20:30

在食品加工厂中，平均每周有 2 台包装机发生故障。

我让 x 是一周内加工机器故障的数量。所以 x 是 Poisson(2)，但问题的一部分说：

在 26 台机器的随机样本中，至少有一台机器在一周内没有机器故障的概率是多少。

我知道，均值 = 2 并求解 2=26*p 得到 p=1/13。然后我说 x 是二项式 (26, 1/13)。

但现在我不知道从那里去哪里。请问有什么建议吗？我对最终答案不感兴趣，我只需要从我所在的位置指出正确的轨道。

2个回答

以下分析说明了获得解决方案的一种方法。至少它可能有助于展示如何使用泊松分布。

为了建设性和清晰地回答这个问题，让我们做一些简化的假设，以避免陷入尚未描述的细节中。例如，您可以选择

假设“故障”是一个持续时间很短的事件，以至于机器在故障后立即恢复运行；和
因此，同一台机器可能会在一周内多次发生故障（尽管这可能是罕见的事件）。

正如问题所暗示的那样，我们将做出一些额外的更有力的假设。需要一些这样的（建模）假设才能在答案方面取得任何进展。他们的主要目的是为我们提供从工厂工程师那里获取更多信息的出发点，以便我们可以开发改进的模型和更好的答案：

所有机器独立有相同的故障机会和
这些机会不会随时间而变化。

这些假设意味着在任何数量中观察到的故障数量 $N$ 在任何时期的机器 $x$ 周有泊松 $(\lambda N x)$ 分布，其中 $\lambda$ 是所有机器在任何时候都通用的参数。这个问题告诉我们关于故障率 $x = 1$ 星期：

λ N 1 weeks = 2.

$\lambda N 1\text{ weeks} = 2.$

所以

λ = 2 / (N machine-weeks) .

$\lambda = 2 / (N \text{ machine-weeks}).$

在随机样本中 $26$ 这样的机器，一周内的故障次数将具有带参数的泊松分布

μ = λ \times (26 machines) \times (1 week) = 26 λ = 52 / N .

$\mu = \lambda\times (26\text{ machines})\times (1\text{ week}) = 26\lambda = 52/N.$

根据泊松概率的公式，这些之间没有故障的机会 $26$ 机器是

e^{- μ} 0! = e^{- μ} = e^{- 26 λ} = e^{- 52 / N} .

$e^{-\mu} 0! = e^{-\mu} = e^{-26\lambda} = e^{-52/N}.$

自从 $N\ge 26$ ，这个值不能超过 $e^{-52/26}=e^{-2}\approx 0.135$ ，但作为 $N$ 变大它可以变得任意小。

这不是最终答案。它仅显示了根据一周内没有故障的可能性来解释问题时所做的四个假设的含义。（问题的其他解释是可能的，因为它使用了扭曲的语法。）特别是，对未知机器总数的依赖是清楚而明确的。鉴于问题中提供的信息有限，这大约是人们所能做到的。

一个模拟（涵盖近 200 年的运营）说明了这些想法。它的输出由两个直方图组成：所有的每周故障计数 $N$ 机器和机器样本的计数。这是一个示例 $N=60$ ：

在每个直方图上绘制两条垂直线：一条灰色的线表示实际速率的位置（由前面的解决方案给出），一条红色的虚线表示模拟期间的平均速率。在每种情况下，这些线明显重合，表明模拟和前面的分析是一致的。

研究R产生这个模拟的代码可能有助于澄清这些想法。

n <- 60           # Number of machines
sample.size <- 26 # Must be less than or equal to n
weekly.mean <- 2  # Events per week, on average
n.iter <- 1e4     # Size of this simulation in weeks
set.seed(17)      # Reproduce these results exactly
#
# Simulate all machines.
#
lambda <- weekly.mean/n                          # Weekly breakdown rate per machine
x <- matrix(rpois(n.iter*n, lambda), nrow=n)     # Breakdowns by machine by week
weekly.breakdowns <- colSums(x)                  # Total breakdowns each week
sample.breakdowns <- colSums(x[1:sample.size, ]) # Total breakdowns in the sample
#
# Plot the results.
#
par(mfrow=c(1,2))
eps <- 0.99
hist(weekly.breakdowns, breaks=(-1):max(weekly.breakdowns)+eps,
     freq=FALSE, cex.main=0.9)
abline(v=lambda * n, lwd=2, col="Gray")
abline(v=mean(weekly.breakdowns), col="Red", lwd=3, lty=3)

mu <- weekly.mean * sample.size / n
hist(sample.breakdowns, breaks=(-1):max(sample.breakdowns)+eps,
     freq=FALSE, cex.main=0.9)
abline(v=mu * n, lwd=2, col="Gray")
abline(v=mean(sample.breakdowns), col="Red", lwd=3, lty=3)

泊松分布和二项分布都可以对计数进行建模，但它们的做法不同。您假设每台机器每周最多可能发生一次故障或不发生故障。这表明特定的分布更合适。

从这个和你的计算来看，你认为正确的分布是 binom(26, 1/13)。既然您已经确定了一个，您应该能够直接从该分布计算概率。

您被要求计算的概率有些模棱两可。问题正文中的措辞（“没有机器故障的概率”）与您在评论中报告的内容（“至少一台机器没有故障的概率”）不一致。这两个将是 $P(X=0|{\rm binom}(26, 1/13))$ 和 $P(X\le25|{\rm binom}(26, 1/13)$ , 分别是不相等的。不管你被问的是什么，两者都应该很容易从你决定的分布中计算出来。

其它你可能感兴趣的问题

上一篇增强树和变量交互下一篇如何确定 R 底层 R 平方的符号？