Weibull 分布背后的直觉?

机器算法验证 分布 直觉 极值 冒险 威布尔分布
2022-03-30 09:33:17

我不明白威布尔分布的物理意义k范围。下面是最简单形式的 Weibull 累积概率函数的简化公式:

p(ξx)=e(xλ)k

什么是物理解释k参数,什么样的过程会取幂x?x可以解释为暂停时间或施加在链条/纤维上的力,为什么它会被取幂k?

为了比较:我可以或多或少地合理化 Gumbel 分布:

假设我们正在运行N投掷硬币的队列n. Gumbel 分布给出了在任何队列中观察到的最长成功链大于 x 的概率,因为:

p(ηx)=1p(η<x)=1(1aebxN)N=eaebx

在这里,我使用了这样一个事实,即没有成功序列的概率长于x在长度的马尔可夫链中n分布为aebx. 例如,请参阅此应用到生物信息学

从这个推导中,a 和 b 参数的解释非常直观(如果这个推导不完全准确,请原谅我/纠正我,但至少它传达了一些含义)。

你能否提供任何合理化,一个导致 Weibull 分布的直观模型,因为它与耐久性/生存相关联?

2个回答

由于 Weibull 分布通常与可靠性或生存相关联使用,因此危险率函数至关重要,请参阅非单调危险函数下面是 Weibull 危险率图,适用于比例 1 和形状的一些分类值k, 注意k=1是指数分布:

Weibull 危险率示例

所以这给出了一个直觉:威布尔风险率是单调的,随着时间的推移而下降k<1并增加k>1.

请参阅指向许多应用程序的Wikipedia链接... Waloddi Weibull 的论文,它给出了发行版的名称,可以在这里找到,实际上很容易访问。他说

反对意见指出,这个分布函数没有理论基础。但就作者的理解而言,除了极少数例外,所有其他 df 都是相同的,适用于来自自然生物领域的真实种群,至少在理论与所讨论的种群有任何关系的范围内。此外,期望为随机变量的分布函数(例如材料或机器部件的强度或颗粒大小)提供理论基础是完全没有希望的,“颗粒”是飞灰,Cyrtoideae,甚至是出生在不列颠群岛的成年雄性

然而,在论文中,他确实给出了一个理由,

假设我们有一个由几个链接组成的链。如果我们通过测试发现失败的概率P应用于“单个”链接,如果我们想找到失败的概率Pn由一个链组成的n链接,我们必须将我们的推论建立在整个链条已经失败的命题上,如果它的任何部分都失败了。

然后,如果您从单个链接的指数分布开始,您将到达 Weibulln链接。更重要的是,如果单个环节的分布是 Weibull,则链条的分布也将是 Weibull。正如@Scortchi - Reinstate Monica 在评论中指出的那样,最终这种想法将引导您找到Fisher-Tippett-Gnedenko 定理

作为记录,该图的 R 代码:

hweibull <- function(x, shape, scale=1) {
    dweibull(x, shape, scale) / pweibull(x, shape, scale, 
                                         lower.tail=FALSE) }

k <- seq(from=0.6, to=1.5, by=0.2)
mypalette <- RColorBrewer::brewer.pal(length(k), "Oranges") 

for (t in seq_along(k)) {
    plot(function(x) hweibull(x, k[t]), from=0,
         to=10, col=mypalette[t], add=if(t==1)FALSE else TRUE,
         main="Weibull hazard", xlab="x", ylab="", lwd=2)
}
legend("topright", paste("k=", round(k, 2)), col=mypalette,
       text.col=mypalette)

由于 OP 使用 Gumbel 分布(最大极值分布)作为具有直观解释的示例,因此值得通过指出该分布与 Weibull 的关联来添加 Kjetil 的答案(+1)。

比如说W表示分布的标准最小极值形式(替换xx, 并设置a=1,b=1在这个问题的术语中)。如果生存时间T有以下分布:

logT=α+σW

然后T服从 Weibull分布α=logλk=1/σ.

然后W表示标准最小极值分布对分布的随机贡献logT值,然后可以解释k作为该分布的“紧密度”。