比较两个 Weibull 分布

机器算法验证 r 卡方检验 可能性 似然比 威布尔分布
2022-03-26 02:08:29

我想比较适合两个不同数据集的两个 Weibull 分布。两个数据集都有一个类似于 Weibull 的分布,因此我们的想法是比较拟合的 Weibull 分布,以确定两个数据集的分布差异是否具有统计显着性。为此,我在 R 帮助邮件列表中找到了 Ben Bolker 的一篇文章,该文章描述了如何在 R 中执行此操作,其中陈述了以下内容:

(1) 将单个模型拟合到组合(合并数据)(例如使用 MASS::fitdistr());(2) 将单独的模型拟合到各个数据集;(3) 将合并模型的对数似然与单独模型的对数似然之和进行比较。

根据似然比检验,差异的 p 值为:

pchisq(2*(logLik_sum-logLik_pooled),df=2,lower.tail=FALSE)

(2 df 因为单独的模型总共有 4 个参数,比池化模型大 2 个)

这是原帖:http ://r.789695.n4.nabble.com/Comparison-of-two-weibull-distributions-td4679632.html

我的问题是,这个似然比检验的原假设是什么?我得到一个 P 值 = 0.4258827,我不知道这是否意味着 2 个 Weibull 分布来自同一个分布。请有人澄清这一点。

1个回答

我的问题是,这个似然比检验的原假设是什么?

在所描述的特定测试的空值下,所有参数都是相同的(这就是为什么您在这种情况下将单个 Weibull 拟合到所有数据的原因)——在形状尺度参数化下

f(x;λ,θ)=θλ(xλ)θ1e(x/λ)θIx0,θ,λ>0

空值将是形状和比例参数(θλ分别)是相同的,你可以写成:

H0:θ1=θ2,λ1=λ2

确定您所做的似然比检验的是您的零假设和替代假设,而不是相反。如果这不是您想要测试的空值,则必须以不同的方式设置测试。该测试采用零和替代下的可能性比率(并且渐近地,在相当广泛的条件下,减去其对数的两倍将是卡方分布)。

我得到一个 P 值 = 0.4258827,我不知道这是否意味着 2 个 Weibull 分布来自同一个分布。

请注意,您没有在任何地方说明显着性水平。在你选择了一个测试之前,你甚至不应该为测试做计算,直到你清楚你的拒绝规则是什么。

(如果您在这里询问如何解释 p 值或大于您的显着性水平的 p 值 - 假设是 - 意味着,我们有很多关于该主题的讨论可以搜索。重复的价值不大关于假设检验如何工作的基本机制已经说得很好。从维基百科的“替代过程”下的统计假设检验开始,例如,这里这里有一些讨论。因为很容易找到关于做什么的解释,所以我假设您的实际问题有所不同。)

如果您知道您没有拒绝(假设您的显着性水平低于您的 p 值),但正在询问如何解释不拒绝,请注意未能拒绝 null 并不意味着两个分布是一样的(正如你的问题所暗示的那样)。

这意味着没有明确的迹象表明它们由于随机变化而与您能够解释的不同。也就是说,数据与来自同一个 Weibull 的数据相当一致。这与能够断言它们实际上是完全不同的。

在这种情况下,假设它们都来自同一个分布可能是合理的,但我们不知道是这样。