Question 1

过度分散问题

看起来您正在将计数变量建模为二项式，我认为这是您过度分散的根源。

您可以将所有内容建模为二项分布，但每次观察的总数完全相同。~~另外，患病植物的数量永远不会达到最大值 100，因此它并没有像二项式那样真正被审查。~~

编辑：因此，您可以轻松地将其报告为总样本中的疾病“比率”。通过这种方式，您可以将疾病的“计数”或比例（疾病/总数）分析为负二项式模型。

EDIT2：因为使用负二项式似乎有些犹豫，这里列出了最近的植物病理学文章（与 OP 相同的学科），将疾病建模为负二项式（Prager et al., 2014 , Mori et al., 2008，Passey 等人，2017 年，Paiva de Almeida 等人，2016 年）

y 变量的直方图看起来像一个零膨胀的负二项式。

请注意通常在负二项式或泊松中看到的长右尾。

有几种不同的方法来处理这个问题，但这里有一个简单的解决方案：

m4<-glmer.nb(dis ~ trt + (1 | farm/bk),data = dinc)

summary(m4)
overdisp_fun(m4)

我得到以下过度分散结果：

      chisq       ratio         rdf           p 
122.1655582   1.0811111 113.0000000   0.2617332

看起来不错，对吧？

（编辑：忽略下面的删除线部分）

~~### 附带问题：你的树是独立的观察~~

起初，看起来两棵树中的每一棵都应该是随机效应。

但是，农场 1 上的树 1 与农场 2 中的树 1 无法比较。因此，您不希望将树的效果建模为随机效果。想象一下，如果每棵树都是不同的人。除非您对每个人进行多次观察，否则为每个人添加随机效应并不重要。

~~同样，包括农场“块”对模型并没有真正的影响。~~

替代模型和最终想法

可能会检查零膨胀负二项式
虽然标准nb的色散看起来不错
MASS 包是运行nb模型的另一种方法
此外，您可以将其作为准泊松运行
我将在下面包含一些代码，以防你想追求这个

 require("MASS")

 m5<-glmmPQL(dis ~ trt ,
             random = ~ 1 | farm/bk,
             family = negative.binomial(theta=9.86), 
             data = dinc)

 summary(m5)

 m6<-glmmPQL(dis ~ trt ,
             random = ~ 1 | farm/bk,
             family = quasipoisson(link='log'), 
             data = dinc)

 summary(m6)

祝你的模型好运！

编辑如果您想将此作为“速率”运行，请尝试以下代码：

dinc$dis_prob<- dinc$dis / dinc$tot 

m7<-glmmPQL(dis_prob ~ trt ,
             random = ~ 1 | farm/bk,
             family = quasipoisson(link='log'), 
             data = dinc)

summary(m7)

Question 2

你是正确的，你已经适当地建模了它。你的每一朵花都“嵌套”在一棵树下，因此彼此并不独立。您的代码适用于您允许截距因树而异的情况。

看起来您还检查了类内相关性（即您使用的 overdisp_fun()）。

此外，由于农场具有三个级别，因此将其视为固定是合适的（特别是如果您并不真正关心差异）。在这种情况下，您测试包含固定级别，如果它们没有提高拟合度，那么您可以丢弃它们。

确保您正在检查 AIC 和 BIC 以帮助构建模型。

Answer 1

过度分散问题

看起来您正在将计数变量建模为二项式，我认为这是您过度分散的根源。

您可以将所有内容建模为二项分布，但每次观察的总数完全相同。~~另外，患病植物的数量永远不会达到最大值 100，因此它并没有像二项式那样真正被审查。~~

编辑：因此，您可以轻松地将其报告为总样本中的疾病“比率”。通过这种方式，您可以将疾病的“计数”或比例（疾病/总数）分析为负二项式模型。

EDIT2：因为使用负二项式似乎有些犹豫，这里列出了最近的植物病理学文章（与 OP 相同的学科），将疾病建模为负二项式（Prager et al., 2014 , Mori et al., 2008，Passey 等人，2017 年，Paiva de Almeida 等人，2016 年）

y 变量的直方图看起来像一个零膨胀的负二项式。

请注意通常在负二项式或泊松中看到的长右尾。

有几种不同的方法来处理这个问题，但这里有一个简单的解决方案：

m4<-glmer.nb(dis ~ trt + (1 | farm/bk),data = dinc)

summary(m4)
overdisp_fun(m4)

我得到以下过度分散结果：

      chisq       ratio         rdf           p 
122.1655582   1.0811111 113.0000000   0.2617332

看起来不错，对吧？

（编辑：忽略下面的删除线部分）

~~### 附带问题：你的树是独立的观察~~

起初，看起来两棵树中的每一棵都应该是随机效应。

但是，农场 1 上的树 1 与农场 2 中的树 1 无法比较。因此，您不希望将树的效果建模为随机效果。想象一下，如果每棵树都是不同的人。除非您对每个人进行多次观察，否则为每个人添加随机效应并不重要。

~~同样，包括农场“块”对模型并没有真正的影响。~~

替代模型和最终想法

可能会检查零膨胀负二项式
虽然标准nb的色散看起来不错
MASS 包是运行nb模型的另一种方法
此外，您可以将其作为准泊松运行
我将在下面包含一些代码，以防你想追求这个

 require("MASS")

 m5<-glmmPQL(dis ~ trt ,
             random = ~ 1 | farm/bk,
             family = negative.binomial(theta=9.86), 
             data = dinc)

 summary(m5)

 m6<-glmmPQL(dis ~ trt ,
             random = ~ 1 | farm/bk,
             family = quasipoisson(link='log'), 
             data = dinc)

 summary(m6)

祝你的模型好运！

编辑如果您想将此作为“速率”运行，请尝试以下代码：

dinc$dis_prob<- dinc$dis / dinc$tot 

m7<-glmmPQL(dis_prob ~ trt ,
             random = ~ 1 | farm/bk,
             family = quasipoisson(link='log'), 
             data = dinc)

summary(m7)

Answer 2

你是正确的，你已经适当地建模了它。你的每一朵花都“嵌套”在一棵树下，因此彼此并不独立。您的代码适用于您允许截距因树而异的情况。

看起来您还检查了类内相关性（即您使用的 overdisp_fun()）。

此外，由于农场具有三个级别，因此将其视为固定是合适的（特别是如果您并不真正关心差异）。在这种情况下，您测试包含固定级别，如果它们没有提高拟合度，那么您可以丢弃它们。

确保您正在检查 AIC 和 BIC 以帮助构建模型。

用于过度分散数据的 GLMM

过度分散问题

替代模型和最终想法