机器算法验证 - 最优近似理论 D-最优设计 - 吾爱随笔录

最优近似理论 D-最优设计

机器算法验证 r 优化实验设计分数阶乘

2022-03-21 05:29:34

我正在使用包 AlgDesign 中的 optFederov 来创建 D-Optimial 设计。但是，我对使用什么措施作为效率措施有点困惑。我想使用 D-Optimal，但我不知道到底是哪一个。在包装的小插图中，他们解释说设计的行列式是 3.675919，最佳近似理论 D 是 3.8，使该设计的效率约为 97%。

1.-但是他是怎么想出这个 3.8 的呢？我该如何计算它？

2.-何时以及为什么要使用 D、Ge 和 Dea？

根据手册 D 是：

广义方差的第k个根：det(M)^(1/k)，其中det(M)是归一化色散矩阵M的行列式——即M=Z'Z/n，其中Z=X[rows, ]

1个回答

好的，这有点复杂，但我会在这里尝试解释一些问题。

首先，您需要知道您可以计算 D 效率的理论值（即可能的最大值）和实际获得的值（即在给定的卡片及其组配置中获得的值）。计划的“质量”（例如在 DCE 方法中）使用这些系数进行评估，其中实际和理论值提供了有关缩减（部分）卡计划将为您提供计算统计系数的类似可能性的程度的信息全计划法得到的结果。因此案件非常复杂；在这里，我们有一个计划，允许我们“理论上获得 D = 3.8”和特定变体的实际 D，D = 3.68，这给出了计划有效性的 3.38 / 3.80 = 97% 的近似百分比结果。
最复杂的问题是获得最大理论计划，或者换句话说，特定计划的最大 D。最大 D 的计算与我们想要使用的最终分析计划中有多少主效应和交互效应有关。这种信息获取的例子很多，但都非常难以辨认。为什么？好吧 - 我们不知道研究人员为自己制定了什么样的分析计划，也不知道他为什么计划计算了可以获得的最大可能 D。在上面的示例中，我们可以仅为主效果、交互效果或一阶或二阶交互效果创建矩阵。D 的最大值将根据这些发现而变化。我承认我不知道这个指标是根据什么计划获得的，我希望有人已经弄清楚了这个 D = 3 的例子。
无论如何 - 由于不同的程序具有不同的算法来测量 D 并且通常在 r 或其他软件中相同的计划会给出完全不同的 D 和其他指标，因此事情变得复杂了。原因通常是编码问题：正交编码、虚拟编码或效果编码会改变实际的 D 值（如果对数据进行编码 -1、0 和 1，与将它们编码为 1、2 和 3 时会得到不同的 wr 值） ...这应该在理论D的背景下进行解释...这又取决于您的研究分析计划的规模。
由于这种混乱，有一段时间发表的文章不解释 D 或其他指标，而只是简单地给出它们的原始值。相反，研究人员试图以某种方式证明他选择的研究计划的合理性，并仅仅为这样的计划最大化实际获得的指标。现在是时候进行上面示例中的 r 练习了。

对于你的例子，我们得到了 r

library(AlgDesign)
dat <- gen.factorial(5,3)
des <- optFederov(~quad(.),dat,nTrials=15,evaluateI=TRUE)
des$D

这应该给我们 d 的值

[1] 3.675919

知道

D 效率值是设计中的点数、模型中的自变量数以及对设计点进行预测的最大标准误差的函数。

和

最好的设计是具有最高 D 效率的设计。当各种模型产生相似的 D 效率时，其他报告的效率（例如 A、G、I）有助于选择最佳设计。

我们可以检查所有可能性并使用最好的一个。在“dat”变量中，我们有 125 种可能性/卡片/研究条件/其他的完整计划。因此，我们可以检查 5 张卡之间的任何变体以查找 optFederov（最小编号）和所有使用的卡。我们将创建一个数组变量，允许我们保存所有可能性。

min <- 10
max <- 125
eff_table <- matrix(ncol = 6, nrow = max)
colnames(eff_table) <- c("nTrials","D","A","I","Ge","Dea")
for (loop_num in min:max) {
des <- optFederov(~quad(.),dat,nTrials=loop_num,evaluateI=TRUE,crit = "D",nRepeats = 100)
eff_table[loop_num,1] <- loop_num
eff_table[loop_num,2] <- des$D
eff_table[loop_num,3] <- des$A
eff_table[loop_num,4] <- des$I
eff_table[loop_num,5] <- des$Ge
eff_table[loop_num,6] <- des$Dea
}

计数将需要一段时间。检查是否有 nRepeats 的差异；在我看来，我们应该总是使用多次重试，这就是这个选项。然后我们在这方面得到最好的配置。在

eff_table

您应该获得有关卡片数量的后续选项的所有信息。像这样的东西

 nTrials D A I Ge Dea
(...)
 [14,] 14 3.704358 0.8132031 7.820313 0.893 0.887
 [15,] 15 3.675919 1.2555973 8.848874 0.775 0.749
 [16,] 16 3.666758 1.2910678 8.807469 0.742 0.706
 [17,] 17 3.667087 1.3115654 8.693003 0.704 0.657
 [18,] 18 3.674348 1.1586909 8.544911 0.778 0.752
(...)

您现在可以为您的研究计划选择最佳实用选项并比较比率。注意：也可以使用此方法获得完整因子计划的估计值，这是您可以使用上述方法获得的最大值。在此基础上，您可以决定哪个计划是最好的......并计算与完整计划相关的百分比有效性比率。

希望对您有所帮助。随时询问并对此发表评论。

其他信息和问题：

D 效率值是设计中的点数、模型中的自变量数以及对设计点进行预测的最大标准误差的函数。最好的设计是具有最高 D 效率的设计。当各种模型产生相似的 D 效率时，其他报告的效率（例如 A、G、I）有助于选择最佳设计。 https://itl.nist.gov/div898/handbook/pri/section5/pri521.htm
D 计数的有趣示例： https ://legacy.sawtoothsoftware.com/forum/23896/calculate-design-efficiency-manually
D-效率定义和一般公式：D-效率是假设正交设计为达到相同的决定值所需的相对运行次数（以百分比表示）。它提供了一种比较不同样本大小的设计的方法。 https://ncss-wpengine.netdna-ssl.com/wp-content/themes/ncss/pdf/Procedures/PASS/D-Optimal_Designs.pdf
关于最大 D 的其他想法：如何推导线性回归中系数的方差-协方差矩阵

其它你可能感兴趣的问题

上一篇给定上限，一个 Weibull 小于另一个的概率下一篇如何使用具有相关结构的 GLS 来比较两个温度时间序列？