如何评估多变量和特定方法结果的可重复性?

机器算法验证 多元分析 可重复性 方法比较
2022-03-16 11:16:32

方法“A”使用由大约 30 个不同变量组成的多变量“指纹”描述生物样品。不同的变量表现出不同的典型分布,其中许多变量彼此密切相关。根据先前的经验,假设我们无法将许多变量转换为正态分布。

方法“B”被设计为方法“A”的改进版本,我们希望比较这两种方法的可重复性。如果我们处理单个变量,我们将对几个样本进行独立分析并使用方差分析来比较方法内和方法间的变异性。但这里我们处理的是多变量输出,我们不希望对每个变量进行一次分析。这个问题的正确方法是什么?

解析度

gui11aume 的 回答提供了有用且有价值的信息。根据 AdamO 的建议,我将根据 gui11aume 的答案改编“下游应用程序”,然后 进行 7 次单向分析

4个回答

这让我想起了癌症诊断,其中旧的基因表达特征被新的基因表达特征所取代,这当然应该更好。但是如何证明他们更好呢?

这里有一些建议来比较这些方法的可重复性。

1. 使用共惯量分析 (CIA)。
中央情报局应该更多地宣传,不幸的是它没有被广泛使用(例如没有维基百科页面)。CIA 是一种双表方法,其工作原理与典型分析(CA) 相同,即在两组多密度测量之间寻找具有最大相关性的一对线性分数。它相对于 CA 的优势在于,即使您的维度多于观察值,您也可以做到这一点。您可以在相同的样本上测量这两种方法,以获得 30 列的两个耦合表和n观察。第一对主成分应该是强相关的(如果方法真的测量相同的东西)。如果方法 B 更好,则残差方差应小于方法 A 的残差方差。使用这种方法,您可以解决方法的一致性和它们的不一致,您将其解释为噪声。

2.使用距离
您可以使用测试和重新测试之间的 30 维欧几里得距离来测量方法的可重复性。您为每种方法生成该分数的样本,并且可以将样本与 Wilcoxon 检验进行比较。

3. 使用下游应用。
您可能正在获取这些指纹来做出决定,或对患者或生物材料进行分类。您可以计算两种方法的测试和重新测试之间的一致不一致,并将它们与 Wilcoxon 测试进行比较。

方法三是最简单的,也是最接地气的。即使对于高维输入,决策通常也很简单。无论我们的问题多么复杂,请记住,统计数据是决策科学。

关于您评论中的问题。

使用鲁棒的降维方法将多变量数据降维为一维并对其进行分析呢?

降维无论多么稳健,都将与方差损失相关联。如果有一种方法可以将您的多变量指纹转换为单个分数,从而捕获几乎所有的方差,那么可以肯定,这是迄今为止最好的做法。但是,为什么指纹首先是多元的呢?

我从 OP 的上下文中假设指纹是多变量的,因为很难在不丢失信息的情况下进一步降低其维度。在这种情况下,它们在单个分数上的可重复性不必很好地代表整体可重复性,因为您可能会忽略大部分方差(在最坏的情况下接近 29/30)。

我从您的问题和评论中假设 30 个输出变量不能(容易)或不应该转换为单个变量。

处理数据的一种想法XA(n×pA)XB(n×pB)是你可以做回归XA(n×pA)XB(n×pB)反之亦然。附加知识(例如,变量i在集合 A 中对应于变量i在集合 B) 中也可以帮助限制映射模型和/或解释。

那么多块 PCA(或 -PLS)如何进一步推动这个想法呢?对于这些方法,相同样本(或相同个体)的两个多变量指纹作为独立变量一起分析,有或没有第三个依赖块。

R. Brereton:“用于模式识别的化学计量学”在最后一章(“比较不同的模式”)中讨论了一些技术,谷歌搜索将引导您找到许多论文,以及介绍。请注意,您的情况听起来类似于一起分析光谱和遗传测量的问题(两个矩阵具有逐行对应关系,而不是分析例如分析数据立方体的光谱时间序列)。

这是一篇处理多块分析的论文:Sahar Hassani: Analysis of -omics data: Graphical interpret-and validation tools in multi-block methods

此外,也许这是另一个方向的良好起点:Hoefsloot 等人,多集数据分析:方差分析同时成分分析和相关方法,在:综合化学计量学 - 化学和生化数据分析(我无权访问它,刚看到摘要)

30 单向分析当然是一种选择,并且将是一种理想的“表 2”类型的分析,其中以合乎逻辑的方式总结了整体性能。方法 B 产生的前 20 个因子的精度可能略有提高,而后 10 个因子的可变性可能更大。您有使用部分有序空间进行推理的问题:当然,如果 B 中的所有 30 个因子都更精确,那么 B 是更好的方法。但存在“灰色”区域,并且由于因素众多,几乎可以保证在实践中出现。

如果本研究的目标是进行单一分析,则重要的是要考虑每个结果的权重及其终点应用。如果这 30 个变量用于观察数据的分类、预测和/或聚类,那么我希望看到这些结果的验证以及分类中 A / B 的比较(使用风险分层表或平均百分比偏差) 、预测(使用 MSE)和聚类(使用交叉验证之类的东西)。这是处理灰色区域的正确方法,您不能说 B 在分析上更好,但在实践中效果更好。

我将尝试基于排列(PERMANOVA)测试方法的多元方差分析。排序分析(基于梯度长度分析的结果)也可能有所帮助。