这让我想起了癌症诊断,其中旧的基因表达特征被新的基因表达特征所取代,这当然应该更好。但是如何证明他们更好呢?
这里有一些建议来比较这些方法的可重复性。
1. 使用共惯量分析 (CIA)。
中央情报局应该更多地宣传,不幸的是它没有被广泛使用(例如没有维基百科页面)。CIA 是一种双表方法,其工作原理与典型分析(CA) 相同,即在两组多密度测量之间寻找具有最大相关性的一对线性分数。它相对于 CA 的优势在于,即使您的维度多于观察值,您也可以做到这一点。您可以在相同的样本上测量这两种方法,以获得 30 列的两个耦合表和n观察。第一对主成分应该是强相关的(如果方法真的测量相同的东西)。如果方法 B 更好,则残差方差应小于方法 A 的残差方差。使用这种方法,您可以解决方法的一致性和它们的不一致,您将其解释为噪声。
2.使用距离。
您可以使用测试和重新测试之间的 30 维欧几里得距离来测量方法的可重复性。您为每种方法生成该分数的样本,并且可以将样本与 Wilcoxon 检验进行比较。
3. 使用下游应用。
您可能正在获取这些指纹来做出决定,或对患者或生物材料进行分类。您可以计算两种方法的测试和重新测试之间的一致与不一致,并将它们与 Wilcoxon 测试进行比较。
方法三是最简单的,也是最接地气的。即使对于高维输入,决策通常也很简单。无论我们的问题多么复杂,请记住,统计数据是决策科学。
关于您评论中的问题。
使用鲁棒的降维方法将多变量数据降维为一维并对其进行分析呢?
降维无论多么稳健,都将与方差损失相关联。如果有一种方法可以将您的多变量指纹转换为单个分数,从而捕获几乎所有的方差,那么可以肯定,这是迄今为止最好的做法。但是,为什么指纹首先是多元的呢?
我从 OP 的上下文中假设指纹是多变量的,因为很难在不丢失信息的情况下进一步降低其维度。在这种情况下,它们在单个分数上的可重复性不必很好地代表整体可重复性,因为您可能会忽略大部分方差(在最坏的情况下接近 29/30)。