机器算法验证 - 寻找多元样本之间的稳健、无分布/非参数距离 - 吾爱随笔录

寻找多元样本之间的稳健、无分布/非参数距离

机器算法验证分布非参数强大的距离函数

2022-03-29 17:31:55

那里有许多分布的距离函数，但我很难通过它们来找到一个

是“无分布”或“非参数”，我的意思是它对基础分布做出很少/弱假设（特别是不假设正态性）；
对异常值具有鲁棒性。

（在这两个期望的属性中，（1）比（2）重要得多。）

我意识到上述特征可能会降低任何度量的区分能力，但它们反映了我正在使用的数据的现实¹。

如果有助于澄清问题，我可以发布一小部分数据子样本，并适当隐藏特征（这是我的合作者拥有的未发布数据）。我担心的一个问题是，任何小到可以作为 CrossValidated 帖子的一部分“发布”的子样本都太小而无法充分代表整个数据集。我很感激有关此事的一些指导。

背景（又名 tl;dr）

我最初打算使用 Bhattacharyya 距离 $D_B(\mathbf{x}, \mathbf{y})$ 测量各种子样本对的样本分布之间的距离 $(\mathbf{x}, \mathbf{y})$ 在我的数据集中，但我很快遇到了矩阵的问题 $(\mathrm{cov}(\mathbf{x}) + \mathrm{cov}(\mathbf{y}))/2$ ，其逆需要计算 $D_B(\mathbf{x}, \mathbf{y})$ ²，对于这些对中的许多是病态的 $(\mathbf{x}, \mathbf{y})$ .

这让我阅读了更多关于背后的理论 $D_B$ ，从中我收集到我用来计算它的公式假设基础分布都是正态的。我认为我遇到的数值问题与我正在使用的分布甚至没有接近满足这个正态性条件的事实之间可能存在某种联系（无论多么微弱）。

我的直觉（比我有更多数学能力的人可能会或多或少严格地证明这一点）是经典的分析分布之所以强大，正是因为强大的分析约束导致了它们的“精细/局部结构”，并且因此，对于我们对它们的所有深刻而深远的定理。正是这一理论体系使这些分布“强大”。如果这种预感完全正确，人们会期望从这种分布得出的分析结果往往对数据中的数值缺陷（异常值、共线性等）非常敏感。

无论如何，我将我遇到的数字问题解释为可能是来自统计之神的仁慈暗示，我使用了错误的工具来完成这项工作。

这就是让我开始寻找“无分布”/“非参数”替代方案的原因 $D_B$ .

_{¹数据包含约 500 个自动收集的单个培养细胞的特征。所有特征都有正值。我根据数据的随机子样本查看了几个随机选择的特征的直方图，但没有找到一个看起来正态分布的直方图；那些是单峰钟形的，都有明显的偏斜。一些特征具有极端异常值（因此直方图只有一两个高到足以与空 bin 区分开来的 bin）。}

_{这些细胞是从患者活组织检查中培养出来的，分成约 2500 个亚培养物，对其进行约 800 种不同可能治疗中的一种，包括“不治疗”对照。治疗本身分为约 200 个不同的组。因此，想象一下将所有观察结果划分为约 200 个子样本，这约 200 个治疗组中的每一个都有一个。目前，我有兴趣测量与这些子样本中的每一个相对应的（多变量）样本分布与对照（无处理）子样本之间的距离。}

_{²更准确地说，需要这个逆来计算 $D_B$ 使用我的公式。它是在这个特定公式的推导中，而不是在定义中 $D_B$ 就其本身而言，出现了正态假设。我从 Kailath 1967 年的论文中得到了公式（Kailath，Thomas。“信号选择中的散度和 Bhattacharyya 距离测量。”通信技术，IEEE Transactions on 15.1 (1967): 52-60.）。}

2个回答

首先，我建议您看一下Michel 和 Elena Deza的《距离百科全书》。通过快速浏览 pdf（例如，第 327-330 页），您已经可以看到针对多变量人群的大量可能的统计测量。虽然很简单，但其中之一可能足以近似不同人群之间的统计差异。此外，您可能需要考虑更多“简单”的统计距离。例如，您可以在 Google 上搜索该术语Nonparametric multivariate distance，然后会弹出许多距离度量。

以更复杂的方式，第一直觉可能是首先保留数据中的治疗分类，然后估计两个可能的层次结构/分类之间的距离，因为问题涉及可以分类为不同子组的多变量数据。一种这样的度量是拆分顺序距离，可以在以下论文中找到：

张等人。(2009)，聚类和分类层次结构的拆分顺序距离，计算机科学讲义，卷。5566，第 517-534 页。在这里下载

这种技术（和类似技术）尝试根据不同的可能层次结构对数据进行分类。我不完全确定这是否适用于您提到的亚文化结构，但看看可能会很有趣。然而，这种估计统计距离的方式在很大程度上依赖于算法的实现（因此也依赖于计算机科学）。

查看问题的一种更具统计性的方法是简单地使用数据，就像分类一样，您使用治疗分类作为不同亚群之间的分割。因此，没有假定特定的层次结构。然后有用的非参数测量要么基于自举，要么基于基本分布的矩的近似，最著名的是矩方法。基于此的距离测量通常依赖于一阶矩和二阶矩是有限的简单假设。可以在以下论文中找到这种措施的一个很好的例子：

Székely, GJ, Rizzo, ML, (2004)，高维等分布测试，Interstat 2004。在这里下载

以非参数方式测试两个多元分布的相等性。另一个有趣的基于数据深度的非参数测试可以在以下位置找到：

Chenouri, S., Farrar, TJ (2012)，基于数据深度的双样本非参数多元量表检验，电子统计杂志，卷。6，第 760-782 页。在这里下载

现在，除了测试两个样本之间的差异之外，您可能只想解释它们之间的统计差异。在这种情况下，您可能需要研究诸如Bhattacharyya 距离之类的散度度量，或诸如Hellinger距离之类的f散度。

所有这些措施都有不同的优点和缺点，应在特定条件下采用。请务必始终注意变量的比例，因为大比例会对任何衡量标准产生不成比例的影响。因此，如果变量是在不同的尺度上测量的，请在计算距离之前使用标准化值。因此对于 $n$ 样本（组），变量应标准化为零均值和单位方差 $n$ 团体。祝你好运！

_{PS 请注意，稳健的统计数据通常使用不同的惩罚函数，例如平均绝对偏差，而不是平方观测值与平均值之间的距离。这可能有助于您寻找稳健的衡量标准。}

您熟悉 T-SNE 方法吗？它通常用于这类问题（细胞标记）进行分组。

http://en.wikipedia.org/wiki/T-distributed_stochastic_neighbor_embedding

http://lvdmaaten.github.io/tsne/

其它你可能感兴趣的问题

上一篇可以为对数正态分布计算分位数吗？下一篇爆炸过程、非平稳性和单位根，如何区分？