那里有许多分布的距离函数,但我很难通过它们来找到一个
- 是“无分布”或“非参数”,我的意思是它对基础分布做出很少/弱假设(特别是不假设正态性);
- 对异常值具有鲁棒性。
(在这两个期望的属性中,(1)比(2)重要得多。)
我意识到上述特征可能会降低任何度量的区分能力,但它们反映了我正在使用的数据的现实1。
如果有助于澄清问题,我可以发布一小部分数据子样本,并适当隐藏特征(这是我的合作者拥有的未发布数据)。我担心的一个问题是,任何小到可以作为 CrossValidated 帖子的一部分“发布”的子样本都太小而无法充分代表整个数据集。我很感激有关此事的一些指导。
背景(又名 tl;dr)
我最初打算使用 Bhattacharyya 距离测量各种子样本对的样本分布之间的距离在我的数据集中,但我很快遇到了矩阵的问题,其逆需要计算2,对于这些对中的许多是病态的.
这让我阅读了更多关于背后的理论,从中我收集到我用来计算它的公式假设基础分布都是正态的。我认为我遇到的数值问题与我正在使用的分布甚至没有接近满足这个正态性条件的事实之间可能存在某种联系(无论多么微弱)。
我的直觉(比我有更多数学能力的人可能会或多或少严格地证明这一点)是经典的分析分布之所以强大,正是因为强大的分析约束导致了它们的“精细/局部结构”,并且因此,对于我们对它们的所有深刻而深远的定理。正是这一理论体系使这些分布“强大”。如果这种预感完全正确,人们会期望从这种分布得出的分析结果往往对数据中的数值缺陷(异常值、共线性等)非常敏感。
无论如何,我将我遇到的数字问题解释为可能是来自统计之神的仁慈暗示,我使用了错误的工具来完成这项工作。
这就是让我开始寻找“无分布”/“非参数”替代方案的原因.
1数据包含约 500 个自动收集的单个培养细胞的特征。所有特征都有正值。我根据数据的随机子样本查看了几个随机选择的特征的直方图,但没有找到一个看起来正态分布的直方图;那些是单峰钟形的,都有明显的偏斜。一些特征具有极端异常值(因此直方图只有一两个高到足以与空 bin 区分开来的 bin)。
这些细胞是从患者活组织检查中培养出来的,分成约 2500 个亚培养物,对其进行约 800 种不同可能治疗中的一种,包括“不治疗”对照。治疗本身分为约 200 个不同的组。因此,想象一下将所有观察结果划分为约 200 个子样本,这约 200 个治疗组中的每一个都有一个。目前,我有兴趣测量与这些子样本中的每一个相对应的(多变量)样本分布与对照(无处理)子样本之间的距离。
2更准确地说,需要这个逆来计算使用我的公式。它是在这个特定公式的推导中,而不是在定义中就其本身而言,出现了正态假设。我从 Kailath 1967 年的论文中得到了公式(Kailath,Thomas。“信号选择中的散度和 Bhattacharyya 距离测量。”通信技术,IEEE Transactions on 15.1 (1967): 52-60.)。