联合多峰直方图

数据挖掘 多类分类 分配 方差 高斯
2022-02-24 21:13:15

我正在分析一堆数据文件,这些数据文件代表细胞对添加药物的反应。如果不添加药物,细胞反应正常,如果添加,则显示异常模式: 正常响应,文件 1, 服药后,档案1. 我们决定使用幅度直方图对此进行分析,以便区分幅度变化和引发二元响应的概率变化。我们从文件 1 中得到的是: 所以我们在上面放了一个 pdf:档案 1 没有药物文件 1 药物添加无药减法

但问题是:我们应该如何量化这种变化:一个明显的答案是进行积分,但由于添加药物可能会增加“噪声”光谱(第一个峰值 auc),这并不完全明显应该做完了。此外,其他数据文件不一定包含相同数量的离子通道(响应单元),因此由于生物变异性,它们的 pdf 可能具有或多或少的峰值。如果峰值数量不同,如何总结多个峰值高斯的特征?我正在考虑对频率范围进行积分,但是在具有两个高斯峰值的文件和一个具有 5 个峰值的文件之间肯定会有所不同:如何对具有未知峰值数量的高斯分布数组进行汇总统计?

另一个分析文件实际上不包含三个开口:治疗前文件2, 治疗后文件2. 如果峰值数量未知,在条件 a 和条件 b 中显示多个峰值高斯之间差异的合理方法是什么?

我在考虑积分,但这会消除治疗引起的潜在噪音增加。我在考虑积分/频率增量,但我从未在文献中看到它发表过,如果我能用一些以前发表的作品来支持我选择这种分析的理由,我会非常高兴。我是否遗漏了一些非常明显的东西,或者对此没有简单的答案?谢谢,J。

1个回答

一种选择是Kullback-Leibler 散度,它衡量一个概率分布与第二个概率分布的不同程度。

Kullback–Leibler 散度比较整个分布(不仅仅是峰值),并且不对分布的函数形式做出任何假设(这很有用,因为您的数据不是非常高斯)。

事实上,Kullback–Leibler 散度可以比较离散分布,因此您不需要拟合核密度估计 (KDE) 曲线。