将分布划分为两个独立分布的似然检验

机器算法验证 假设检验 离散数据
2022-04-20 14:12:46

我一直在谷歌搜索,但找不到我的问题的答案。任何帮助,将不胜感激。

我的问题最简单的例子是:想象我有一袋不同颜色的弹珠。有人走过来,“可能”随机抽取 X 个弹珠。后来有人过来,又抽取了一个弹珠样本。显然不同颜色的分布会有所不同。我正在寻找一个测试,它可以告诉我这些差异有多大可能是由于偶然性或非随机抽样造成的。

在我的实际问题中,我正在研究多比对序列中的氨基酸分布。我们根据临床参数将患者分为两组(或“不可分配”)。我们正在寻找序列分布不同的区域。

根据评论,这里有更多细节:

数据是一组没有内在顺序的“字母”,所以像 KS 测试这样的大多数测试都已经过时了。20 种颜色中的任何一种都有大约 600 件商品,每种颜色的商品数量介于 0 到 400 件之间(因此分布是倾斜的)。第 1 组有约 200 个项目的随机抽样,第 2 组是约 40 个。

我目前的方法是做一个排列测试。为此,我从整个序列集中取出所有字母并将它们打乱。然后我将前约 200 个带入 Group-1,接下来的约 40 个带入 Group-2。我计算每组中观察到的分布并计算分布之间的欧几里得距离。在大约 10,000 次改组后,我发现距离大于观察到的距离的可能性。

显然这不是我理想的方法......我不认为 Euc-Distance 是最佳选择,但我想不出更好的选择。在这方面的任何想法也将受到欢迎。

1个回答

如果我接近这个,我会:

尝试使用梯度提升树的随机森林来仅基于氨基酸预测患者(或感兴趣的患者特征)。这些工具处理分类输入。这将允许将感兴趣的区域从 600 维(或其他)减少到 5-30 维的数量级。在更小的维度数据集中,您可能会发现更多教科书方法更成功。

参考: http ://www.journalogy.net/Publication/6491785/feature-selection-with-ensembles-artificial-variables-and-redundancyelimination