数据点属于哪个分布?

机器算法验证 分布 推理 样本
2022-03-24 11:59:35

我有两个分布,它们来自 2 个独立的数据集。这些分布不是正态分布,目前尚不清楚它们是否属于任何已知 pdf 家族(它们也不是对称的)。给定一个数据点,我需要确定它最有可能属于哪个分布。如果这些是正态分布,我可以进行通常的参数测试并从那里开始,但在这种情况下,我不确定如何进行。我搜索了一下,但找不到任何东西,可能是因为我没有使用正确的关键字。任何帮助深表感谢。

编辑澄清:我应该提到它是单变量的。我也不妨在这里解释一下实际问题。我们有用户在网站上花费的时间数据。我们也有关于用户喜欢或不喜欢其中一些网站的信息(约占所有网站的 4%)。所以我们知道喜欢和不喜欢所花费的时间分布。那么,一个明显的问题是,对于花费 x 时间的随机用户,他们更有可能喜欢该页面还是不喜欢该页面。我们花费的时间信息是基于秒的,所以分布非常谨慎,但在现实生活中,它们是连续的。

3个回答

(我的回答看起来像我假设单变量分布,但基本思想延续到具有更多变量的情况。)

如果您有总体分布()而不是样本和点,则可以比较密度的高度(或离散随机变量的概率函数)以找到具有更大可能性的分布产生观察。即比较FGxnewf(xnew)g(xnew)

在此处输入图像描述

但是,您只有样本。对于大样本,您可以做出一些假设(例如“原始人口密度是平滑的”)并使用(例如)核密度估计*(),然后比较 - 当然,估计的概率取决于您选择的带宽和内核等因素,并且会受到随机变化的影响(新样本会在每个处产生不同的相对密度估计,尽管在大型随机样本中他们应该寻找类似于人口密度)。f^g^xnewx

* 或对数样条密度估计,或其他

你可能会做一些其他的事情,但它几乎可以归结为“你准备假设什么?”

(或者你想采用贝叶斯方法吗?)

我不是专业的统计学家,我认为情况是这样的。我们有两个(或更多)重叠分布。该任务经常出现在光谱学中。所以在这里你有大约 0.25 的概率属于一个分布,0.1 属于另一个分布。

在此处输入图像描述

在此处输入图像描述

我正在尝试解决一个完全类似的问题。我开始使用的基本方法是假设检验。

如果两个分布的间隔相当大,那么您可以检查数据点是否位于不喜欢的网站数据的底部 95% 之外。如果是这样,您可以得出用户喜欢该网站的 5% 错误。同样,如果数据点位于喜欢网站数据的前 95 个百分位之外,则可以说用户不喜欢该网站。

这样你可以得到一个数字“d”和另一个“l”。如果花费的时间低于 d,他们不喜欢,如果花费的时间高于 l,他们喜欢。在 d 和 l 之间做什么是我什至想知道的。即,我们从未使用过预期混合的值(大约 4% 的人不喜欢该网站),我也无法在我的问题中使用它。