机器算法验证 - 数据点属于哪个分布？ - 吾爱随笔录

数据点属于哪个分布？

机器算法验证分布推理样本

2022-03-24 11:59:35

我有两个分布，它们来自 2 个独立的数据集。这些分布不是正态分布，目前尚不清楚它们是否属于任何已知 pdf 家族（它们也不是对称的）。给定一个数据点，我需要确定它最有可能属于哪个分布。如果这些是正态分布，我可以进行通常的参数测试并从那里开始，但在这种情况下，我不确定如何进行。我搜索了一下，但找不到任何东西，可能是因为我没有使用正确的关键字。任何帮助深表感谢。

编辑澄清：我应该提到它是单变量的。我也不妨在这里解释一下实际问题。我们有用户在网站上花费的时间数据。我们也有关于用户喜欢或不喜欢其中一些网站的信息（约占所有网站的 4%）。所以我们知道喜欢和不喜欢所花费的时间分布。那么，一个明显的问题是，对于花费 x 时间的随机用户，他们更有可能喜欢该页面还是不喜欢该页面。我们花费的时间信息是基于秒的，所以分布非常谨慎，但在现实生活中，它们是连续的。

3个回答

（我的回答看起来像我假设单变量分布，但基本思想延续到具有更多变量的情况。）

如果您有总体分布（，）而不是样本和点，则可以比较密度的高度（或离散随机变量的概率函数）以找到具有更大可能性的分布产生观察。即比较和。 $F$ $G$ $x_{new}$ $f(x_{new})$ $g(x_{new})$

在此处输入图像描述

但是，您只有样本。对于大样本，您可以做出一些假设（例如“原始人口密度是平滑的”）并使用（例如）核密度估计*（和），然后比较 - 当然，估计的概率取决于您选择的带宽和内核等因素，并且会受到随机变化的影响（新样本会在每个处产生不同的相对密度估计，尽管在大型随机样本中他们应该寻找类似于人口密度）。 $\hat f$ $\hat g$ $x_{new}$ $x$

* 或对数样条密度估计，或其他

你可能会做一些其他的事情，但它几乎可以归结为“你准备假设什么？”

（或者你想采用贝叶斯方法吗？）

我不是专业的统计学家，我认为情况是这样的。我们有两个（或更多）重叠分布。该任务经常出现在光谱学中。所以在这里你有大约 0.25 的概率属于一个分布，0.1 属于另一个分布。

我正在尝试解决一个完全类似的问题。我开始使用的基本方法是假设检验。

如果两个分布的间隔相当大，那么您可以检查数据点是否位于不喜欢的网站数据的底部 95% 之外。如果是这样，您可以得出用户喜欢该网站的 5% 错误。同样，如果数据点位于喜欢网站数据的前 95 个百分位之外，则可以说用户不喜欢该网站。

这样你可以得到一个数字“d”和另一个“l”。如果花费的时间低于 d，他们不喜欢，如果花费的时间高于 l，他们喜欢。在 d 和 l 之间做什么是我什至想知道的。即，我们从未使用过预期混合的值（大约 4% 的人不喜欢该网站），我也无法在我的问题中使用它。

其它你可能感兴趣的问题

上一篇ARIMA 模型识别下一篇如何提取auto.arima的预测时间序列的值