Python - 测试我的数据是否遵循泊松/指数分布

机器算法验证 分布 Python 泊松分布 描述性统计 指数分布
2022-03-24 13:32:34

我的问题与stackoverflow上的问题和crossvalidated上的问题非常相似,但我想了解更多详细信息。

我有一些数据,如果我假设这些数据遵循指数/泊松分布,我想检查我会有多少错误(如果可能的话,我想估计参数)。

在 X 轴上,我有一个概率度量(它通常接近 0,很少接近 1)。

数据

你可以帮帮我吗?

2个回答

做你想做的事情的一种方法是将你的数据与假设的分布(指数,泊松,..)进行比较,看看你是否可以根据该比较得出任何结论。

这是一种方法:

  1. 找出您要比较的分布。
  2. 对于该分布,确定完全描述该分布的相关参数是什么。
    • 通常是均值和方差。在泊松的情况下,均值等于方差,因此您只有 1 个参数可以估计,λ.
  3. 使用您自己的数据来估计该参数。
    • 对于泊松,取数据的平均值。这将是平均值(λ) 你生成的泊松。
  4. 将生成的泊松分布值与实际数据的值进行比较。
    • 通常比较意味着找到分布之间的距离。您可以查看Kullback-Leiber 散度
    • 一种可能更简单的方法是比较数据生成的每个点与泊松分布上的对应点之间的距离。
    • 要查看差异是否足够大以具有统计显着性(因此您可以对数据的分布做出一些确定),您可以运行一个显着测试,如评论中所述。查找KS 测试以获取更多信息。此方法有缺陷,因此请确保您了解它在做什么。
    • 如果您不了解显着性测试,我建议您搜索此论坛以获取更多信息。那里。是。很多。
  5. 查看scipy.stats.kstest以了解 Python 中的实现细节。