假设我们在 2005 年 1 月 1 日观察到一个事件,并且我们从 2000 年开始观察这些事件。泊松分布的最佳估计值是多少?
一种方法是设置强度每年。这是泊松 MLE 估计,因为我们已经过去了 18 年,并且只观察到一个事件。
另一种方法似乎是将指数分布拟合到到达时间。它们会导致相同的估计吗?
更新
在我的问题中,泊松强度的估计取决于对单个事件的观察。这是一个重要因素,因为它不会破坏泊松通常的 MLE 并不明显。
我运行了一个模拟,其中绘制了随机强度,然后从这些强度中绘制了随机频率。我们只关注等于 18 年的频率。最后,我们使用等于观察频率的强度估计器,就像在泊松的通常 MLE 中一样,并与真实强度进行比较。
我怀疑对于在一个样本周期内精确观察到一次事件的罕见事件,泊松强度的估计可能比观察到的频率更好。然而,这个模拟显示了通常泊松 MLE 的零偏差。
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats
ns = 100000
T = 10
lam = np.random.gamma(1,1/T,ns) # random intensities ~1/18 (per year)
obsf = np.random.poisson(lam*T,ns) # observe frequencies for 18 years
plt.hist(obsf)
plt.title('random intensities')
plt.show()
sidx = np.where(obsf==1)[0] # we only look at trials where 1 event happened in 18 years
err = (obsf[sidx]/T - lam[sidx]) # error when intensity estimator is set to observed frequency
print(stats.describe(err))
plt.hist(err)
plt.title('errors')
plt.show()
DescribeResult(nobs=25146, minmax=(-0.30917753984994045, 0.055486021558327742), mean=-0.00044121203771743959, variance=0.0015661042110224508, skewness=-1.434031238643681, kurtosis=2.993433694497429)
更新 2
我使用 Gamma 作为模拟参数分布。这是不公平的,因为伽马是泊松之前的。我将使用其他一些发行版。