我有 2 个呈指数分布的数据集,我想确保它们来自不同的分布。不幸的是,数据检测中的一个必要错误迫使我丢弃某个阈值以下的所有数据。在每组中,我有大约 3000 个数据点,绘制数据让我认为 lambda 值是不同的。拟合也会产生不同的 lambda 值。
如何确定两个数据集来自不同的分布?
这是集合的外观图(请注意,必须丢弃 life=3sec 下的所有值):

更新:上述分布在两种情况下都在 N 上进行了归一化,只是为了在图表中更好地比较它们,因为数据点的总数 N 不同。
UPDATE2:截断后,红色数据集有大约 150 个生命周期值,蓝色数据集有 350 个生命周期值。原来3000被夸大了(对不起)。
UPDATE3:感谢您对我的包容。这是原始数据:
http://pastebin.com/raw.php?i=UaGZS0im
http://pastebin.com/raw.php?i=enjyW1uC
到目前为止,我为两个数据集拟合了一个指数函数并比较了斜率。由于任何标准化都不应该改变数据的斜率,因此不同的斜率应该意味着不同的潜在指数分布(我的统计分析经验非常有限)。
阈值以下的值将被丢弃,因为测量在该状态下过于频繁地检测到许多事件。
UPDATE4:我刚刚意识到我的问题比我想象的要复杂得多。实际上,我已经离开审查(我不知道某些事件的开始)和正确审查(不知道某些事件的结束)数据,并且我必须丢弃 3 秒以下的所有生命周期(截断)。有没有办法将所有这些整合到一个分析中?到目前为止,我找到了一些关于如何处理审查数据(生存分析)的帮助,但我应该如何处理截断?