假设我有一些数据,即一组实数。
是否有任何好的通用方法来确定这些数据是否符合给定的概率分布,例如正态分布、对数正态分布或任何其他分布?如果是这样,那里有哪些最好的方法?
假设我有一些数据,即一组实数。
是否有任何好的通用方法来确定这些数据是否符合给定的概率分布,例如正态分布、对数正态分布或任何其他分布?如果是这样,那里有哪些最好的方法?
正如@ChillPenguin 所指出的,有一些统计测试可以让你检查你的数据是否与给定的分布不匹配。但是,我认为图形技术最适合这项任务。
通常,最好的方法是使用qq-plot。一种使用较少但类似的方法是使用pp-plot。请注意,qq-plot 可以在分布的尾部提供更好的分辨率,而 pp-plot 可以在分布的中间提供更好的分辨率。正如我所说,人们通常使用 qq 图,因为通常尾部的偏差更重要。
这些图可以很容易地看出您的数据与理论分布不同,但有时很难解释它们是如何偏离的。如果您检查了 qq 图,并且担心您的数据不合适,但想要更清楚地了解其表现方式,则一种方法是制作数据的核密度图,可能与理论分布重叠具有相同的均值和 SD。
请注意,这些方法都不一定会告诉您数据来自哪个分布,它们只会告诉您拟合是合理的还是差的。如果它们很差,那么您需要利用您对数据的了解以及现有的分布范围来选择另一个竞争者进行探索。例如,如果您有一个计数分布,例如,不同位置的汽车事故数量,并将其与正常值进行对比,您很可能会发现不合适。但是,没有任何内容可以告诉您应该根据泊松分布检查您的数据。你需要自己知道。
给定一个模型(即一个参数化的分布族,例如通过均值和方差参数化的正态分布族),最直接的做法是使用最大似然估计来估计参数,然后使用概率密度函数来评估数据有多典型。如果模型是传统且简约的(而不是针对数据或其他东西量身定制),并且它使数据看起来相当典型,那么您可以争辩该模型足够好。
通常建议对此类事情进行拟合优度测试,但它们的全部好处是证明数据并非来自给定分布的声明是正确的。未能拒绝拟合优度检验的零假设并不能证明数据确实来自该分布。