假设我有一个模拟结果产生一个浮点数,每次模拟运行时都会产生一个不同的数字。这些数字是根据一些未知的分布随机分布的。我想根据有限的数字样本来近似潜在的密度分布函数。
我知道我可以使用直方图,但是箱的大小基本上是任意的,会显着影响结果。我想要一种没有“任意性”的方法。
有任何想法吗?
假设我有一个模拟结果产生一个浮点数,每次模拟运行时都会产生一个不同的数字。这些数字是根据一些未知的分布随机分布的。我想根据有限的数字样本来近似潜在的密度分布函数。
我知道我可以使用直方图,但是箱的大小基本上是任意的,会显着影响结果。我想要一种没有“任意性”的方法。
有任何想法吗?
由于分布函数包含的信息比您开始时的有限数字集更多,因此您显然必须在过程中添加信息。此信息以您假设的模型的形式出现,并且您调整其参数以使模型适合您的有限样本。除非您的问题的性质表明某些模型,否则选择在某种程度上总是任意的。
使用直方图,您的模型是分段常数函数的模型,其中片段(箱)具有固定宽度。使用核密度估计,您的模型就是核。没有办法选择模型,您能做的最好的事情就是根据您对数据的了解(或可以合理假设)做出明智的选择。
核密度估计是一个很好的建议。另一种选择是构建经验 CDF,然后寻找最适合的分布。根据您的输出形式,这可能比通常用于多模式分布的 KDE 更合适。此处有关经验 CDF 的更多详细信息:
http://en.wikipedia.org/wiki/Empirical_distribution_function
形成经验 CDF 后,您可以使用拟合优度指标 ( http://en.wikipedia.org/wiki/Goodness_of_fit ) 或最大似然估计 ( http://en.wikipedia.org/wiki/Maximum_likelihood ) 来查看哪种分布类型和参数值最适合您的数据。如果您没有充分的理由假设数据由于其灵活性(http://en.wikipedia.org/wiki/Pearson_distribution)而遵循通常的嫌疑人之一,则有时会在这些情况下使用 Pearson 分布。
最后,正如您所指出的,您只有有限的数据。考虑到有限的数据,了解最佳拟合的不确定性可能很重要,这可以通过贝叶斯推理 ( http://en.wikipedia.org/wiki/Bayesian_inference ) 来完成。如果实施得当,这可以说明您的模型选择和给定模型的最佳拟合参数。
您正在寻找的是Kernel Density Estimation。
执行此操作的算法内置于许多科学软件包和库中。内核和带宽的选择仍然存在一定程度的随意性,但这些都是有启发式的。
我认为您还需要决定在获得此发行版后要如何处理它。如果您认为可以从中采样而不是运行模拟以从过程中获取随机变量,那么您必须问自己更多关于准确性有多重要的问题,以及您对真实密度的近似值的变化将如何影响结果从近似密度采样与通过过程获取样本...