假设您正在尝试估计随机变量的 pdf ,其中有大量 iid 样本(即非常大,想想数千 - 数百万)。
一种选择是估计均值和方差,并假设它是高斯的。
另一方面,可以进行内核密度估计,以获得更准确的结果(尤其是在有这么多数据的情况下)。
问题是,我需要非常快速地评估生成的 pdf。如果我假设 pdf 是高斯的,那么评估 pdf非常快,但估计可能不准确。另一方面,内核密度估计会太慢而无法使用。
所以问题是:获得比高斯更一般的pdf估计值的常用方法是什么,但以增量方式?理想情况下,我希望有一个具有多个参数(例如)的模型,可用于权衡估计精度和评估速度。
我想到的可能方向是:
估计分布的矩,并仅根据这些矩找到 pdf。这里是矩的数量。但是,基于模型的pdf的模型是什么?
个混合的高斯混合(这里,因为对于混合的每个元素,我们保持均值、方差和权重,并且权重总和为 1)。这是一个好主意吗?
欢迎任何其他想法。
谢谢!
相关问题:ML 估计;
更新/澄清:
感谢到目前为止的所有答案。
我真的需要 pdf(不是 cdf,也不是从这个分布中采样)。具体来说,我使用朴素贝叶斯 (NB) 分类和回归的标量 pdf 估计:给定标签,每个特征都有一个 pdf,并且 NB 假设说它们是独立的。因此,为了计算后验(给定特征值的标签概率),我需要在观察到的特征值处评估不同的 pdf。